专利内容由知识产权出版社提供
专利名称:一种扩充样本语料的语料正则式的方法和系统专利类型:发明专利发明人:李选洪
申请号:CN201910325710.4申请日:20190422公开号:CN111859975A公开日:20201030
摘要:本发明提供了一种扩充样本语料的语料正则式的方法和系统,其方法包括:根据实体内容建立知识图谱;获取样本语料,根据所述样本语料生成语料正则式;对所述样本语料进行分词得到语料分词;将所述语料分词和所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;根据所述知识图谱获取所述实体分词对应的上一层级的实体概念;根据所述实体概念调整所述语料正则式得到正则表达式。本发明通过知识图谱获取样本语料中实体分词对应的上一层级的实体概念,根据实体概念扩充根据样本语料得到的语料正则式,从而增加语义正则的泛化能力。
申请人:广东小天才科技有限公司
地址:523851 广东省东莞安镇霄边社区东门中路168号
国籍:CN
代理机构:上海硕力知识产权代理事务所(普通合伙)
代理人:郭桂峰
更多信息请下载全文后查看