专利名称 | 一种新词发现方法和系统 | 申请号 | CN200710175229.9 | 专利类型 | 发明专利 | 公开(公告)号 | CN101131705 | 公开(授权)日 | 2008.02.27 | 申请(专利权)人 | 中国科学院计算技术研究所 | 发明(设计)人 | 龚才春;黄玉兰 | 主分类号 | G06F17/30(2006.01)I | IPC主分类号 | G06F17/30(2006.01)I | 专利有效期 | 一种新词发现方法和系统 至一种新词发现方法和系统 | 法律状态 | 授权 | 说明书摘要 | 本发明公开了一种发现新词的方法,包括以下步骤:查找语料中所有出现 频次大于一定阈值的字符串;统计每一个字符串在语料中所有出现位置的左侧 和右侧各有多少个不同的字符或词语;若字符串左右侧不同字符或词语数量均 大于某个预先设定的阈值,则将该字符串作为新词输出;否则在搜索引擎网站 对字符串进行精确搜索和模糊搜索,若精确搜索返回结果数量大于一定阈值, 和/或精确搜索和模糊搜索返回的结果数量之比大于一定阈值,和/或精确搜索 返回结果网页中字符串的左右侧字符或词语种类数大于一定阈值,则将该字符 串作为新词输出。本发明既能够发现在语料中出现频次较高的新词,也能够发 现在语料中出现频次较低的新词,同时新词发现的准确率较高。 |
1、源头对接,价格透明
2、平台验证,实名审核
3、合同监控,代办手续
4、专员跟进,交易保障