专利名称 | 一种中文新词语的检测方法及其检测系统 | 申请号 | CN200410000651.7 | 专利类型 | 发明专利 | 公开(公告)号 | CN1641634 | 公开(授权)日 | 2005.07.20 | 申请(专利权)人 | 中国科学院计算技术研究所 | 发明(设计)人 | 邹纲;刘群 | 主分类号 | G06F17/27 | IPC主分类号 | G06F17/27;G06F17/30 | 专利有效期 | 一种中文新词语的检测方法及其检测系统 至一种中文新词语的检测方法及其检测系统 | 法律状态 | 授权 | 说明书摘要 | 本发明涉及一种中文新词语的检测方法及其检 测系统。本发明基于Internet的中文新词语自动检测的方法, 包括网页采集,网页信息处理和新词查找三个部分,且充分利 用了从Internet采集而来的网页上的时间信息,从网页中提取 时间信息和内容,对其切分并在切分的基础上查找重复串,然 后存入原始数据库,再在给定时间的基础上,将原始数据库划 分成给定时间以前和给定时间以后的两个数据库,将这两个数 据库进行对比,得到新词候选列表,最后的结果由人工确认一 下。本发明通过对比寻找某个时间点以后的新词语,可以寻找 不限长度和构成的多字词与多字词组成的新词,并利用词的构 成规律来滤除垃圾串,具有时效性高的特点。 |
1、源头对接,价格透明
2、平台验证,实名审核
3、合同监控,代办手续
4、专员跟进,交易保障