| 专利名称 | 文本相似度的统计方法及系统 | 申请号 | CN201310074669.0 | 专利类型 | 发明专利 | 公开(公告)号 | CN103176962A | 公开(授权)日 | 2013.06.26 | 申请(专利权)人 | 深圳先进技术研究院 | 发明(设计)人 | 朱定局 | 主分类号 | G06F17/27(2006.01)I | IPC主分类号 | G06F17/27(2006.01)I | 专利有效期 | 文本相似度的统计方法及系统 至文本相似度的统计方法及系统 | 法律状态 | 实质审查的生效 | 说明书摘要 | 本发明公开了一种文本相似度的统计方法,包括:获取需要判别相似度的第一和第二文本;以第一划分尺度将第一和第二文本分别分割成若干文本片段,计算第一划分尺度下第一与第二文本中相同的文本片段数量占第一文本的文本片段总数的比例;自第一和第二文本中删除相同的文本片段,分别得到第一剩余文本和第二剩余文本;以第二划分尺度将第一和第二剩余文本分别分割成若干文本片段,计算第二划分尺度下第一与第二剩余文本中相同的文本片段数量占第一剩余文本的文本片段总数的比例;计算第一文本与第二文本的综合相似度。本发明能够较为准确反映被人为打乱了字词句顺序的文本之间的相似程度,将被故意打乱了词序、句序、段序的相似文本检测出来。 |
1、源头对接,价格透明
2、平台验证,实名审核
3、合同监控,代办手续
4、专员跟进,交易保障