| 专利名称 | 微博消息中命名实体识别方法及系统 | 申请号 | CN201310182978.X | 专利类型 | 发明专利 | 公开(公告)号 | CN103268339A | 公开(授权)日 | 2013.08.28 | 申请(专利权)人 | 中国科学院计算技术研究所 | 发明(设计)人 | 程学旗;伍大勇;李静远;王元卓;刘倩 | 主分类号 | G06F17/30(2006.01)I | IPC主分类号 | G06F17/30(2006.01)I;G06F17/27(2006.01)I | 专利有效期 | 微博消息中命名实体识别方法及系统 至微博消息中命名实体识别方法及系统 | 法律状态 | 实质审查的生效 | 说明书摘要 | 本发明提供一种微博消息中命名实体识别方法。该方法指定少量命名实体作为种子,从待处理的原始微博消息集合中自动标注一定数量的微博作为训练数据集,然后该训练数据集来训练命名实体识别器并利用训练好的命名实体识别器对微博消息中的命名实体进行识别。该方法只需指定少量已有的种子实体,便可自动标注高质量的训练集。对于微博消息这种更新速度较快的文本来说,显著缩减人工成本。而且采用迭代的方式逐步产生高质量的标注数据,每次选择最能体现真实微博数据中命名实体出现规律的前N个新命名实体补充到种子库,最终生成的标注数据能很好的覆盖整个微博数据集。 |
1、源头对接,价格透明
2、平台验证,实名审核
3、合同监控,代办手续
4、专员跟进,交易保障