专利名称 | 一种基于词位标注的藏文分词方法 | 申请号 | CN201110116500.8 | 专利类型 | 发明专利 | 公开(公告)号 | CN102135956A | 公开(授权)日 | 2011.07.27 | 申请(专利权)人 | 中国科学院软件研究所 | 发明(设计)人 | 刘汇丹;吴健;诺明花;马龙龙 | 主分类号 | G06F17/27(2006.01)I | IPC主分类号 | G06F17/27(2006.01)I | 专利有效期 | 一种基于词位标注的藏文分词方法 至一种基于词位标注的藏文分词方法 | 法律状态 | 实质审查的生效 | 说明书摘要 | 本发明公开了一种基于词位标注的藏文分词方法,属于藏文信息处理领域。本方法为:1)对输入的藏文文本,以标点符号为标志切分为一系列藏文句子;2)对每个藏文句子,以藏文音节点为标志切分为一系列藏文音节;3)对每个藏文音节,根据其所处上下文环境从知识库中查找并选择一个词位标签赋予该音节;4)将所有被标记为紧缩的音节还原为两个音节,并依前后顺序分别标记为词尾和独立;5)将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;6)将所有被标记为独立的音节以及所有未被合并的音节作为单音节词。本发明没有显式地区分词表词和未登录词,所有的处理都是在音节一级的单元上完成,使得分词称为音节重组的简单过程。 |
1、源头对接,价格透明
2、平台验证,实名审核
3、合同监控,代办手续
4、专员跟进,交易保障