专利名称 | 一种从单记录网页中抽取规律噪音的方法 | 申请号 | CN201210592795.0 | 专利类型 | 发明专利 | 公开(公告)号 | CN103064966A | 公开(授权)日 | 2013.04.24 | 申请(专利权)人 | 中国科学院计算技术研究所 | 发明(设计)人 | 程学旗;李海燕;郭岩;万圣贤;郭少华;刘悦;余智华 | 主分类号 | G06F17/30(2006.01)I | IPC主分类号 | G06F17/30(2006.01)I | 专利有效期 | 一种从单记录网页中抽取规律噪音的方法 至一种从单记录网页中抽取规律噪音的方法 | 法律状态 | 公开 | 说明书摘要 | 本发明提供一种从单记录网页中抽取规律噪音的方法,所述方法包括:首先将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;然后,将同一类别的DOM树进行对齐合并得到站点板块风格树;在所述站点版块风格树中定位网页正文标题节点的近似位置和网页正文主体节点的近似位置,最后根据所述网页正文标题节点和所述网页正文主体节点的近似位置,抽取正文前、正文中和正文后的规律噪音。所述方法减少了建站点版块风格树所需的空间资源、降低了可能出现的漏抽取的情况,加快了抽取速度;此外,本发明的抽取结果具有较高的准确性,取得了较好的效果,并且可靠性高。 |
1、源头对接,价格透明
2、平台验证,实名审核
3、合同监控,代办手续
4、专员跟进,交易保障