专利名称 | 基于内容的敏感网页识别方法 | 申请号 | CN200610073172.7 | 专利类型 | 发明专利 | 公开(公告)号 | CN101055621 | 公开(授权)日 | 2007.10.17 | 申请(专利权)人 | 中国科学院自动化研究所 | 发明(设计)人 | 胡卫明;吴偶;陈周耀;朱明亮 | 主分类号 | G06K9/78(2006.01) | IPC主分类号 | G06K9/78(2006.01);G06K9/72(2006.01);H04L12/24(2006.01) | 专利有效期 | 基于内容的敏感网页识别方法 至基于内容的敏感网页识别方法 | 法律状态 | 实质审查的生效 | 说明书摘要 | 本发明公开一种基于内容的敏感网页识别方法,包括步骤:在给定网页的统一资源定位器的条件下,获取该网页的源码,数据分流和预处理,获取文本信息和有效图像信息;利用连续敏感文本分类器对文本信息处理,如果分类器输出结果为敏感,则处理完毕。否则利用离散敏感文本分类器对文本信息处理,如果分类器输出结果大于事先给定阈值,识别结果为敏感,则处理完毕。否则利用图像分类器对图像识别,识别结果与离散分类器输出结果融合。本发明采用连续敏感文本识别器、离散文本识别器和敏感图像识别器三者结合的方案解决现有技术的问题,本发明利用web结构信息及构造了一个图像集合识别问题来进行信息融合,提高对敏感网页的识别率。 |
1、源头对接,价格透明
2、平台验证,实名审核
3、合同监控,代办手续
4、专员跟进,交易保障