专利详情-喀斯玛汇智科技服务平台

专利名称

一种高效的文本数据挖掘方法

申请号

CN201110385415.1

专利类型

发明专利

公开（公告）号

CN102402606A

公开（授权）日

2012.04.04

申请（专利权）人

中国科学院计算机网络信息中心

发明（设计）人

杨风雷;黎建辉;吴开超;薛正华;张波

主分类号

G06F17/30(2006.01)I

IPC主分类号

G06F17/30(2006.01)I

专利有效期

一种高效的文本数据挖掘方法至一种高效的文本数据挖掘方法

法律状态

实质审查的生效

说明书摘要

本发明公开了一种高效的文本数据挖掘方法，属于信息技术领域。本方法为：1)文件预处理阶段将内容经分词后的原文件合并为若干新文件；2)数据映射阶段计算每一词语在新文件中的总频数、在其中每一原文件中的频数及相对频率pr等，并将结果发送到重定向模块中；3)重定向阶段计算每一Reduce任务的负载量payload，并为每一Reduce任务设置一负载指示器payi；4)判断当前词语是否已分配了Reduce任务；如果未分配，则将其分配给Reducej，且payj+pr*100≤payload成立；然后更新Reducej的负载指示payj；否则将当前词语分配给相应Reducei任务；5)数据规约阶段对分配的词语计算其最终的频数等参数；6)根据数据规约结果，提取设定范围内频数大于设定阈值的词语。本发明大大提高频数计算、数据挖掘效率。

01、选取所需专利
02、确认专利可交易
03、签订合同
04、上报材料
05、确认变更成功
06、支付尾款
07、交付证书

企业提供

企业营业执照
专利证书原件

个人提供

身份证
专利证书原件

平台提供

专利代理委托书
专利权转让协议书
办理文件副本请求书
发明人变更声明

过户后买家信息

专利证书
手续合格通知书
专利登记薄副本

1、源头对接，价格透明
2、平台验证，实名审核
3、合同监控，代办手续
4、专员跟进，交易保障

一种高效的文本数据挖掘方法

企业提供

个人提供

平台提供

过户后买家信息

求购专利