一种基于Spark SQL的分布式全文检索系统及方法

专利详情 交易流程 过户资料 平台保障
专利名称 一种基于Spark SQL的分布式全文检索系统及方法 申请号 CN201710269870.2 专利类型 发明专利 公开(公告)号 CN107122443A 公开(授权)日 2017.09.01 申请(专利权)人 中国科学院软件研究所 发明(设计)人 许利杰;崔光范;刘杰;马志柔;吴怀林;叶丹 主分类号 G06F17/30(2006.01)I IPC主分类号 G06F17/30(2006.01)I 专利有效期 一种基于Spark SQL的分布式全文检索系统及方法 至一种基于Spark SQL的分布式全文检索系统及方法 法律状态 实质审查的生效 说明书摘要 本发明涉及一种基于Spark?SQL的分布式全文检索系统及方法,包括SQL翻译层、数据源管理层、并行计算层、分布式存储层,在SQL翻译层中提出了基于SQL的全文检索文法以及全文检索SQL语句在SQL翻译层各模块间的翻译过程;在数据源管理模块设计了全文检索过程的并行化方法;检索优化模块中,设计了两种索引存储模型和相应的查询时原表数据还原策略,其中基于索引指定列存储模型设计了一种用于在查询时还原原表数据、复杂度为O(n)的分区对齐连接算法。在两种存储模型下,索引构建时间缩短为传统数据库的0.6%/0.5%,查询时间缩短为传统数据库的1%/10%,索引存储量减少为传统数据库的55.0%。增强了Spark?SQL数据分析功能,能够满足传统业务迁移和现有业务对海量数据进行全文检索的需求。

企业提供

企业营业执照
专利证书原件

个人提供

身份证
专利证书原件

平台提供

专利代理委托书
专利权转让协议书
办理文件副本请求书
发明人变更声明

过户后买家信息

专利证书
手续合格通知书
专利登记薄副本

1、源头对接,价格透明
2、平台验证,实名审核
3、合同监控,代办手续
4、专员跟进,交易保障

求购专利

官方客服(周一至周五:08:30-17:30) 010-82648522