专利名称 | 一种基于Spark SQL的分布式全文检索系统及方法 | 申请号 | CN201710269870.2 | 专利类型 | 发明专利 | 公开(公告)号 | CN107122443A | 公开(授权)日 | 2017.09.01 | 申请(专利权)人 | 中国科学院软件研究所 | 发明(设计)人 | 许利杰;崔光范;刘杰;马志柔;吴怀林;叶丹 | 主分类号 | G06F17/30(2006.01)I | IPC主分类号 | G06F17/30(2006.01)I | 专利有效期 | 一种基于Spark SQL的分布式全文检索系统及方法 至一种基于Spark SQL的分布式全文检索系统及方法 | 法律状态 | 实质审查的生效 | 说明书摘要 | 本发明涉及一种基于Spark?SQL的分布式全文检索系统及方法,包括SQL翻译层、数据源管理层、并行计算层、分布式存储层,在SQL翻译层中提出了基于SQL的全文检索文法以及全文检索SQL语句在SQL翻译层各模块间的翻译过程;在数据源管理模块设计了全文检索过程的并行化方法;检索优化模块中,设计了两种索引存储模型和相应的查询时原表数据还原策略,其中基于索引指定列存储模型设计了一种用于在查询时还原原表数据、复杂度为O(n)的分区对齐连接算法。在两种存储模型下,索引构建时间缩短为传统数据库的0.6%/0.5%,查询时间缩短为传统数据库的1%/10%,索引存储量减少为传统数据库的55.0%。增强了Spark?SQL数据分析功能,能够满足传统业务迁移和现有业务对海量数据进行全文检索的需求。 |
1、源头对接,价格透明
2、平台验证,实名审核
3、合同监控,代办手续
4、专员跟进,交易保障