基于全文数据库构建分布式空间数据库
基于全文数据库构建分布式空间数据库
摘要:
利用现有商业和开源的分布式数据系统构建分布式空间数据库,是一种代价小、稳定性高的技术方案。其中,利用ElasticSearch、MangoDB等具备分布式部署能力的全文数据库构件分布式空间数据引擎,是最易实现的技术方案。根据大数据时代的分布式空间数据库)所述,空间数据索引主要有三种实现方式,一是在数据空间中进行划分,而后建立独立的索引结构,其缺点是索引需要与数据同步、索引更新复杂度高,优点是检索效率快;二是构造HASH函数,将多维空间中的数据映射到若干桶中,建立基于桶的索引结构,其优点是索引计算简单,缺点是不同的桶中数据规模不同,难以解决数据倾斜问题,此外也需要建立单独的索引结构,同样存在与数据同步的问题;三是将多维空间映射到一维值空间,直接借用成熟数据库内建的B+树索引,其优点是可直接移植到现有数据库中,缺点是需要将查询窗口映射到若干子区间,将单个查询转换为多个区间查询,计算复杂度较高,检索效率相对较低。本文所述方法属于第三类,并且重点针对全文数据库,借用全文数据库多节点分布式部署的功能实现分布式空间数据存储能力。本文核心 ...
空间大数据引擎综述文章:大数据时代的空间数据引擎
大数据时代的空间数据引擎
【摘要】本文是有关分布式空间数据库相关空间大数据库技术的综述性文章,主要包括几个方面:(1)目前三种主要的分布式空间数据库类型;(2)目前三种重要的分布式空间数据库的实现途径;(3)六个分布式数据库重点考虑的技术点,其中核心是空间索引模型、查询方法和查询语言;(4)三类主要的空间索引模型;(5)空间运算及空间查询方法,有关具体查询算法和空间索引模型密切相关,本文不做过多细节展开;(6)空间查询语言,由于目前不是本人关注重点,暂略,待后面补充。希望通过本文的介绍,让同学们能够对当前分布式空间数据库的技术现状有所了解,更多技术细节请参考文中列出的链接或参考文献,自信深入阅读。
一、分布式空间数据库的三种类型
根据目前空间大数据存储、组织和计算的现状,初步梳理如下:
3.1 以专业应用为重点,基于并行数据库的系统
以Parallel Secondo、Paradise、Sphinx为代表
重点解决的是如何在并行数据库(如:Exodus、Impala等)中实现空间数据的高效组织
此类系统的分布式能力来源于数据库本身
此类分布式空间数据库受限于 ...
基于分布式文件系统实现空间数据引擎
〖 摘 要〗在分布式空间数据库研究的技术体系中,基于成熟数据库实现海量空间数据的组织管理是一种便利的方式,但受限于基底数据库的约束,研究人员很难有更灵活的发挥。因此,直接在分布式文件系统基础上,重新构件分布式空间数据库的方法称为另外一条技术途径。原理上来说,此类方法不能称为严格的空间数据库构建方法,因为其管理的对象大多以静态数据为主,对插入、删除、更新等事物性较强的工作较少涉及。此类技术体系中,较为典型的系统是 SptialHadoop 和 HadoopGIS。本文以 SpatialHadoop 作为重点,剖析此类方法中的关键技术点。
1 背景知识
2 SpatialHadoop 架构
3 分布式空间数据引擎
4 查询方法
5 总结
略。
参考文献
明尼苏达大学 Mohamed F. Mokbel、Ahmed Eldawy、Louai Alarabi 等人发表的下列文献:
2013 年,在 VLDB 上发表的A demonstration of spatialhadoop: An efficient mapreduce framework for ...