地理空间语义的六个主要研究领域

【摘要】

【原文】

【DOI】

一、地理空间语义的概念

1.1 基本概念

“understanding GIS contents, and capturing this understanding in formal theories.”

1.2 核心任务:理解地理信息系统的内容

(1)地理空间语义谁来理解地理空间语义?
(2)机器还是人?如果是人的话,地理空间语义的重点是人类对地理概念和空间关系的认知;
(3)如果是机器的话,则重点在分布式系统之间的语义互操作。

1.3 实现方式:采用形式化理论来捕获对地理信息系统内容的理解

(1)采用本体作为形式化声明来描述概念和关系
(2)用一阶逻辑/描述逻辑等形式化逻辑来定义本体内的概念和公理

1.4 地理空间语义的两个发展方向

趋势1:传统地理空间数据以结构化链接数据的形式组织、发布、抽取和重用

  • 地理空间语义网

趋势2:半结构化、非结构化数据的地理语义抽取、时空模式分析

  • 地理信息抽取、地理知识图谱、GeoAI

1.5 六个地理空间语义的研究领域

  • 语义互操作性与本体
  • 数字地名词典

2. 研究领域1:语义互操作性和本体

2.1 问题的提出

  • 虽然GIS传统上是本地使用的,但地理空间功能和数据越来越多地封装到服务中并在Web上共享

  • 有必要形式化地定义分布式Web服务的语义,以便它们能够自动交互和动态集成

  • 语义互操作性对于空间数据基础设施(SDI)也至关重要,便于数据源和服务的高效整合

2.2 主要技术途径:设计和开发本体

(1)本体:采用机器能够理解的方式,对领域概念、语义进行形式化建模
(2)从数据结构视角,一个本体是一张由概念和关系构成的图,所有的概念和关系都由术语来标识
(3)本体通常作为附加组件被嵌入GIS或Web服务中,以使其具备语义互操作能力
(4)Kuhn2003年建议构建语义参考系统,来促进语义互操作能力

2.3 本体模型的三个层次

本体必须被设计和开发出来,才能够在GIS中使用:
(1)顶层本体:主要包括可跨领域使用的通用术语,如:isPartOf,endurant(持续),perdurant(断续)等
(2)领域本体:主要是对特定学科或领域概念的形式化定义,如:地理本体、地质本体等
(3)本体设计模式:依据应用开发的本体,主要用于捕捉和抽象多个应用中的共同需求。

2.4 本体工程及技术路线

本体工程:开发上述三个层次本体的过程被称为本体工程。

三种主要技术路线:
(1)自顶向下:靠知识工程师和领域专家定义和正规化本体概念和关系,是一种专家模式
(2)自底向上:采用数据挖掘的方法,从结构化或非结构化数据中抽取概念和关系
(3)混合方法:在开发本体的过程中,同时专家知识和数据挖掘成果结合

本体工程的难点: 如何明确、精确(无语义模糊性)地定义原子术语(元语,Primitive Terms,即不可再分的概念)的语义

本体可以采用形式化逻辑来编码,也可以用简单的结构化词汇表来实现。例如:数据标准可能就是一个简单的本体。

2.5 本体对齐

本体对齐:

  • 由于不同领域和研究者开发了无数的本体,如何将这些本体对其,以支持数据集成,称为一个关键问题,实现对齐的过程通常被称为本体对齐。

依据本体对齐的方向,可以分为:
(1)中心化对齐:两个本体都向标准本体对齐
(2)端对端对齐:两个本体之间对齐
根据对齐的方法,可以分为:
(1)元素级别的对齐:对单个概念和关系进行对齐,主要通过比较两者之间标签字符串和字典定义的相似度来实现
(2)结构级别的对齐:对齐过程不仅考虑概念和关系自身,还同时考虑其周边相邻的概念
(3)混合对齐:两种方式混合使用。
(4)利用实例对齐:通过考量两个本体概念中实例的相似度来进行对齐

对齐过程中专家的介入对消除冲突会起到重要作用

2.6 有关本体的争论:

​ 部分学者对使用本体来解决语义问题提出批评,指出本体作为先验的协议,并不能捕获动态变化的概念,需要新的技术途径来解决语义互操作性问题。

3 研究领域2:数字地名辞典

2.1 技术概览

(1)数字地名词典可以看作特殊的本体,因其重要作用和意义,所以单列,可用于地理信息抽取、地理编码、导航等多种重要应用场景
(2)数字地名词典至少包含三个要素:

  • 地名(N)、地名类型(T)和空间足印(F)

(3)数字地名词典至少支持三种操作:

  • 地理编码:(N->F)
  • 类型查找:(N->T)
  • 反向地理编码:(F(xT)->N)

(4)人类采用地名多于采用坐标,而地名词典填补了两者之间的空缺
(5)从地理空间语义角度看,地名词典帮助机器理解文本地名蕴含的地理含义(如:空间足印)以及不同地名实体之间的关系。

2.2 研究热点1:地名词典的丰化

​ 由于地名词典通常是由官方发布和维护的,而地名及其变称动态性很强,因此,如何利用本地或民间地名来丰化地名词典,是一个非常重要的研究命题,大量研究集中在如何给模糊地名确定边界以及地名类型自动判断上。

2.3 研究热点2:多地名词典对齐与合并

​ 不同来源的数字地名词典可能有不同的覆盖范围、不同的空间足印(如:同样的地名有些词典用点表示、有些用面表示)、不同类型和不同属性等。与本体对齐类似,通常可以采用两种方法实现地名词典的对齐:
(1)模式层面的对齐

  • 本体对齐中采用的标签相似性、本体定义、结构相似性都可以用于地名词典的对齐。
  • 对于地名类型歧义问题,可以利用地名的空间分布模式来解决

(2)实例层面的对齐

  • 有多种测量空间足印、名称、地名类型相似度的方法来解决实例对齐问题

2.4 研究热点3:推理与历史地名

  • 基于地名词典的推理
  • 历史地名词典

4. 研究领域3:地理信息抽取

4.1 技术概览

(1)为什么需要地理信息抽取

地理信息抽取主要聚焦在非结构化数据的地理信息抽取上,因为在互联网中,有大约15%的查询包含地名。

(2)地理信息抽取与地理空间语义的关系
为了准确抽取结果,必须理解用户查询和候选结果之间的真实语义

4.2 研究热点1:地名去模糊

(1)目的:解决一词多地或多词一地的问题
(2)方法:测量地名上下文语境与地名词典中候选地名上下文语境之间的相关性
(3)部分相似性测量基于词或实体,另外一些方法基于候选地名之间的距离、候选地名上下文语境覆盖区域的重叠度
(4)近年有学者采用基于地球离散网格的主题建模技术解决地名模糊性问题

4.3 研究热点2:面向查询的候选地名排序算法

(1)目的:为查询提供候选地名的推荐顺序
(2)方法:为输入查询和候选地名之间的匹配度打分

4.4 研究热点3:从空间基础设施中的地理信息抽取

(1)目的:从空间信息基础设施中获取实体,并按照地理空间语义形式发布和服务
(2)方法:利用本体建立元数据和外部概念或术语的联系,并有助于数据发现

4.5 研究热点4:对用户复杂查询的建模并用于更准确的地理空间信息提取

(1)目的:对用户非常复杂的查询任务建模,从而实现更为准确的信息提取
(2)方法:主体是建模,需要查阅文献

5. 研究领域4:地理空间语义网与链接数据

5.1 技术概览

(1)地理空间语义网

  • 地理空间语义网是关注地理空间部分的语义网

  • 基于语义网的理念组织、共享、重用空间数据,并回答复杂空间查询

(2)链接数据

有两重含义,通常可以互换使用

  • 含义1:指语义网发布的四个原则
    • 如:使用统一资源标识符(URI)和提供人类和机器都可读的数据描述
  • 含义2:指遵循这四个原则发布的数据

5.2 研究主题1: 如何有效地标注和发布地理空间内容

  • 已经开发了地理空间本体和本体设计模式,以形式化数据的语义
    • 如:语义传感器网络ODP、制图比例尺ODP
  • 已经开发了将传统数据源转换为知识三元组的软件
    • 如:Triplify、CSV2RDF、TripleGeo等软件工具
  • 链接数据服务器(也称为RDF三元组存储)已经具备发布数十亿条目的能力
    • 如:Virtuoso和GraphDB
  • 栅格数据的语义表达和时间语义表达尚未见突出成果

5.3 研究主题2:如何检索数据来回答复杂的问题

GeoSPARQL作为SPARQL的扩展,已经得到OGC认可

  • 如: Parliament、Oracle Spatial and Graph、Apache Jena均实现了GeoSPARQL

5.4 地理空间语义网的主要应用场景

(1)将空间数据基础设施转型为地理空间语义网

  • 可以被认为是局部地理空间语义网
  • 链接数据原则被用于SDI元数据和服务的互联,并促进了搜索和资源发现

(2)使用链接数据作为外部知识库来支持命名实体识别和歧义消除

  • 例如:DBpedia Sportlight、Open Calais
  • 可高精度和高效地从非结构化文本中识别和提取地理位置和其他类型的实体

(3)链接数据驱动的可视化交互界面

​ 用户能够通过跟踪实体之间的链接来交互地浏览链接地理空间数据

  • 例1:Spatial@LinkedScience,它为地理科学会议研究人员、论文和组织提供书目链接数据
  • 例2:加州大学地地球科学和海洋相关数据门户,能够从地图视图中浏览表格、图形数据

6. 研究领域5:地名语义学

6.1 地名语义学的概念

  • 基于地名与人类经验关联更紧密的经验,从中提取与空间表示完全不同的语义信息。
  • 目前主要研究聚焦在:
    • 通过对人类各种描述(如:文字)或人与地名的交互行为(如:到访时间和频度)进行分析,提取其中的潜在语义信息。
  • 由于互联网中存在大量和地名有关的文字描述,因此是一种用于提取潜在语义的廉价手段

6.2 两类地名相关数据

(1)仅包含地名文字描述的数据(如:网页、游记、博客、维基百科等)
(2)包含文字描述与地理坐标关系的数据(如:带地理标签的推文、Flickr照片)
(3)此外,基于位置的社交媒体数据也包含大量人类与地名交互的时间信息

6.3 刻画地名语义的三个视角

(1)主题视角
(2)空间视角
(3)时间视角

6.4 研究热点1:从主题视角对地名进行语义刻画

(1)利用和地名有关的关键词刻画地名特征语义
(2)利用机器学习方法提取有关地名的主题来刻画
(3)利用表情符号刻画人类对地名的情感语义特征

6.5 研究热点2:基于空间视角对地名进行语义刻画

(1)通过地理标签、文本描述等,建立地名的模糊边界
(2)利用周边地标对地名做空间表达,该方法并非用于构建具体的几何模型,而是将地名及其周边地标转成图模型。

6.6 研究热点3:基于时间视角对地名进行语义刻画

(1)研究人们与地名交互的时间特征,例如:研究不同类型POI点的签到数据,用签到时间的模式来刻画地名
(2)部分时间模式也能够反应人类在该地的活动特点,并将该特点用于其他应用,如:反向地理编码。

6.7 基于组合视角对地名进行语义刻画

(1)将时间和空间组合起来,可以刻画地名的时空语义特征,从而了解模糊边界随时间的变化情况
(2)将时间和主题组合起来,可以刻画地名相关的主题随时间演变的情况
(3)更复杂的组合可研究的内容非常多,是个前进广阔的研究领域

7. 研究领域6:认知地理的概念和定性推理

7.1 技术概览

(1)认知地理:

  • 通常指人们在与环境交互过程中获取和积累的非正式的地理知识,也被称为朴素地理。
  • 该概念与通过学习培训获得的专业地理知识相对比

7.2 非正式的地理概念

  • 人们日常生活中,习惯于将地理概念和空间关系映射到物理环境中(如山脉、河流)
  • 例如:会将专业的地理空间对象认知为具体的社会要素,如道路、城市等,而非认知到地图上

7.3 非正式的空间关系

  • 人类对周边环境和事物空间关系的理解通常是定性的
    • 例如:某人也许知道地名的大概的位置和方向,但是不清楚他们之间确切的距离
  • 这些非正式的空间关系虽然不精确,但非常有用,而且足以满足日常生活中大多数任务
    • 如:找路或路线描述
  • 这些空间关系很方便获取,因为无需拿设备去测量不同对象之间的精确距离和角度
  • 这些非正式的空间关系也可以用于对定量表达进行抽象,而不用严格地限定于特定值域范围
    • 例如:空间关系A在B的西边可以表达无数个满足这个条件的A和B

7.4 用正式的方式表达认知地理概念和关系

上述非正式地理概念和空间关系可采用正规且可计算的模型来建模,进而用于定性的空间推理:

  • 对非正式空间关系可以采用空间演算来编码

    • 例如:拓扑学、9交关系、双交微分、区域连接演算、触发器演算、基数方向演算
  • 时间关系也可以采用正规的方式来建模

    • 例如间隔代数
  • 从算法角度,非正式知识可以被建为图模型

    • 图中节点表示地理概念,边代表他们的空间关系
    • 如果将节点全部限制为地名实例,则可以发展出一个地名图
    • 图表达方式与现有地理信息系统完全不同,可以演变成成一种基于地名的新型地理信息系统
      • 在这种新型地理信息系统中,各种平面或空间操作可以在基于图模型的算法基础上扩展和重用,也重新设计和定义