地理信息抽取–未来地理信息科学中的皇冠

摘要:

​ 根据前文,地理知识图谱主要分为两个大的研究领域或流派,其中地理知识图谱以领域地理知识库建设为重点,其中利用地理信息抽取技术完善、丰化知识库内容是较为核心的技术点。本文是对地理信息抽取技术的概览,希望有助于对该技术方向的了解和把握。

1. 位置搜索对地理信息抽取的现实性需求

  • 互联网领域中大部分信息搜索查询中明确包含地理搜索词
    • 例如:以地名的形式(Gan等人,2008年;Aloteibi和Sanderson,2014年)
  • 80%的互联网用户会利用位置搜索引擎获取本地商业服务、产品或其他领域知识
  • 在移动应用蓬勃发展的当下,基于位置的知识服务成为核心功能
    • 以用户当前或预测位置为基础提供实时地理知识图谱上下文信息(Reichenbacher等人,2016)。

2. 地理信息抽取的必要性

  • 信息和知识服务的现状

    • 搜索引擎领域:尽管在位置搜索上投入了大量资金,但大部分检索结果局限于商业目录中的信息
    • 知识服务领域:大量领域知识有待于数字化、信息化,并最终转换为知识内容提供服务
  • 机遇:

    • 随着Web2.0/3.0的发展,非商业化的地理定位信息及网站快速增长,使位置搜索的信息源变得越来越丰富,未来可用性将逐步增加
    • 传统以书籍、影像、声音等为主要载体的领域知识,随着信息化技术发展,逐步呈现出巨量价值
  • 挑战:

    • 网络知识和领域知识大多为半结构化或非结构化形式
    • 目前大多通过关键字查询或元数据查询才会被检索到
    • 无法直接解析为地球表面的位置,进而无法与其他相关的地理信息建立联系
    • 需要能够识别文档中的地理定位信息,并将其明确解析为地球表面位置的方法,即地理信息抽取。
  • 作用:

    ​ 地理信息抽取在知识服务和知识使用两端都具有非常重要的作用:

    • 知识服务端:需要对半结构化、非结构化地理信息抽取,使其具备地理空间语义,进而纳入地理空间知识图谱的组织和管理
    • 知识用户端:通过地理信息抽取,可以实现用更接近自然语言的方式进行知识查询检索

3. 地理信息抽取面临的挑战

​ 理解自然语言或自由文本中的地理信息面临许多挑战,因为很多时候其中的地理信息具有不确定性和模糊性,且难以通过标准信息检索技术得以解决。例如:某个查询“卡尔加里附近的海滩”,它由三个重要部分组成:主题(“海滩”)、空间关系(“附近”)和位置(“卡尔加里”),其中可能存在的问题包括:

  • 不确定性问题:
    • 不清楚卡尔加里指的是哪一个(加拿大阿尔伯塔省内陆但人口众多的首府,或是苏格兰穆尔岛上美丽的卡尔加里湾)
  • 模糊性问题:
    • “附近”是什么意思?它是一组按到某点(例如:卡尔加里市中心)距离排列的海滩,还是在某个受限空间中发现的所有海滩(如:某个海湾),还是在卡尔加里移动过程中,距离移动体最近的海滩?此外,海滩本身长度可以从几十米到许多公里不等,如何在用户界面中表示、排序和比较用于描述不同海滩的文档?

4. 地理信息抽取的定义

  • Larson(1996)定义为“一个结合了DBMS研究、用户界面研究、GIS研究和信息检索研究等方面的应用研究领域…,涉及地理定位信息源的索引、搜索、检索和浏览,以及有效和高效完成这些任务的系统设计”;
  • Jones和Purves(2008)对上述定义进行了改进,强调信息检索中非结构化文本的重要性:“全球资源信息检索关注于提高特定地理位置信息检索的质量,重点是访问非结构化文档,如在网上找到的文档”。提出“地理信息抽取必须能够从非结构化文本文档中检测和解析对位置的引用,通常但不限于地名或更正式的地名形式”。

5. 地理信息抽取的三个经典命题

​ 地理信息抽取除了能够实现地理定位,还有三个难度较大的经典命题:

  • 命题1:尺度和粒度
    • 如何在不同粒度或尺度上有效地理解析和地理编码
  • 命题2:民间和历史地名
    • 如何处理民间地名引用和历史地名引用
  • 命题3:空间描述语言的解析
    • 如何智能处理空间描述语言或空间表达式

6. 地理信息抽取系统的基本模型

(1)五个功能部件:

  • **用户界面(User Interface):**以交互方式辅助用户和系统之间进行沟通,例如:帮用户定制查询和评估返回的结果;
  • **查询规范化处理(Query Formulation):**将用户查询转换为系统可认知和解释的表达方式。其中,如何实现空间的认知表达、该表达对自然语言的影响机制是技术难点;
  • **地理定位(GeoReferencing):**检测指定信息中的位置表达文本并解释其地理语义,是GIR中最核心的部分;其主要技术点包括地理解析(GeoParsing)和地理编码(GeoCoding);
  • **索引和检索(Indexing and Quering):**依据系统定义的某种相关性规则(如:空间位置、坐标范围、信息类型等),从索引库中获得检索结果;其主要技术点为文档信息的空间索引方法;
  • **结果排序(Ranking):**根据潜在的相关性对检索结果建立排名列表,以便用户进一步优化查询或获得详细结果。

(2)两个支撑系统

  • 地名辞典(或其他结构化地理信息)
    • 记录地名及其坐标等信息,并提供查询服务,包括地名编码和反向地理编码等主要功能;
    • 地名词典是信息检索学科和地理信息科学之间的关键桥梁之一(Goodchild,2010)。
  • 文档集合
    • 可能是web网页,或者更特定的文档,例如:与新闻故事、旅行报告或登山文学有关的文档;
    • 文档集合的自身特点对设计和评估GIR系统具有重要的影响,例如:空间分布和偏置、文章的目标读者群

7. 地理信息抽取系统案例

​ 在过去十几年中,许多作者已经开发出了涉及上述过程链的系统。但这些系统差异性很大,主要体现在目的不同、文本语料库不同、用于构建空间的外部地名辞典等资源不同、以及地理定位/索引/查询/排名的技术方法不同。

(1)GIPSY(1996)

​ 该系统旨在允许在所谓的数字图书馆中进行搜索。GIPSY侧重于分析地理内容丰富的文件,并使用了美国地质调查局加州地名信息系统(GNIS)的地名词典。

(2)Web-a-Where(2004)

​ 该项目是将地名录和网页链接起来的一些早期技术(Amitay等人,2004年)。该系统使用了大量的语料库,其中包括美国.gov页面集和全球开放目录数据集(ODP)。地名辞典主体来源于GNIS,补充了其他一些非美地区的来源。

(3)SPIRIT网页地理定位(2007)

​ 该系统使用了约9400万个网页的初始语料库,对涉及英国、法国、德国和瑞士的90万个文档进行地理定位。地名辞典来源于两个数据集:SABE(欧洲行政边界)和英国的1:5万比例尺地名辞典。搜索引擎STEWARD被用于搜集web文档,但引入了对专业语料库和特定新闻文章的内容。

(4)NewsStand新闻地理定位

​ 新闻报道为GIR提供了非常丰富的语料来源。NewsStand(Teitler等人,2008年)专注于实时收集和有效地可视化新闻故事,并使用与所用来源地理覆盖范围相适应的地名辞典。NewsStand不同于前面描述的系统,该系统旨在处理流式内容,而不是静态内容。来自报纸和新闻连线的内容构成了跨语言地理评估任务的基础,称为GeoCLEF(Gey et al.,2005;Mandl et al.,2008a)。消息来源包括《洛杉矶时报》、英文版《格拉斯哥先驱报》、德文版《明镜》和葡萄牙文版《普利科》。这些数据集覆盖范围不同、语言不同,使得系统必须面临覆盖局部性和地名辞典知识差异性带来的挑战(Stokes等人,2008年)。

(5)TwitterStand推特地理定位

​ Twitter是一种电子媒介,它允许大量用户同时相互交流。Twitter固有的是朋友和追随者之间的不对称关系,因此在Twitter用户之间提供了一种有趣的类似社交网络的结构。Twitter消息被称为推文,限制为140个字符,因此信息非常集中。推文随着新闻的发生而发生,通常热点问题会出现高吞吐率的特点。Twittertand的目的是捕捉最新消息推文,消除其中噪音,确定感兴趣的推文集群,确定与推文相关联的相关位置,而后形成新闻热点自动搜集和可视化展示。

(6)PIV文化遗产地理定位

​ GIR方法在语料库分析和探索方面有着明显应用,其中一类被普遍引用的语料库与文化遗产有关。例如:PIV项目从包含比利牛斯山脉的相关文章中提取空间和时间信息(Gaio等人,2008)。与NewsStand类似,PIV采用了一个当地地名录,以便能够识别出更多细粒度的地名。

​ Derungs和Purves(2014)采用了一种类似的方法,专注于自然特征,根据用于描述自然特征的文本来描述空间区域。这项工作分析了1865年瑞士阿尔卑斯山俱乐部的文章,并使用瑞士国家测绘局提供的行政名录来确定细粒度的地名。

(7)GeoWiki开放知识地理定位

​ 上述例子涉及主要覆盖国家或区域的语料库。另外有研究者使用GIR方法在更粗尺度和更大地理区域总结大型文本语料库,对地名辞典中详细信息的要求相应降低,其典型代表是GeoWiki。此类性质的系统也试图使用机器学习方法,在不借助地名辞典的情况下对内容进行地理定位,其中关键是提供带有坐标的训练数据。

(7)FrankenPlace旅游博客地理定位

​ Frankenplace是一个交互式主题地图搜索引擎,允许可视化从旅游博客和维基百科中提取的主题词(Adams等人,2015年)。它使用地理上下文作为发现、组织和交互可视化与搜索查询相关的文档的手段,通过可视化文档的主题内容和地理内容之间的交互,使用户能够使用地图界面快速浏览与其查询匹配的成百上千个文档,同时给出地理背景知识和解释。

(8)危险信息地理定位

​ Wang和Stewart(Wang和Stewart,2015)试图将关于危险的语义信息与位置和时间联系起来,并利用谷歌geocoder作为地名辞典。

(9)GeoLink

​ 越来越多的标准协议、格式和词汇(通常被称为语义网)为在线发布研究数据提供了一种强大的方法。GeoLink项目汇集了来自地球科学、计算机科学和图书馆学的专家,致力于开发支持数据和知识发现和重用的语义Web组件。GeoLink的主要数据来源包括野外考察、实验室分析、期刊出版物、会议报告、论文/报告和资助项目的内容,涵盖从海洋地质学到海洋生态系统、从生物地球化学到古气候学的科学研究。GeoLink的重点是形成一组描述核心地球科学概念的可重用本体设计模式、使用这些本体设计模式辅助链接数据网络,并辅助在多个库中发现相关内容。

(10)GeoDeepDive

​ GeoDeepDive的目的是帮助地球科学家提取隐藏在期刊文章和网站中的暗数据。该系统使用使用了斯坦福大学的机器阅读系统,并整合Macrostrat地质数据库(包含岩层和个别地理单元的时空分布信息)。GeoDeepDive从期刊文章和网页中提取有关上述岩层的信息,截至目前,GeoDeepDive已经处理了超过3.6万篇研究论文和13.4万个网页。

8. 地理信息抽取面临的挑战

(1)挑战1:跨学科应用

  • 只有跨学科知识汇聚才能提高其技术水平,而这种跨学科知识汇聚实现难度较大。

  • 建议: 不要局限于计算机学科,而应当更多从交叉学科或领域中汲取营养。例如:新闻报道领域(NewsStand)、数字人文领域、历史文化传承领域等。

(2)挑战2:开放数据集和算法

  • 地理信息抽取(核心是地理定位)需要方法、算法、数据集和成果的发布,以促进重用和再生产,同时能够更容易地在语料库中进行不同方法的比较。

(3)挑战3:地理定位的可实施性和可用性

  • 如何发展出理论上可落地实施的方法和模型,以提取和表示非结构化文本中的地理信息,并将这些信息纳入索引结构。

(4)挑战4:基于认知的推荐排序方法

  • 如何应用可落地实施的认知方法,来对空间和语义相似的信息进行排序和组合。

(5)挑战5:新型人机交互界面

  • 如何开发出地图和声音认知接口,为用户提供概览,并进一步探索结果。

(6)挑战6:加强效能评估的专业性

  • 在评估环节应强调以用户为中心进行评估,多考虑地理知识和实际任务中的模式和特点。