空间表征学习之Place2Vec

【摘要】理解、表示和推理POI点的类型是地理信息检索、推荐系统、地理知识图谱以及研究一般城市空间的重要方面(例如:从用户生成内容中提取功能性或模糊性认知区域的任务)。这些任务的先决条件之一是能够捕捉POI点类型之间的相似性或相关性。直觉上,当人们搜索汽车维修点时,即使没有精确的匹配结果,返回汽车美容店甚至加油站仍然可能满足一些用户需求,但返回天文馆则不会。也就是说,POI点类型的层次结构常用于扩展或者联想查询。但大多数现有POI点类型的层次结构较浅,并且往往结构是人为设计确定的,造成在某些特征方面可能密切相关的POI点类型被分开了,进而影响了扩展或联想查询的效果。这就引出了如何从数据中学习POI点类型表示的问题。近年,自然语言处理领域的词嵌入(如Word2Vec)对于词相似性表征发挥了重要作用,为POI点类型的表征提供了思路。但地理空间结构(如POI点类型间的相互作用)与语言学有很大不同,不能直接套用。本文提出了一种新方法来增强POI点类型的空间上下文,使用距离分割和信息论方法来生成嵌入。我们证明,该工作在三种不同评估任务上优于Word2Vec和其他模型,并且与人类对兴趣点类型相似性的评估具有密切相关关系。同时我们发布了570个地点类型的嵌入,以及一个在线人类相似性评估的集合,供其他人使用。

【原文】Yan, B., et al. (2017). From ITDL to Place2Vec. Proceedings of the 25th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems: 1-10.

【DOI】https://doi.org/10.1145/3139958.3140054

1 引言和动机

语义相似性和相关性度量是地理信息检索、推荐系统、本体工程等各种方法的重要组成部分[10]。鉴于分类对于人类认知的重要性[8],地点类型作为地名词典或POI数据库的三个组成部分之一(几乎所有的地名词典和POI库都至少包含“地点名称”、“地点类型”、“地点坐标”三个组成部分),起到了指定类型地点的功能代理作用。例如:夜总会类型表示在夜间有一定噪音暴露、有较年轻人口、单身人士、与毒品有关的罪案可能性较高、有可能喝酒或吃零食等功能体验,与地点具体的名称或坐标关系不大。虽然每家夜总会作为个体可能在一定程度上存在不同,但并不影响夜总会这个地点类型与酒吧、音乐场所等更广泛的地点类型之间相似性。而同时,也不能替代夜总会与面包店、理发店地点类型之间的非相关(似)性。从感性上,在搜索半径内没有用户指定类型的POI时,系统应该返回类似类型的场所(例如:查询夜总会无果,可以返回酒吧等相关或相似类型的场所)。这意味着地点的语义相似性度量应该反映人类对相似性的估计,可能不仅限于地点类型还可以是其他主题。

传统有多种测量相似性的方法,例如:可以在句法上比较不同类型名称之间的相似性,也可以通过计算地点类型在整体类型层次结构中的距离来衡量相似性,或者可以计算两个类型在一定邻域内共存的地点类型或数量来衡量相似度等。最新的方法依赖于学习所有类型的词嵌入,通过计算不同类型间的余弦相似度来衡量其语义相似性。但此类方法并不考虑隐含在地点类型中的任何空间信息(例如:空间共现模式)。语言学的分布式表征方法认为:通过一个词的上下文可以表征它[5],如果从地理空间信息视角出发,是否可以将该观点可以进一步概括为:地点可以根据其邻居来分类。

在本文中,我们接受了地理空间分布语义学思想,并使用不同的隐表征方法和增强空间上下文来探索地点类型的相似(关)性,空间上下文在本文中得到了增强。同时为了考虑距离因素,距离衰减和距离滞后被用于增强空间上下文的调整。同时,我们意识到地点(Place)和空间(Space)之间的显著区别,即地点(Place)是注入了人类感知(体验)的空间[26],因此我们也考虑了签到数量作为人类活动的表示。最后,为适应地点类型服从幂律分布的事实,我们还考虑了一定距离上地点类型的唯一性。

本文的主要贡献如下:

  • 阐明了仅靠传统语言模型并不能充分地捕捉地理空间结构,例如:不同地点类型之间的共存模式。为此,我们提出了一种基于增强空间上下文的新模型,该模型使地理距离成为首要因素,并从信息论角度,根据一定距离内地点类型的独特性以及它们作为人类活动代理的受欢迎程度来调整这些上下文。
  • 我们根据Yelp POI数据中自上而下的类别层次,对不同地点类型的嵌入进行了综合评估。这种评估实质上将自下而上的地点类型嵌入和自上而下的地点类型层次结构方法结合在了一起。
  • 我们使用亚马逊的Mechanical Turk Human Intelligence Tasks (HIT)建立了两条基线,用于衡量地点类型之间的相似(关)性。评估结果表明,我们的方法比单纯基于语言学的嵌入方法具有更高的准确率,这证实了显式空间上下文的重要性。事实上,我们证明了一个值得注意的事实,即基于增强空间上下文创建的嵌入做相似性评估,与人类相似性判断呈强相关关系。
  • 虽然所得到的地点类型嵌入可以广泛用于各类依赖于相似性评估的任务(例如:地理信息检索、共指关系解析、本体对齐以及推荐系统),但我们还是引入了一个新的视角,即压缩。作为一个未来研究领域,它可能涉及地点类型是否可以被替代或者作为其他POI类型代理的问题(例如:通过最少的地点类型来总结邻域)。
  • 最后,我们提供了在HIT上的嵌入及人类相似性评估在线服务(http://stko.geog.ucsb.edu/place2vec)上在线提供,以供将来使用。

本文其余部分组织如下。第2节总结了嵌入和地理空间语义方面的现有工作。第3节介绍了数据集,并提供了我们整个工作中使用的基本概念。第4节详细解释了我们如何对增强的空间上下文建模。第五节提出了三种评价方案,第六节是评价。最后,第七部分对本文研究进行了总结,并指出了未来的研究方向。

2.相关工作

大多数关于POI嵌入的研究都起源于使用语言模型的词嵌入技术[2]。此类中最成功的模型之一是Mikolov等提出的Word2vec模型[19,20]。其中,跳词模型(Skip-Gram)通过预测给定中心词的上下文单词来学习嵌入,而连续词袋模型则相反,通过上下文单词预测中心词。

以往关于地理信息嵌入的工作可以分为两类:

第一类考虑了地理上下文对词嵌入的影响。Cocos和Callison-Burch[3]使用来自Google Places和OpenStreetMap(OSM)的地理上下文训练了地理位置推文中的词嵌入,这是第一次试图调查地理环境对单词语义的影响程度。他们的工作在某种意义上与本文相似,他们也意识到了地理空间环境的重要性,但他们的工作范围仍局限于语言领域。他们的研究结果表明,地理上下文的语义不如语篇上下文丰富。但我们将证明增强的空间上下文确实包含丰富的语义信息。Zhang等[31]也承认词的语义随地理空间不同而不同。他们提出了一种不同主题下的向量空间变换,以生成不同地理上下文间的映射。同样,他们的方法侧重于语言方面,在他们的模型中没有直接考虑地理因素。

第二类更类似于我们的工作,它直接对地理实体建模。Yao等[28]和Zhang等的研究成果[30]与我们的研究相比,侧重点非常不同。因为他们利用嵌入技术来检测城市土地利用的空间分布,并揭示城市动态。我们的重点则是探索空间上下文不同对调整嵌入结果的影响程度。Feng等[4]和Zhao等的研究成果[32]学习嵌入以便预测未来的POI访问或推荐POI,是基于预测的word2vec模型的副产品。我们的工作有不同的重点,因此不需要时间序列数据(例如用户的签到顺序)。我们对地点类型的语义更感兴趣,并利用嵌入作为表示、共享以及测量类型间的语义相似性(例如:查询扩展[10]和提取[12]等上下文应用)的手段。

我们的工作涉及到地理信息检索和地理空间语义的研究,这里更具体地涉及语义签名的社会感知框架[9],该框架基于主题、时间和空间视角(类似于光谱签名的波段)来表征地点类型。例如,Adams和Janowicz[1]已经研究了POI点的主题分区,他们使用隐Dirichlet分配从关于地点类型的非结构化文本中提取主题。Quercini和Samet[23]提出了一组基于图的相似性度量来确定概念与维基百科链接结构中地点间的关联性,也可以被视为区分地理实体的签名。对时间视角的研究也显示出了令人振奋的结果。Ye等[29]在基于位置的社交网络背景下,研究了地点的时间维度。McKenzie和Janowicz[17]应用时间签名进行反向地理编码,以调整时间和空间范围搜索的结果排名。到目前为止,空间视角(即一个人是否可以完全从空间模式中学习地点类型表征的问题)受到的关注较少。Müllicann等的研究成果[22]采用了点模式分析和语义相似度相结合的方法,而Zhu等则采用了点模式分析和语义相似度相结合的方法[33],提出了27个空间统计特征来表征数字地名录中地点类型的不同方面。

我们的工作可以看作是这一研究路线的延续,也是对语义签名框架的贡献,它使用了新方法,如增强的空间上下文,以克服以前工作的局限性。事实上,我们将证明这些上下文(即使是自己采取的)能够复制人类的相似性判断,即在人类评估和我们的模型之间产生了强烈的相关性。

3 前言

这项研究中使用的个人兴趣点及其类别来自Yelp数据集。此数据集涵盖来自四个国家(英国、德国、加拿大和美国)的11个不同城市的场馆。我们选择拉斯维加斯作为研究区域,但我们的方法可以推广到不同的城市和地点类型模式;有关区域效应的讨论,请参见[18]。Yelp数据集将它们的1030个POI类型分成22个根类别,如餐厅、购物、艺术和娱乐、专业服务、健康和医疗等等。每个POI集合 $L$ 中的POI点 $l_i$ 都由三部分组成,即POI点名称 $n∈N$ 、地理标识符 $g∈G$ 和POI点类型 ${t_1,t_2,t_3,…,t_k}⊆T$ 。

在分析了拉斯维加斯的1030个地点类型及其频率之后,我们看到了排名-频率分布中的长尾效应(图1)。对数-对数曲线也呈线性趋势。采用线性回归拟合 $log(frequency)$ 和 $log(rank)$ 得到的 $R^2$ 值和 $p$ 值分别为0.8543和 $2.2e−16$,表明该模型与数据有很强的拟合关系,表明这种比例效应非常显著。简而言之,这些统计数据表明排名频率确实遵循幂律分布,其中几种POI类型主导着数据。这是在下一节讨论的增强空间上下文中建议的基于信息内容的频率调整的一个重要动机。

image-20210414204934334

4 方法

在这一部分中,我们描述了潜在表示方法和增强的空间上下文。潜在表示方法起源于自然语言处理,并在许多领域得到了成功的应用。通过承认地理空间和语言表达在上下文形成上的差异,我们引入了三种方法来模拟确定潜在表示方法的地理影响。这些方法包括原始空间上下文、简单增强空间上下文和信息论/距离滞后(ITDL)增强空间上下文。

4.1 隐变量表示方法

最近的工作表明,基于分布语义假设的潜在表示模型word2vec能够有效地捕捉词空间中的语义关系[19,20]。根据之前的统计分析,POI点类型分布与词频分布[14]类似,也遵循幂律分布。这促使我们利用word2vec模型及其基本分布语义假设来研究地理空间中的POI类型。

我们选择了Skip-Gram模型,该模型预测给定中心类型的上下文POI类型。我们的目标是从训练数据中估计真实地点类型的概率分布。一种典型方法是使用交叉熵来度量学习概率和真实概率间的差异。由于数据是离散的,并且只关心中心地点类型,所以交叉熵可以简化为:
$$
D(\hat y,y)=-y_{c} \log (\hat y_{c})
$$

其中, $\hat y$ 和 $y$ 分别是学习到的概率分布和真实的概率分布。 $\hat y_c$ 是给定中心地点类型的上下文POI类型的预测概率,$y_c$ 是给定中心地点类型的上下文POI类型的真实概率。 $\hat y_c$ 可以进一步定义为:

$$
\hat y _ { c } = P ( t _ { 1 } , t _ { 2 } , t _ { 3 } , \cdots , t _ { m } | t _ { c } )
$$

其中,$t_1、t_2、t_3、…t_m$ 是上下文地点类型, $t_c$ 是中心地点类型。为了计算概率,我们应用了原始贝叶斯假设。注意 $y_c$ 始终为1。最后,我们使用 $Softmax$ 函数将结果转换为概率,并将POI类型替换为矢量表示。目标函数定义为:
$$
\text{minimize} \quad J = - \log \prod \limits_{t=1}^m \frac{exp(u_t^Tv_c)}{\sum_{k=1}^{|T|}exp(u_k^Tv_c)}
$$
其中,$u_t$ 和 $v_c$ 分别上下文地点类型向量和中心地点类型向量;$|T|$ 是POI类型的基数。我们在TensorFlow中使用小批量梯度下降和噪声对比估计实现了该模型[21]。

4.2 原始空间上下文

一种直观的利用地理空间结构的方法是基于中心地点类型和上下文地点类型的共现对空间上下文进行建模。我们表示上下文地点类型 $t_{context}$ 和中心地点类型 $t_{center}$ 。这种简单方法忠实于原始的word2vec模型,并使用最近邻方法捕获空间上下文信息。与自然语言在本质上是连续的不同,POI 点分布在2D地理空间中。因此,我们不使用固定大小的滑动窗口来构建 $(t_{center},t_{context})$ 对,而是在每个中心 POI 周围创建空间缓冲区来检测 $k$ 近邻 POI,记录它们各自的地点类型作为我们的训练数据对。由于每个中心 POI $l_i$ 和每个上下文POI $l_j$ 可以分别具有一组地点类型 $T_{l_i}$ 和 $T_{l_j}$ ,因此我们使用笛卡尔积 $T_{l_i}×T_{l_j}={(t_{center},t_{context})|t_{center}\in T_{l_i} \and t_{context} \in T_{l_j} }$ 来获得每个中心 POI 和候选上下文 POI 的训练对。当我们迭代所有中心和上下文 POI 时,我们将这些训练对附加到训练数据$SC_{naive} $的最终列表中。

4.3 简单的增强空间上下文

在原始空间上下文中,地理成分(即距离)仅仅被用作搜索邻域的标准,而不是直接用于建模。在第二种方法中,我们通过组合距离衰减和/或聚合签到计数(作为相对流行度或主导性的表征)来增强原始的空间上下文。这种方法背后的基本原理是,我们承认距离和人类活动都是在对 POI 类型的潜在表示进行建模时的基本组成部分,因此,我们希望研究它们如何通过单独和联合建模来对最终结果做出贡献。

在这里,我们将 POI $l_i$ 的受欢迎程度定义为与 $l_i$ 相关的签到总数。通过增强的空间上下文,我们增加了 $(t_{center},t_{context})$ 元组在训练数据集中出现的次数,因子为 $β$ ,其中 $β \in {n|n \in Z,n⩾1}$ 。

仅就合并活动而言,因子 $β$ 定义为:
$$
\beta ^ { l_j }_{checkin} = \lceil 1 + \ln ( 1 + P _ { l_j } ) \rceil
$$

其中,当上下文 POI 为 $l_j$ 时,$β^{l_j}{Checkin}$ 是训练元组 $(t{center},t_{context})$ 的增强因子。这是一种外在的增强方法。

对于仅考虑距离衰减的情况,我们将增强因子定义为:

$$
\beta_{\text {distance }}^{l_j}=\left\lceil\frac{1+\frac{\sum_{k=1}^{|L|} P_{l k}}{|L|}}{1+d^{\alpha}\left(l_{i}, l_{j}\right)}\right \rceil
$$

其中 $|L|$ 是 POI 的总数,$d(li,lj)$ 是中心PO $l_i$ 和上下文PO $l_j$ 之间的距离,$α$ 是反距离因子,在本例中设置为 1 。分子是给定 POI 数据集的平滑常数。这是一种内在的增强方法。

为了在空间环境中结合距离衰减和人类活动,结合内在和外在方法的增大因子被定义为:

$$
\beta_{\text {combined }}^{l j}=\left \lceil\frac{1+\ln \left(1+P_{l j}\right)}{1+d^{\alpha}\left(l_{i}, l_{j}\right)}\right \rceil
$$

可以看出,所提出的增强因子基于上下文 POI 的签到以及从中心 POI 到上下文 POI 的距离,因此在空间上下文中包含了更多地理信息。事实上,原始空间上下文是增强空间上下文的特例,其因子 $β=1$ 。对于简单的增强空间上下文,我们的假设是作为上下文的兴趣度对中心兴趣度有正影响,而上下文兴趣度对中心兴趣度的影响随着它们之间距离的增加而减小。通过设置基于这些地理成分的增强因子 $β$ ,我们正在以一种在地理空间中揭示更多潜在信息的方式来延伸原有的兴趣点类型的分布。给出一个直观的例子来说明我们的理论基础,一个体育场和竞技场类型的地点可能会占据一个社区,而许多单独的停车位和酒吧尽管频率较高,但只起到了辅助作用。

4.4 ITDL增强空间上下文

简单的增强空间上下文方法直接模拟距离和人类活动,而增强因子仅适用于使用 k- 近邻方法的原始空间上下文。在这个意义上,上下文 POI 被限制为 k 个最近的邻居,而不管它们离中心 POI 有多远或多近。然而,不同的地点类型可能遵循不同空间分布,形成不同的空间聚类。例如,餐厅类型的地点可能靠近许多其他类型的地点,如酒店、酒吧和百货商店,从而形成密集的空间聚集,而类型警察部门和其他区域服务场所的 POI 与附近的地点(通过其类型)将显示出非常不同的模式。这种空间差异意味着可以在不同距离内捕获不同空间上下文信息。此外,对于这些类型,我们关注的距离迅速增加,因此,天真地为搜索缓冲区或最近邻居的数量设置单一阈值将导致许多不同地点类型的同质空间上下文,从而牺牲空间异质性和大量不同的地理空间语义特征。有鉴于此,我们建议为每个 POI 设置多个不同的空间上下文。受空间统计学中半方差函数(如克立格)的启发,我们利用距离滞后来构建我们的空间上下文。通过给定滞后进行的这种入库还可以针对位置质心的不确定性(也称为容差)进行调整。事实上,之前的工作表明,不同数据库提供商(如Yelp和Foursquare)之间的 POI 中值距离为63米[17]。在下面,我们将使用 $h=100m$ 的滞后距离。

我们为每个距离滞后使用默认的距离盒宽度,从而为相同的 POI 生成多个空间上下文。每个空间上下文可用于学习对所述距离框内的中心 POI 类型和上下文 POI 类型之间的分布语义进行编码的潜在表示。我们这种方法背后的理论基础是,由于地点的性质(和功能)以及它们与其他地点和地区的互动,即使增加了距离衰减和人类活动,全面的空间上下文也不足以理解地理模式的总体变化。相反,我们建议首先通过将连续的地理空间(即距离)划分为离散的 $LAG$ 来捕获本地上下文,然后将来自这些不同 $LAG$ 的语义信息组合在一起,以获得每种地点类型的更全面的全局视图;请参见图2。

由于我们的目标是捕捉不同地点类型之间的空间交互,因此我们希望在此基础上设置空间上下文的最大阈值。我们将dt定义为相同类型ti的成对POI距离的集合。对于每个POI类型ti,我们计算最小类内距离(Dti),并使用这些类内距离中的最大值作为空间上下文的阈值TS(这里是每个类型下确界的上确界):
$$
T S=\max \left(\min \left(D_{t 1}\right), \min \left(D_{t 2}\right), \min \left(D_{t 3}\right), \ldots, \min \left(D_{t n}\right)\right)
$$
其是所有地点类型中的至少一种类型的最大距离值,以搜索不会遇到与中心相同类型的上下文POI。该S值有助于捕获尽可能多的类间空间交互。因此,对于每个中心POI,存在s=⌊T S h⌋空间上下文。

针对每个空间上下文,我们提出了一种新的信息论的距离滞后增强方法。简单的增强空间上下文考虑了距离衰减和人类活动,而ITDL增强空间上下文关注的是局部上下文中的人类活动,以及每个距离框中每个地点类型的唯一性。合并人类活动的第一个组件定义为:

$$
A=-\log {2}\left(1-\frac{P{t j}}{1+\sum_{k=1}^{|M|} P_{t k}^{h}}\right)
$$

其中,Pt_j是地点类型tj的受欢迎程度(登记计数),P|M|k=1ph t_k是宽度为h的距离箱内所有地点类型的登记计数的总数。这是关于Pt j 1+P|M|k=1PH t k的单调递增函数,这意味着如果地点类型在箱内的所有地点类型中具有很高的受欢迎程度,则该分量值将非常高。第二个组件采用信息论中的信息内容(这里是令人惊讶的)的思想来建模给定距离箱的地点类型的唯一性:
$$
U=-\log {2}\left(F{t j}^{h}\right)
$$

其中fh_t_j是遇到地点类型Tjin a距离箱的概率。U实质上表示距离箱内的地点类型Tj的信息内容。较大的fh_t_j值将导致信息量减少。最后,我们使用凸组合将这两个组件集成在一起,我们的ITDL扩展定义为:
$$
\beta_{I T D L}^{l j}=\lceil\omega A+(1-\omega) U\rceil
$$

其中ω和1−ω是组件的权重。直观地说,这使我们能够区分非常受欢迎的独特地点(某一类型)和因其类型而受欢迎的地点。算法1示出了构建ITDL增强空间上下文SCIT DL的详细过程。为了提高算法的效率,我们将整个任务拆分成s个可以并行运行的任务,每个工作者只为一个距离仓构造一个空间上下文。简而言之,对于ITDL增强方法,我们使用单独的上下文设置来捕捉外部成分,如地点类型的流行度和唯一性,并使用多个空间上下文箱相结合来捕捉内在成分,如距离和空间变异。

5 评估方案

在本节中,我们将介绍三个不同的基本事实,它们是我们为评估我们提出的方法而建立的。这些基本事实结果也可以用来评估其他涉及地点类型、相似性和关联性的任务。第一个基本事实是从原始的Yelp地点类型层次结构构建的。5我们利用这种自上而下的层次结构,并评估我们的自下而上方法可以在多大程度上近似Yelp的层次结构。第二个基本事实是通过亚马逊机械土耳其人(Amazon Mechanical Turk)使用人类智能任务(HIT)获得的,这是一种二元测试。第三个是从另一个命中获得的,该命中为不同的POI类型提供相似度和关联度排名。这三个基本事实结果,一个使用来自Yelp的自上而下的信息,另外两个由人类评委提供,为我们的工作提供了一个全面的评估。

5.1 层次化评价方案

原始的Yelp类别为我们提供了一种基于层次结构计算不同POI类型的相似度和关联度的自然方法。对于我们的任务,有两种主要的方法来度量(语义)相似性和相关性:基于分布的度量和基于知识的度量[7]。虽然我们提出的方法旨在捕捉分布语义,但从Yelp类别派生的评估方案属于基于知识的度量组。对于这种措施,已经提出了许多模型。综上所述,基于边缘的度量和基于信息内容的度量是两个广泛使用的子类。在我们的研究中,我们从每个小组中选择两个指标来形成我们的评估方案。此外,由于基于信息内容的度量依赖于信息内容的定义,因此我们还选择了两种不同的信息内容定义,以便提供更全面的评估方案。最后,根据Yelp的等级,我们有6种不同的衡量标准。

第一种基于边缘的测量是由Wu&Palmer[27]提出的,其定义为:

$$
\operatorname{SIM}{W P}\left(t{1}, t_{2}\right)=\frac{2 N_{3}}{N_{1}+N_{2}+2 N_{3}}
$$

TLC被定义为地点类型T1和T2的最不常见的超类。N1是从T1到TLC的最短路径。N2是从T2到TLC的最短路径。N3是从tlcst到root的最短路径。第二种基于边缘的测量是由Leakcock&Chodorow提出的[13]:
$$
S I M_{L C}\left(t_{1}, t_{2}\right)=-\log \left(\frac{N}{2 D}\right)
$$
其中D是分类的最大深度,N是地点类型t1和t2之间的最短路径。

对于基于信息量的测量,我们使用了Lin[15]和酱&Conrath[11]提出的模型。它们的定义如公式所示。13和等式(Eq.)。分别为14。Ic是每种地点类型的信息内容,是Yelp层次结构中最不常见的地点类型t1和t2的超类。酱&Conrath方法计算t1和t2之间的距离,因此相似度等于SIMJC(t1,t2)=1/DISJC(t1,t2)。

$$
\operatorname{SIM}{\text {Lin }}\left(t{1}, t_{2}\right)=\frac{2 I C\left(t_{l c s}\right)}{I C\left(t_{1}\right)+I C\left(t_{2}\right)}
$$

$$
D I S_{J C}\left(t_{1}, t_{2}\right)=I C\left(t_{1}\right)+I C\left(t_{2}\right)-2 I C\left(t_{l c s}\right)
$$

Lin和酱&Conrath提出的两个模型都依赖于信息内容的定义,因此我们还包括了两种不同的信息内容定义,它们可以从地点类型层次结构中计算出来。Sánchez等人提出的信息内容。[24]定义为:

$$
I C_{\text {Sanchez }}=-\log \left(\frac{\frac{\mid \text { leaves }\left(t_{i}\right) \mid}{\mid \text { subsumers }\left(t_{i}\right) \mid}+1}{\text { max_leaves }+1}\right)
$$

其中|Leaves(Ti)|是层次中地点类型tii的叶数,|subsumers(Ti)|是比层次中的地点类型更通用的地点类型的数量,max_Leaves是根地点类型的叶数。Seco等人提出的信息内容。[25]定义为:
$$
IC_{Seco } = 1 - \frac { \log ( | h y p o ( t _ { i } ) | + 1 ) } { \log ( m a x t y p e s ) }
$$
其中|supo(Ti)|是比tii更具体的POI类型的数量,max_type是层次结构中的最大类型数量。将这些信息内容的定义与林和江&康拉斯的方法相结合,得出了四个衡量标准。

通过使用这些语义相似度度量,我们计算了Yelp地点类型的成对相似度。由于这六个衡量标准在测量内容上有所不同,因此得出的分数也略有不同。基于相似度得分,对于每个地点类型,我们从最相似的到最不相似的生成相似地点类型的排名。对于Yelp中的每种POI类型,我们获得了六组不同的排名。为了验证这一评价方案的有效性,我们使用Kendall‘s协调系数W来评估这六组排名之间的一致性。在六种测量方法中,肯德尔的平均得分为0.981,这表明不同测量方法之间的一致性近乎完美。此外,在我们的实验中,我们使用了93个地点类型的子集(参见第6节),一致性保持稳定在0.979。这一结果表明我们提出的基于地点类型层次结构的评价方案是有效的。为了评估结果,我们模拟了地理信息检索的任务,例如根据给定的地点类型查找最相似的地点类型。通过在1030个排名中的每一个中选择第一名的类型,我们可以获得所有六个测量的结果。为了评估我们的潜在表示,我们使用成对相似度7基于增强的空间上下文为每种地点类型生成自己的排名,并使用平均倒数排名(MRR)来测试我们方法的性能。

5.2二进制HIT评估方案

基于层次的评估方案存在一些潜在的缺陷。首先,这种等级制度是由一小群人创建的,这可能会导致偏见。而且,在这个1000多个地点类型(节点)的层次结构中,平均路径长度只有1.73,这表明分类很浅。这将导致使用分层结构生成的排名中的平局。最后,层次结构总是编码一些基本的本体论承诺,例如,将艺术和娱乐分组到一个公共类中。因此,除了基于层次的评估之外,我们还利用Amazon的Mechanical Turk进行二进制命中率评估方案。

对于命中任务,我们生成80个三元组,其中每个元素都是一个地点类型。例如,三胞胎中的一个是(牙科医生、教育、正畸医生)。8任务是从每个三胞胎中选择与其他两个最不同的地点类型。对于三元组中的每一种地点类型,人类裁判都会做出二元判断;参见图3。我们在Amazon Mechanical Turk上发布了命中任务,这80项测试中的每一项都是由25名人类工作人员完成的。每项测试的最终结果由25名人类工人的模式答案决定。例如,考试的最终答案(牙科医生、教育医生、正畸医生)是教育,因为这是最常被排除的类型。

为了评估增强空间上下文产生的潜在表征,对于每个三元组,我们使用2-组合来计算成对相似性得分。例如,对于上述三胞胎,我们计算了三对(牙科医生,教育)、(牙科医生,正畸医生)和(教育,正畸医生)的相似度得分。我们选择得分最高的地点类型,并使用我们的方法返回其他地点类型作为此测试的结果。例如,如果(牙医,正畸医生)得分最高,那么教育就是我们方法的结果。我们评估了不同方法对所有三元组的准确性。

5.3 基于排名的HIT评估方案

虽然基于二进制的点击率评估可以通过依靠人工评判来补充Yelp层次任务,但这项任务相对容易。因此,对于基于排名的命中评估方案,我们希望使用人工评判来为每个地点类型生成排名结果。我们选择了10个地点类型,对于每个地点类型,我们选择了7个候选地点类型进行排名,因此我们总共有70个POI类型对。我们要求亚马逊机械土耳其网站上的25名人类评委对每一对的相似度进行1-7分的评分。在研究语义相似性的上下文中,这样的任务可以被认为是非常具有挑战性的[10],并且需要更多地关注用户界面设计(图4),以适应人类相似性判断的一些众所周知的特征,特别是这样的判断是已知的非对称的。此外,我们还选择了基于滑块的设计,以便于在配对之间进行视觉比较;请参见[6]。

在收到结果后,我们从25名人类评委那里获得了每种排名类型的排名。为了检查排名是否一致,从而检查任务是否有意义,我们使用肯德尔的和谐系数W来评估评委之间的一致性得分。肯德尔在测试中所有地点类型的平均得分为0.79,这表明一致性非常高。

为了使用所提出的增强空间上下文来评估我们的位置嵌入,我们基于成对相似性得分为每种地点类型生成一个排名。然后,我们计算我们的排名和命中任务的排名之间的平均Spearman等级相关系数,作为评估我们模型性能的标准。

6 实验和结果

在本节中,我们将讨论实验以评估我们的工作及其结果。我们还指出了我们工作中出现的一个有趣的研究问题。首先,我们必须定义POI类型嵌入的维数。接下来,我们使用所提出的评估方案将我们的嵌入与从Google News语料库训练的最新词汇嵌入作为基线进行比较,以重申增强空间上下文以从地理空间获得更丰富语义信息的必要性。此外,我们使用降维技术对不同空间上下文下的不同嵌入空间进行可视化和分析,并提出了地点类型轮廓作为理解地点类型相似性和关联性的可视化辅助工具。最后,我们简要介绍了我们工作中出现的一个非常有趣的研究问题,即是否有可能仅通过使用POI类型的子集来学习所有POI类型来进行压缩。从城市规划的角度来看,这个问题也可以通过询问是否有特定的地点类型来表示一个社区(当被建模为一组POI时)来从总结的角度来框架。

6.1选择维度

潜在表示模型的一个重要参数是嵌入向量的维数。由于地点类型的总数与自然语言的词汇量相比相对较少,我们选择了10到100个维度,步长间隔为10,以确定模型的最佳维度数量。由于我们希望在我们的空间上下文中结合内在和外在信息,所以我们在本任务中重点使用了组合的扩充因子βl j,该因子考虑了地理距离和兴趣点受欢迎程度的影响。图5显示了使用Yelp基于层次的评估方案、二进制命中测试和基于排名的命中的维度测试结果。虽然这六项指标的绝对值存在差异,但总体趋势非常相似。它表明使用70维可以产生最好的整体效果,我们将在下面描述的实验中使用这个数字。

6.2比较

通过引入增强的空间上下文,我们希望展示潜藏在地理模式中的语义信息的丰富性。首先,为了证明POI类型嵌入的必要性,我们将从Google News语料库训练的单词嵌入的评估结果与从Yelp POI和我们的增强空间上下文训练的地点类型嵌入的评估结果进行了比较。词嵌入已经被用于各种信息检索任务中,并且被频繁地用作地理信息检索的代理。然而,许多单词嵌入技术只考虑单字,比如谷歌预先训练好的word2vec嵌入,这意味着它们不适用于许多地名类型的名称,比如Auto Repair。此外,如上所述,地理空间与词空间本质上是不同的,因此,词嵌入缺乏捕捉不同地理实体之间的空间互动和距离(衰减)效应的能力,而距离(衰减)效应是衡量地点类型相似性和关联性的一个重要因素。

为了支持我们的论点,我们在不同的空间上下文下对单词嵌入和所提出的地点类型嵌入进行了比较,即一个使用原始空间上下文,四个使用扩充的空间上下文。回想一下,在ITDL增强的空间上下文中有一个权重参数ω,用于调整A(活动)和DU(唯一性)的相对重要性。我们测试了我们的模型,ω值从0.1到1,步长间隔为0.1。我们的TS值是2644.5米,所以对于ω方法的每个ITDL值和100m的滞后,空间上下文的总数是s=⌊2644.5/100⌋=26。最后,我们可以获得234个不同的增强空间上下文,并使用并行线程从每个上下文中学习地点类型嵌入。为了比较评估结果,对于每个ω值,我们测试了26个库中每个库的性能,并将前五个库的嵌入向量连接起来,生成了350维的最终地点类型嵌入。我们使用最佳ITDL值作为ω增强空间上下文的最终结果。

我们使用基于层次的评估方案和二进制命中评估方案,将预先训练的Google word2vec结果与我们的地点类型嵌入进行了比较。自然是没有增强的空间上下文。SCCHECKIN、SCDISTANCE、SCCOMERED和SCIT DL是第4节中详细介绍的方法。表1显示了基于层次的评估结果。如前所述,使用Google News语料库训练的单词嵌入只包含单字,因此我们选择一个子集(93个地点类型)作为测试数据。所有方法都使用第5节中描述的六个度量进行了测试。表2显示了二进制和基于排名的命中结果。层次化和二元评价表明,即使在没有任何扩充的情况下,使用空间上下文得到的结果也比单纯基于语言学角度的结果要好得多,从而也表明了我们的方法比第二节中概述的以前的工作所带来的好处。这证实了我们的假设,即地理空间携带着丰富的潜在语义信息,而这些信息不是仅靠单词空间就能捕捉到的。

对于基于排名的评估方案,我们去掉了Google word2vec嵌入,以便能够使用二元语法,因为仅使用语言上下文已经不能很好地完成这两个更简单的任务。在所有三个评估中,ITDL增强的空间上下文都能够模拟更多的语义信息,因此在地点类型相似性测试中产生了更好的结果。当ρ为0.7时,即与人的判断有很强的相关性,而准确度为0.95时,这一点对于较难命中的情况最为明显。这是一个显著的结果,因为人类利用更丰富的信息来推断相似性,例如类型标签的含义(和相似性)、背景知识(例如关于亚洲食物相似的文化和历史原因等)。在财务上,值得一提的是,短距离和长距离垃圾箱都对这些结果做出了贡献,例如,最高的ρ是由4-17-1-5-24(ω=0.1)拼接而成的,其中24表示距离中心位置2400米处的100米滞后。

6.3 地点类型侧写

虽然我们在评估中使用了串连的地点类型嵌入,但是可以单独使用单独的增强空间上下文来分析不同地点类型的特征。在这里,我们提出了一种三维可视化方法,即地点类型轮廓,作为比较不同POI类型及其语义关系的工具。我们使用t分布随机邻居嵌入(t-SNE)[16]将我们在每个距离框中的地点类型嵌入减少到二维,然后将这些2D空间中的每一个堆叠在一起来构建3D轮廓。图6显示了使用ω=0.5时生成的选定类型的轮廓,x轴和y轴是使用t-sne降维后的两个分量,z轴是距离框。人们可以看到,酒吧、餐馆和酒店总是聚集在一起,无论他们在哪个距离的垃圾箱里。警察部门在每个垃圾箱里都有一定的距离。卫生与医疗仍然远离所有其他POI类型。此模式显示,酒吧、餐馆和酒店在每个距离箱中都有非常相似的上下文,这意味着它们与其他POI类型的交互方式相似。在接下来讨论压缩势的时候,我们会回到这个论点上来。

6.4 地点类型的压缩

到目前为止,我们的实验都是基于所有POI类型的,这意味着我们使用所有类型为每个扩展的空间上下文生成我们的训练数据,并运行潜在表示模型来检索地点类型嵌入。然而,当(tcenter,tcont ex t)对的数量在以后的距离箱中增加时,这种方法是耗时的,并且还可能导致过度拟合。为了得到更浓缩的结果,我们提出了地点类型压缩的新思想。我们的直觉是,许多地点类型,如餐厅和夜生活,都与其他类型(通过他们的POI)处于同一位置,遵循类似的模式。因此,我们的假设是,这些类型可以作为代理,例如,我们可以省略所有夜生活场所(以及其17个子类型的场所),并且仍然可以学习包括夜生活在内的所有类型的良好嵌入。某些地点类型(如专业服务)与其他地点类型的交互模式较弱,因此很难通过其他POI类型来表示它们

为了检验我们的假设,我们选择了四种不同的根地点类型:餐厅、夜生活、专业服务和健康与医疗。在我们的培训中,我们从上下文POI类型中删除这些地点类型及其子类型中的每一个,并使用ITDL增强的空间上下文运行我们的模型。此外,我们通过删除这4个地点类型之外的所有18个地点类型(有22个根地点类型)来运行我们的模型。二次命中评估的准确性结果和基于排名的命中的Spearman‘sρ结果如表3所示。结果表明,删除餐厅或夜生活对最终嵌入没有太大影响,而删除专业服务或健康与医疗将导致性能(小幅)下降。因此,给定所研究的570个类型,即使从其中移除69个(例如,通过移除Restaurants超类型),我们也只剩下足够的代理类型,即以类似方式与其他类型交互的类型。然而,删除18个位置超类型并尝试仅在剩余的4个超类型上生成嵌入将导致大量的减少。这证实了我们的假设,即我们可以压缩我们的模型,同时仍然获得地点类型的高质量潜在表示。

7 结论和下一步工作

在这项研究中,我们提出了一种新的方法,即增强空间上下文,通过学习向量嵌入来获取地点类型的语义,并利用它们来推理地点类型的相似性和关联性,这是地理信息检索的共同前提。通过将所提出的方法生成的地点类型嵌入与最先进的词嵌入进行比较,我们能够表明我们的信息论、距离滞后的增强空间上下文的性能大大优于基线,并且更好地捕捉到了潜在的语义信息。我们还建立了三种不同的评估方案来系统地评估由此产生的POI嵌入。我们在网上发布了嵌入和Hit结果,以促进重现性,并希望它们可以被其他致力于地点类型矢量表示的人重用。我们使用地点类型配置文件来可视化不同地点类型之间的语义关系。最后,我们概述了指示性POI类型的概念以及它们作为一种新的研究途径在压缩中的应用。

在未来,我们将更详细地探索地点类型压缩,以确定POI类型的不同组合如何影响整体地点类型嵌入的质量,并将跟进使用它们来总结社区的想法。最后,我们在这里重点讨论了测地线距离,但是我们的方法可以在以后的工作中推广,例如使用L1距离(出租车)。

  1. Benjamin Adams and Krzysztof Janowicz. 2015. Thematic signatures for cleansing and enriching place-related linked data. International Journal of Geographical Information Science 29, 4 (2015), 556–579.
  2. Yoshua Bengio, Réjean Ducharme, Pascal Vincent, and Christian Jauvin. 2003. A neural probabilistic language model. Journal of machine learning research 3, Feb (2003), 1137–1155.
  3. Anne Cocos and Chris Callison-Burch. 2017. The Language of Place: Semantic Value from Geospatial Context. EACL 2017 (2017), 99.
  4. Shanshan Feng, Gao Cong, Bo An, and Yeow Meng Chee. 2017. POI2Vec: Geographical Latent Representation for redicting Future Visitors. (2017).
  5. John R Firth. 1957. A synopsis of linguistic theory, 1930-1955. (1957).
  6. Nelson Goodman. 1972. Problems and projects. (1972).
  7. Sébastien Harispe, Sylvie Ranwez, Stefan Janaqi, and Jacky Montmain. 2015. Semantic similarity from natural language and ontology analysis. Synthesis Lectures on Human Language Technologies 8, 1 (2015), 1–254.
  8. Stevan Harnad. 2005. To cognize is to categorize: Cognition is categorization. Handbook of categorization in cognitive science (2005), 20–45.
  9. Krzysztof Janowicz. 2012. Observation-driven geo-ontology engineering. Transactions in GIS 16, 3 (2012), 351–374.
  10. Krzysztof Janowicz, Martin Raubal, and Werner Kuhn. 2011. The semantics of similarity in geographic information retrieval. Journal of Spatial Information Science 2011, 2 (2011), 29–57.
  11. Jay J Jiang and David W Conrath. 1997. Semantic similarity based on corpus statistics and lexical taxonomy. arXiv preprint mp-lg/9709008 (1997).
  12. Junchul Kim, Maria Vasardani, and Stephan Winter. 2017. Similarity matching for integrating spatial information extracted from place descriptions. International Journal of Geographical Information Science 31, 1 (2017), 56–80.
  13. Claudia Leacock and Martin Chodorow. 1998. Combining local context and WordNet similarity for word sense dentification. WordNet: An electronic lexical database 49, 2 (1998), 265–283.
  14. Wentian Li. 1992. Random texts exhibit Zipf’s-law-like word frequency distribu tion. IEEE Transactions on information theory 38, 6 (1992), 1842–1845.
  15. Dekang Lin et al. 1998. An information-theoretic definition of similarity.. In Icml, Vol. 98. 296–304.
  16. Laurens van der Maaten and Geoffrey Hinton. 2008. Visualizing data using t-SNE. Journal of Machine Learning Research 9, Nov (2008), 2579–2605.
  17. Grant McKenzie and Krzysztof Janowicz. 2015. Where is also about time: A location-distortion model to improve reverse geocoding using behavior-driven temporal semantic signatures. Computers, Environment and Urban Systems 54(2015), 1–13.
  18. Grant McKenzie, Krzysztof Janowicz, Song Gao, and Li Gong. 2015. How where is when? On the regional variability and resolution of geosocial temporal signatures for points of interest. Computers, Environment and Urban Systems 54 (2015), 336–
  19. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. Efficient estimation of word representations in vector space. arXiv:1301.3781 (2013).
  20. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. 2013. Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems. 3111–3119.
  21. Andriy Mnih and Koray Kavukcuoglu. 2013. Learning word embeddings efficiently with noise-contrastive estimation. In Advances in neural information processing systems. 2265–2273.
  22. Christoph Mülligann, Krzysztof Janowicz, Mao Ye, and Wang-Chien Lee. 2011. Analyzing the spatial-semantic interaction of points of interest in volunteered geographic information. InInternational Conference on Spatial Information Theory. Springer, 350–370.
  23. Gianluca Quercini and Hanan Samet. 2014. Uncovering the spatial relatedness in Wikipedia. In Proceedings of the 22nd ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. ACM, 153–162.
  24. David Sánchez, Montserrat Batet, and David Isern. 2011. Ontology-based information content computation. Knowledge-Based Systems 24, 2 (2011), 297–303.
  25. Nuno Seco, Tony Veale, and Jer Hayes. 2004. An intrinsic information content metric for semantic similarity in WordNet. In Proceedings of the 16th European conference on artificial intelligence. IOS Press, 1089–1090.
  26. Yi-Fu Tuan. 1977. Space and place: The perspective of experience. Uni. of Minnesota.
  27. Zhibiao Wu and Martha Palmer. 1994. Verbs semantics and lexical selection. In Proceedings of the 32nd annual meeting on Association for Computational Linguistics. Association for Computational Linguistics, 133–138.
  28. Yao Yao, Xia Li, Xiaoping Liu, Penghua Liu, Zhaotang Liang, Jinbao Zhang, and Ke Mai. 2017. Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model. International Journal of Geographical Information Science 31, 4 (2017), 825–848.
  29. Mao Ye, Krzysztof Janowicz, Christoph Mülligann, and Wang-Chien Lee. 2011. What you are is when you are: the temporal dimension of feature types in location-based social networks. In Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. ACM, 102–111.
  30. Chao Zhang, Keyang Zhang, Quan Yuan, Haoruo Peng, Yu Zheng, Tim Hanratty, Shaowen Wang, and Jiawei Han. 2017. Regions, periods, activities: Uncovering urban dynamics via cross-modal representation learning. In Proceedings of the 26th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 361–370.
  31. Yating Zhang, Adam Jatowt, and Katsumi Tanaka. 2017. Is Tofu the Cheese of Asia?: Searching for Corresponding Objects across Geographical Areas. In Proceedings of the 26th International Conference on World Wide Web Companion. International World Wide Web Conferences Steering Committee, 1033–1042.
  32. Shenglin Zhao, Tong Zhao, Irwin King, and Michael R Lyu. 2017. Geo-Teaser: Geo-Temporal Sequential Embedding Rank for Point-of-interest Recommendation. In Proceedings of the 26th International Conference on World Wide Web Companion. International World Wide Web Conferences Steering Committee, 153–162.
  33. Rui Zhu, Yingjie Hu, Krzysztof Janowicz, and Grant McKenzie. 2016. Spatial signatures for geographic feature types: Examining gazetteer ontologies using spatial statistics. Transactions in GIS 20, 3 (2016), 333–355.

    1. 1.相似性和关联性是相关的概念,实际上相似性是关联性的一个子属性,而不是相反。举一个直观的例子,格里菲斯天文台与格里菲斯·詹金斯·格里菲斯是通过捐赠者关系联系在一起的,但天文台和这个人并不相似。许多技术,特别是那些基于语言方面(包括word2vec[19])而不是形式语义的技术,不能有效地区分相似性和关联性。因此,我们在这里一起接近他们。然而,我们的三个评估模式中的两个将明确地侧重于(人类)相似性评估。