【摘要】无监督文本编码模型最近推动了自然语言处理的实质性进展。其关键思想是使用神经网络将文本中的词转换为基于单词位置及其上下文的向量空间表示（词嵌入），进而用于下游任务的端到端训练。我们在空间分析中看到了惊人的相似情况，即空间分析侧重于将地理对象（如：POI点）的绝对位置和空间上下文纳入模型。一个通用的空间表征模型对于许多任务都是有价值的。然而，迄今为止，除了简单地将离散化或前馈网络应用于坐标之外，还没有这样通用的模型存在，并且很少有努力对具有非常不同特征的分布进行联合建模，而这些特征经常出现在地理信系统数据中。神经科学领域诺贝尔奖得主的研究表明，哺乳动物的网格细胞（Grid Cell）提供了一种多尺度、周期性的位置编码表示，对于动物识别位置和寻找路径至关重要。因此，我们提出了一个称为 Space2Vec 的空间表征学习模型来编码地点（Place）的绝对位置和空间关系。我们对两个不同任务在两个真实世界的地理数据上进行实验：1）在给定位置和上下文的情况下预测 POI 点的类型；2）利用POI点的地理位置进行图像分类。结果表明，由于Space2Vec具有多尺度表示能力，其在位置建模和图像分类任务方面优于已建立的机器学习方法（如：径向基函数、多层前馈网络、瓦片嵌入方法）。分析表明，所有基线最多只能很好地处理一个尺度上的分布，但在其他尺度上表现不佳。相比之下，Space2Vec 的多尺度表示可以处理不同尺度的分布。

【原文】Mai, G., Janowicz, K., Yan, B., Zhu, R., & Cai, L. （ 2020 ）. MULTI-SCALE REPRESENTATION LEARNING FOR SPATIAL FEATURE DISTRIBUTIONS USING GRID CELLS.

【DOI】[ arXiv:2003.00824]（ https://arxiv.org/abs/2003.00824 ）

1 引言

无监督的文本编码模型，如Word2Vec （ Mikolov等，2013 ）、Glover（ Penington等，2014 ）、ELMo （ Peters等，2018 ）和BERT （ Devlin等，2018 ）已被有效地用于许多自然语言处理（ NLP ）任务。它们的核心是训练模型，根据单词在文本中的位置和上下文，将单词编码成向量空间表示。

在地理信息科学领域也可以遇到类似的情况（例如：空间插值基于附近样本的已知属性值来预测未采样位置处的属性值）。地理信息已经成为许多任务的重要组成部分，例如：细粒度图像分类（ Mac Aodha等，2019 ）、点云分类和语义分割（ Qi等，2017 ）、关于 POI 类型相似性的推理（ Yan等，2017 ）、土地覆盖分类（ Kussul等，2017 ）和地理问题回答（ Mai等，2019b ）。因此，开发一个空间任何点的向量空间通用表征模型将为许多未来的应用铺平道路。

然而，现有模型通常利用特定方法来处理地理信息，并且经常忽略地理坐标。例如：Place2Vec （ Yan等，2017 ）将 POI 点的坐标转换成在一定距离盒内空间上并置的 POI 点对，并且不保留点间的（基数）方向信息。Li等（ 2017 ）提出了用于交通预测的DCRNN，其中交通传感器网络被转换为距离加权图，这必然损失关于传感器的空间布局信息。除了简单地离散化（ Berg等，2014；唐等，2015年）或在前馈神经网络（ Chu等，2019年；Mac Aodha等，2019 ）中引用坐标外，尚没有通用的表征模型。

开发通用空间表征模型的一个关键挑战是如何处理具有非常不同特征的混合分布（见图 1 中的一个例子），这通常出现在空间数据集上（ (McKenzie等，2015年）。比如：对于POI点的类型来说，女装（women‘s Cloth)类型呈聚类分布，而教育（Education）类型呈规则分布。这些不同特征的分布共存于同一个空间中，而我们则想要一个统一的表示方法，以便在位置感知、图像分类等下游任务中能够容纳所有这些特征分布（ Mac Aodha等，2019 ）。

Ripley’K 是一种描述给定兴趣区域点模式的量化指数模型。图 1c 显示了拉斯维加斯几个 POI 点类型的K图，随着半径增加，不同类型的 POI 点数量以不同速率增加。为了查看不同尺度下密度的相对变化，我们对所有 POI 点类型的密度曲线做了归一化处理，并在图 1d 中以对数比例显示。可以明显看到两个不同的 POI 点类型组，它们具有具有聚集和均匀两种不同的分布模式。

进一步的，如果想通过将研究区域离散化来模拟这些 POI 点的空间分布，我们必须对女装使用较小的网格尺寸，而对教育使用较大的网格尺寸，因为较小的网格尺寸会导致模型的过度参数化和过拟合。为了能够统一描述这些分布及其模式，需要一种支持多尺度表示的编码方法。

图 1 ：具有非常不同特征的联合建模分布的挑战

(a)(b) 拉斯维加斯的 POI 点分布（红点）以及 Space2Vec 预测的女装（聚集分布）和教育（均匀分布）的条件似然。 (b) 中暗区表示闹市区的其他类型POI比教育类型多；© POI 点类型的Ripley’s K曲线，Space2Vec 比 wrap 有最大和最小的改进（ Mac Aodha等，2019年）。每条曲线均代表该类型下距离 POI点一定范围内同类型 POI 点的数量；（d）对点密度重新归一化后的Ripley’s K曲线。为了有效实现多尺度表示，Space2Vec将64个尺度（范围从50米到40000米）的网格细胞编码连接为深度模型的第一层，并以无监督的方式用 POI 数据进行自监督训练。

诺贝尔神经科学奖得主研究（ Abbott & Callaway，2014 ）表明，哺乳动物的网格细胞（Grid Cell) 提供了多尺度的周期性表示，其作为位置编码的度量对于哺乳动物的自主运动至关重要。此外，Blair等（ 2007 ）表明，网格细胞的多尺度周期表示（multi-scale periodic representation）可以通过对三个相差60度的余弦光栅函数求和来模拟，并且可以被视为六边形网格的简单傅立叶模型。这项研究启发我们采用多尺度周期表示对位置进行编码的想法。

我们的假设是：“分解的地理坐标有助于深度神经网络等机器学习模型；而多尺度表示可以解决传统单尺度方法的低效，如径向基函数或Tile2vec”。

为了验证这一直觉，我们提出了一个编码器-解码器框架来编码点特征在空间中的分布，并以无监督方式训练这样一个模型。这种使用不同频率正弦函数来编码位置的想法类似于Transformer模型中提出的位置编码（ Vaswani等，2017 ）。不过Transformer的位置编码模型处理的是离散的1D 空间（即句子中单词的位置），而我们的模型在更高维度的连续空间上工作，比如地球表面。

我们工作的主要贡献如下:

我们提出了名为Space2Vec的编码器-解码器编码框架，它使用不同频率的正弦函数来模拟绝对位置和空间上下文。我们还提出了一种基于上下文的多头注意机制。据我们所知，这是第一个明确考虑查询点和上下文点之间空间关系的注意力模型。
我们针对两个不同任务在两个真实世界的地理数据上进行实验：1）在给定位置和上下文的情况下预测 POI 点类型；2 ）利用图像的地理位置辅助图像分类。Space2Vec在位置建模和图像分类方面优于径向基函数、多层前馈神经网络、瓦片嵌入等编码方法。
为了理解Space2Vec的优势，我们可视化了位置编码神经元的响应图，展示了如何通过集成多尺度表征来处理不同尺度的空间结构。此外，空间上下文模型神经元的响应图可以用于观察网格细胞捕捉多尺度表示时的距离递减效应。

2 问题表述

空间中点要素的分布式表示可以表述如下：

给定 $L$ 维空间中的一组点 $P=\{p_i\}$ ，定义函数 $ f_{\mathcal{P}, \theta}(\mathbf{x}): \mathbb{R}^{L} \rightarrow \mathbb{R}^{d}(L \ll d) $ ，该函数由 $θ$ 参数化，并将空间中的任意坐标 $x$ 映射为 $d$ 维向量表示。每个点 $p_i=(x_i,v_i)$ 与坐标 $x_i$ 和属性 $v_i$ （即POI点的特征，如类型、名称、容量等）相关联。函数 $ f_{\mathcal{P}, \theta}(\mathbf{x})$ 编码了点特征在空间上的概率分布，并且可以给出空间中任何点的表示。其中，属性（如POI点的类型）和点坐标可分别与常用词嵌入模型中词和词位置类比。

3 相关工作

已经存在有关基于神经网络的路径集成或空间定位模型，及其与网格细胞关系的理论研究工作。（Cueva & Wei，2018 ；Banino等，2018 ）研究均表明，类似网格的空间反应模式在为导航任务而训练的神经网络中有所表现，表明网格细胞对于基于向量的导航至关重要。此外，Gao等（ 2019 ）提出了一种导航任务中网格细胞的代表性模型，该模型具有局部等距放大等优良特性。所有这些研究都集中在从理论角度理解网格状空间响应模式与导航任务之间的关系。相比之下，我们的目标是将这些理论成果应用于现实世界的地理信息数据中。

径向基函数核是在SVM分类（ Baudat & Anouar，2001 ）和回归（ Bierens，1994 ）任务中，从空间点生成表示的常用方法。但该表示是基于样本的，即模型必须使用训练样本的位置作为高斯核函数的中心 (Maz’ya & Schmidt, 1996) 。相比之下，基于网格细胞的位置编码依赖于正弦和余弦函数，所得模型是归纳的，不需要存储训练样本。

最近，计算机视觉领域对将地理信息（如坐标）结合到神经网络体系结构中表现出越来越大的兴趣，所述神经网络体系结构用于多个任务，例如图像分类（ Tang等，2015年）和细粒度识别（ Berg等，2014年；Chu等，2019年；Mac Aodha等，2019年）。Berg（ 2014 ）和Tang等（ 2015 ）均提出将研究区域离散为规则网格，为模拟图像类别的地理先验分布，采用网格ID作为GPS位置编码，而不是原始坐标。但是选择正确的离散化方式是具有挑战性的（ Openshaw，1984；Fotheringham & Wong, 1991)，不正确的选择会显著影响最终性能（Moat等，2018；Lechner等，2012年）。此外，离散化很难根据内存做调整。为克服这些困难，Chu等（ 2019 ）和Mac Aodha等（ 2019 ）都提出了归纳位置编码器的想法，该编码器将坐标直接编码为位置嵌入。但两者都是直接将坐标馈入前馈神经网络（ Chu等，2019 ）或残差网络（ Mac Aodha等，2019 ），没有考虑任何特征分解策略。我们的实验表明，这种直接编码方法不足以捕捉空间特征分布，而 Space2Vec 通过集成不同尺度的空间表示则能够显著优于它们。

4 方法

我们使用编码器解码器架构来解决空间点要素的分布式表示问题：

（1）给定点 $p_i=(x_i,v_i)$ ，一个点空间编码器 $Enc^{(x)}()$ 将位置 $x_i$ 编码成位置嵌入 $\mathbf{e}\left[\mathbf{x}_{i}\right] \in \mathbb{R}^{d^{(x)}}$ ，一个点特征编码器 $Enc^{(v)}()$ 将特征 $v_i$ 编码成特征嵌入 $\mathbf{e}\left[\mathbf{v}_{i}\right] \in \mathbb{R}^{d^{(v)}}$ 。$\mathbf{e}=\left[\mathbf{e}\left[\mathbf{x}{i}\right] ; \mathbf{e}\left[\mathbf{v}{i}\right]\right] \in \mathbb{R}^{d} $ 是点 $p_i \in P$ 的完整表示，其中 $d = d^{(x)}+ d^{(v)}$ ， $[;]$ 表示矢量连接。相比之下，研究空间中不在 $P$ 中的某个地理实体可以通过它们的位置嵌入 $\mathbf{e}\left[\mathbf{x}_{j}\right]$ 来表示，因为它的 $v_i$ 未知。

（2）我们开发了两种类型的解码器，可单独使用，也可联合使用。位置解码器 $Dec_s()$ 在给定点位置嵌入 $\mathbf{e}\left[\mathbf{x}_{i}\right]$ 的情况下重构点特征嵌入 $\mathbf{e}\left[\mathbf{v}_{i}\right]$ ；空间上下文解码器 $Dec_c()$ 将基于最邻近点集合 $p_{i1},p_{i2},..,p_{in}$ 的点特征嵌入 $e_{i1},e_{i2},..,e_{in}$ ，重构点 $p_i$ 的点特征嵌入 $\mathbf{e}\left[\mathbf{v}_{i}\right]$ ，其中最邻近点数量 $n$ 是超参数。

4.1 编码器

**点特征编码器：**点集 $P$ 中的每个点 $p_i=(x_i,v_i)$ 通常与一些特征相关联。例如：一组空气污染站点检测数据、一组具有类型和名称的POI点、一组具有高程值的测高点、一组具有矿物含量的地质测量点等。点特征编码器 $Enc^{(v)}()$ 将这些特征 $v_i$ 编码成特征嵌入 $\mathbf{e}\left[\mathbf{v}_{i}\right] \in \mathbb{R}^{d^{(v)}}$ 。 $Enc^{(v)}()$ 的实现取决于这些特征的性质。例如：如果每个点代表一个具有多种类型的POI，则特征嵌入 $\mathbf{e}\left[\mathbf{v}_{i}\right]$ 可以简单地是每个POI类型嵌入的平均值$ \mathbf{e}\left[\mathbf{v}{i}\right]=\frac{1}{H} \sum{h=1}^{H} \mathbf{t}{h}^{(\gamma)} $, 其中 $ \mathbf{t}{h}^{(\gamma)} $ 表示点 $p_i$ 的第 $h$ 个类型对应的点特征嵌入。我们对 POI 点类型嵌入矩阵做了L2 归一化。

**点空间编码器：**本文的部分新意来自于点空间编码器 $Enc^{(x)}()$ 。我们首先介绍定理 1 ，它提供了一个解析解 $\phi(\mathbf{x})$ ，以作为将二维空间中任意位置 $ \mathbf{x} \in \mathbb{R}^2$ 编码为分布式表示的基础。

**定理 1 ：**设 $ \boldsymbol{\Psi}(\mathbf{x})=\left(e^{i\left\langle\mathbf{a}{j}, \mathbf{x}\right\rangle}, j=1,2,3\right)^{T} \in \mathbb{C}^{3} $ ，其中 $ e^{i \theta}=\cos \theta+i \sin \theta $ 是复数的欧拉定义； $<a_j,\mathbf{x}>$ 是 $a_j$ 和 $\mathbf{x}$ 的内积。 $a_1，a_2，a_3 \in \mathbb{R}^2$ 是二维向量， $a_k$ 和 $a_l$ 之间的夹角为 $2π / 3$ ，$ \forall j,\left|\mathbf{a}{j}\right|=2 \sqrt{\alpha} . $ 令 $ \mathbf{C} \in \mathbb{C}^{3 \times 3} $ 为一随机复数矩阵且 $\mathbf{C}*\mathbf{C} = I$ ，则 $ \phi(\mathbf{x})=\mathbf{C} \boldsymbol{\Psi}(\mathbf{x}) $, 且$ M(\Delta \mathbf{x})=\mathbf{C} \operatorname{diag}(\mathbf{\Psi}(\Delta \mathbf{x})) \mathbf{C}^{*} $ 满足：

\phi(\mathbf{x}+\Delta \mathbf{x})=M(\Delta \mathbf{x}) \phi(\mathbf{x})

和

\langle\phi(\mathbf{x}+\Delta \mathbf{x}), \phi(\mathbf{x})\rangle=d\left(1-\alpha\|\Delta \mathbf{x}\|^{2}\right)

其中： $ d=3 $ 表示 $ \phi(\mathbf{x}) $ 的维度， $ \Delta \mathbf{x} $ 为从 $ \mathbf{x} $ 开始的微小位移。

定理1的证明可见于Gao等(2019)。 $ \phi(\mathbf{x})=\mathbf{C} \boldsymbol{\Psi}(\mathbf{x}) \in \mathbb{C}^3$ 等于一个6维的实值向量，每个维度显示一个模拟网格细胞行为的六边形响应模式。由于 $sin()$ 和 $cos()$ 具有周期性，这种单尺度表示 $\phi(\mathbf{x})$ 并不形成二维空间中位置的全局编码本，即可以出现 $ \mathbf{x} \neq \mathbf{y}$ ，但是 $\phi (\mathbf{x})= \phi (\mathbf{y})$ 。

受定理1和哺乳动物网格细胞多尺度周期表示的启发(Abbott & Callaway，2014)，我们建立了点空间编码器 $\mathbf{e}[\mathbf{x}]=\operatorname{Enc}_{\text {theory }}^{(x)}(\mathbf{x})$ 来使用不同频率的正弦和余弦函数对空间中的位置进行编码。给定所研究二维空间中的任意点 $\mathbf{x}$ ，空间编码器 $ E n c_{\text {theory }}^{(x)}(\mathbf{x})=\mathbf{N N}\left(P E^{(t)}(\mathbf{x})\right) $ ，其中 $ P E^{(t)}(\mathbf{x})= \left[P E_{0}^{(t)}(\mathbf{x}) ; \ldots ; P E_{s}^{(t)}(\mathbf{x}) ; \ldots ; P E_{S-1}^{(t)}(\mathbf{x})\right]$

是6个维度多尺度表示 $d^{（x）}$ 的连接（concatenation）。此处 $S$ 是网格尺度的总数，且 $S = 0，1，2，...，S-1$ 。 $\mathbf{NN}()$ 代表全连接的ReLU层。设 $ \mathbf{a}{1}=[1,0]^{T}, \mathbf{a}{2}=[-1 / 2, \sqrt{3} / 2]^{T}, \mathbf{a}{3}=[-1 / 2,-\sqrt{3} / 2]^{T} \in \mathbb{R}^{2} $ 是三个单位向量，它们之间的夹角为 $2π/3$ 。 $λ_{min}，λ_{max}$ 是最小和最大的网格尺度，且 $g= \frac{λ_{max}}{λ_{min}}$ 。在每个尺度 $s$ ，$ P E{s}^{(t)}(\mathbf{x})=\left[P E_{s, 1}^{(t)}(\mathbf{x}) ; P E_{s, 2}^{(t)}(\mathbf{x}) ; P E_{s, 3}^{(t)}(\mathbf{x})\right] $ 是三个组件的串接，其中：

P E_{s, j}^{(t)}(\mathbf{x})=\left[\cos \left(\frac{\left\langle\mathbf{x}, \mathbf{a}_{j}\right\rangle}{\lambda_{\min } \cdot g^{s /(S-1)}}\right) ; \sin \left(\frac{\left\langle\mathbf{x}, \mathbf{a}_{j}\right\rangle}{\lambda_{\min } \cdot g^{s /(S-1)}}\right)\right] \forall j=1,2,3

$ \mathbf{N N}() $ 和 $ P E^{(t)}(\mathbf{x}) $ 与定理1中的 $ \mathbf{C} $ 和 $ \boldsymbol{\Psi}(\mathbf{x}) $ 类似。

受Transformer的位置编码模型启发，我们可以定义另一个空间编码器 $ E n c_{g r i d}^{(x)}(\mathbf{x})=\mathbf{N} \mathbf{N}\left(P E^{(g)}(\mathbf{x})\right) $ 。其中 $ P E^{(g)}(\mathbf{x})= \left[P E_{0}^{(g)}(\mathbf{x}) ; \ldots ; P E_{s}^{(g)}(\mathbf{x}) ; \ldots ; P E_{S-1}^{(g)}(\mathbf{x})\right] $ 仍然是其多尺度表示的拼接，而 $P E_{s}^{(g)}(\mathbf{x})=\left[P E_{s, 1}^{(g)}(\mathbf{x}) ; P E_{s, 2}^{(g)}(\mathbf{x}) ; P E_{s, 3}^{(g)}(\mathbf{x})\right] $ 分别处理 $\mathbf{x}$ 的每个成分 $l$ :

P E_{s, l}^{(g)}(\mathbf{x})=\left[\cos \left(\frac{\mathbf{x}^{[l]}}{\lambda_{\min } \cdot g^{s /(S-1)}}\right) ; \sin \left(\frac{\mathbf{x}^{[l]}}{\lambda_{\min } \cdot g^{s /(S-1)}}\right)\right] \forall l=1,2

4.2 解码器

两种类型的解码器是为两种主要类型的地理信息系统问题而设计的：位置建模和空间上下文建模(见第5.1节)。

位置解码器 $Dec_s()$ ： 给定点空间嵌入 $e(\mathbf{x}_i)$ ， $Dec_s()$ 直接重构该点的特征嵌入 $e(\mathbf{v}_i)$ 。采用的模型是单层前馈神经网络 $ \mathbf{N N}_{dec}() $

\mathbf{e}\left[\mathbf{v}_{i}\right]^{\prime}=\operatorname{Dec}_{s}\left(\mathbf{x}_{i} ; \theta_{\operatorname{dec}_{s}}\right)=\mathbf{N} \mathbf{N}_{\operatorname{dec}}\left(\mathbf{e}\left[\mathbf{x}_{i}\right]\right)

对于训练，我们使用内积将重构后的特征嵌入 $e[\mathbf{v}_i]'$ 与真实的特征嵌入 $e[\mathbf{v}_i]$ 以及其他负样本点进行比较(参见第4.3节中的训练细节)。

**空间上下文解码器 $Dec_c()$ ：**给定点 $p_i$ 最近邻的 $n$ 个点 $\{p_{i1}，p_{i2}，...，p_{in} \}$ ，及其特征嵌入 $ { e_{i1},e_{i2},…,e_{in}}$ ，空间上下文解码器 $Dec_c()$ 将重构 $p_i$ 的特征嵌入 $e(\mathbf{v}_i)$ 。注意，空间上下文中点的馈入顺序不应影响预测结果，这可以使用Zaheer等（2017) 提出的排列不变神经网络结构实现，如PointNet(Qi等，2017)。

\mathbf{e}\left[\mathbf{v}_{i}\right]^{\prime}=\operatorname{Dec}_{c}\left(\mathbf{x}_{i},\left\{\mathbf{e}_{i 1}, \ldots, \mathbf{e}_{i j}, \ldots, \mathbf{e}_{i n}\right\} ; \theta_{\operatorname{dec}_{c}}\right)=g\left(\frac{1}{K} \sum_{k=1}^{K} \sum_{j=1}^{n} \alpha_{i j k} \mathbf{e}\left[\mathbf{v}_{i j}\right]\right)

这里 $g$ 是类似 $sigmoid$ 的激活函数。$ \alpha_{i j k}=\frac{\exp \left(\sigma_{i j k}\right)}{\sum_{o=1}^{n} \exp \left(\sigma_{i o k}\right)} $ 是 $p_i$ 的第 $j$ 个近邻通过第 $k$ 头注意力获得的注意力，并且

\sigma_{i j k}=\operatorname{Leak} y \operatorname{Re} L U\left(\mathbf{a}_{k}^{T}\left[\mathbf{e}\left[\mathbf{v}_{i}\right]_{i n i t} ; \mathbf{e}\left[\mathbf{v}_{i j}\right] ; \mathbf{e}\left[\mathbf{x}_{i}-\mathbf{x}_{i j}\right]\right]\right)

其中，$ \mathbf{a}_{k} \in \mathbb{R}^{2 d^{(v)}+d^{(x)}} $ 为第 $k$ 头的注意力参数。多头注意力机制的灵感来自于图注意力网络(V eliˇckovi‘c 等，2018年；Mai等，2019a）。

为了表示每个上下文点 $P_{ij}=(\mathbf{x}_{ij},\mathbf{v}_{ij})$ 和中心点 $P_{i}=(\mathbf{x}_{i},\mathbf{v}_{i})$ 之间的空间关系(距离和方向)，我们使用空间编码器 $Enc^{(x)}()$ 来编码它们之间的位移 $\Delta \mathbf{x}_{ij}=\mathbf{x_i}-\mathbf{x_{ij}}$ 。请注意，我们同时对中心点和 $n$ 个上下文点之间的空间交互进行建模。

在公式7中， $\mathbf{e}\left[\mathbf{v}_{i j}\right]_{init}$ 指通过另一个多头注意力层（类似公式6）计算得到的、点 $p_i$ 的特征嵌入 $e[\mathbf{v}_i]$ 的初始预测值，权重 $ \alpha_{i j k}^{\prime}=\frac{\exp \left(\sigma_{i j k}^{\prime}\right)}{\sum_{o=1}^{n} \exp \left(\sigma_{i o k}^{\prime}\right)} $ 。此处， $\sigma_{ijk}’$ 由公式8计算（排除了查询嵌入 $e[\mathbf{v}_i]$ ）。

\sigma_{i j k}^{\prime}= LeakyReLU \left(\mathbf{a}_{k}^{\prime T}\left[\mathbf{e}\left[\mathbf{v}_{i j}\right] ; \mathbf{e}\left[\mathbf{x}_{i}-\mathbf{x}_{i j}\right]\right]\right)

4.3 无监督训练

无监督学习任务可以简单地通过对样本集 $P$ 中所有样本点 $p_i$ 在位置 $\mathbf{x}_i$ 处的最大对数似然进行。

\mathcal{L}_{\mathcal{P}}(\theta)=-\sum_{p_{i} \in \mathcal{P}} \log P\left(p_{i} \mid p_{i 1}, \ldots, p_{i j}, \ldots, p_{i n}\right)=-\sum_{p_{i} \in \mathcal{P}} \log \frac{\exp \left(\mathbf{e}\left[\mathbf{v}_{i}\right]^{T} \mathbf{e}\left[\mathbf{v}_{i}\right]^{\prime}\right)}{\sum_{p_{o} \in \mathcal{P}} \exp \left(\mathbf{e}\left[\mathbf{v}_{o}\right]^{T} \mathbf{e}\left[\mathbf{v}_{i}\right]^{\prime}\right)}

这里仅使用 $p_i$ 的特征嵌入（未使用位置嵌入）以防止泄露候选点的身份，且 $θ=[\theta _{enc};\theta_{Dec}]$ 。

Mikolov 等(2013) 提出的负抽样可以用来提升训练效率。

\mathcal{L}_{\mathcal{P}}^{\prime}(\theta)=-\sum_{p_{i} \in \mathcal{P}}\left(\log \sigma\left(\mathbf{e}\left[\mathbf{v}_{i}\right]^{T} \mathbf{e}\left[\mathbf{v}_{i}\right]^{\prime}\right)+\frac{1}{\left|\mathcal{N}_{i}\right|} \sum_{p_{o} \in \mathcal{N}_{i}} \log \sigma\left(-\mathbf{e}\left[\mathbf{v}_{o}\right]^{T} \mathbf{e}\left[\mathbf{v}_{i}\right]^{\prime}\right)\right)

这里，$ \mathcal{N}{i} \subseteq \mathcal{P} $ 是针对 $ p{i}\left(p_{i} \notin \mathcal{N}_{i}\right) $ 的负采样样本点，且 $ \sigma(x)=1 /\left(1+e^{-x}\right) $ 。

5 试验

在这一部分中，我们将Space2Vec与常用位置编码方法进行了比较，并对它们进行了定量和定性的分析。

基线： 我们的基线包括 1）直接应用前馈网络(Chu等，2019年)；2）Tile离散化(Berg等，2014；Adams等，2015；Tang等，2015)；3） $wrap$ 前馈神经网络(Mac Aodha等，2019年)；4）RBF径向基函数方法(Baudat&Anouar，2001；Bierens，1994)。有关基线的详细信息，参见附录A.1。

5.1 POI点分类任务

（1）数据集和任务

为了验证该模型，我们在包含POI位置和类型信息的地理数据集上进行了实验。我们利用Yelp Data Challenges发布的开源数据集，选择拉斯维加斯市中心区域内的所有POI。此数据集有21,830个POI，含1,191个不同的POI类型。请注意，每个POI可能与一种或多种类型相关联。实验中不使用任何其他元数据，如：企业名称、评论等。我们将地理坐标投影到NAD83/Conus Albers坐标系。POI点集分为训练、验证和测试数据集，比率为80%：10%：10% 。我们创建了两个任务，代表了地理信息科学中不同类型的建模需求：

任务1：位置建模

基于 POI 点位置 $\mathbf{x}_i$ 经过位置解码器 $Dec_s()$ 获得的向量表示，来预测与该POI点相关的特征。这代表了大量位置预测问题，例如：具有地理先验的图像细粒度识别(Chu等，2019年)和物种潜在分布预测(Zuo等，2008年)。

任务2：空间上下文建模

基于 POI 的上下文特征 $\{ e_{i1},e_{i2},...e_{in} \}$ 来预测与POI 相关的特征信息。这代表了一组空间上下文预测问题，例如基于空间上下文的立面图像分类(Yan等，2018)，以及所有空间内插问题。

我们使用 POI 预测度量来评估这些模型。在给定真实点的特征嵌入 $Ervis$ 和 $N$ 个负特征嵌入 $Ni“tervis”u$ 的情况下，我们用余弦距离将预测结果与它们进行了比较。余弦的分值用于对 $Ervis$ 和 $N4$ 个阴性样本进行排序。负特征嵌入是从 $P$ 和 $pi \neq Pj$ 随机抽样点的特征嵌入。我们使用负对数似然（NLL）、平均倒数等级（MRR）和 HIT@5（真实 POI 进入前5的机会）对每个模型进行评估。我们对每个模型进行10次训练和测试，以估计标准差。超参数选择详情见附录A.2。

5.1.1 位置建模任务的评估

在第4.2节中，我们首先研究了使用位置解码器 $Decspq$ 进行位置建模。我们使用负样本大小 $N=100$ 。表1显示了不同模型的平均指标，以及它们在验证集上的最佳超参数设置。我们可以看到， $direct$ 和 $theorydiag$ 的竞争力较弱，只超过了随机选择的基线。其他使用单一尺度方法(包括 $tile$ 、 $wrap$ 和 $RBF$ 执行得较好。最好的结果来自能够处理多尺度表示的各种版本网格细胞模型。

表1 不同位置模型对验证和测试数据集的评估结果。

为理解网格细胞模型优越性的原因，我们对其表示进行了定性分析。我们对使用余弦距离作为距离度量的模型产生的位置嵌入做了层次聚类（参见图2）。可以看到，当限制在大网格尺寸 $ \lambda _{min}=1k$ 时，本文提出的理论与 $RBF（\sigma=1k)$ 相比具有相似的表示（图2d，2e和图4d，4e）和性能。但是，当网格大小较小（ $\lambda _{min}=500,50$ )时，本文模型性能明显优于 $RBF(\sigma=1k)$ 以及 $tile$ 和 $wrap$ 模型。与 $RBF(\sigma =1k)$ 相比，当 $\lambda_{min}=1k， 500，50$ 时，相对改善幅度分别为 $-0.2\%,+0.6\%,+2.1\%$ 。

图2 (a)直接嵌入聚类；(b)具有最佳单元尺寸 $c=500$ 的 $tile$ ；© $wrap(h=3，o=512)$ ；(d)具有最佳 $σ =1k$ 和200个锚点的rbf(红色)；(e)(f)(h)模型具有不同的 $λ_{min}$ ，但固定 $λ_{max}=40k$ 和 $S=64$ 。除了 $wrap$ 外，所有模型都使用512个神经元的单层ReLU隐藏层。

5.1.2 位置建模的对比分析

为了展示多尺度位置表示模型如何影响对具有不同分布模式的 POI 类型进行预测，我们基于半径 $r$ 将所有 1191 种 POI 类型分为三组， $r$ 是从每种 POI 类型的重新标准化 Ripley‘s K曲线后得出的（例如图1d）。它表示 K 曲线和 $y=3.0$ 的直线交点的 $x$ 轴值。较低的 $r$ 表示分布模式更聚集。下面列出了这三个组：

聚集型( $r \leq 100m$ )：具有聚集性分布模式的POI点类型；
中等型（ $ 100m \lt r \lt 200m$ ）：具有少量聚集分布的 POI 点类型；
均匀型( $r \geq 200m$ )：具有均匀分布模式的 POI 点类型。

表2显示了 $direct$ 、 $tile$ 、 $wrap$ 、 $RBF$ 和我们的模型在位置建模任务的测试数据集上相对于上述三个不同POI分布组的性能（MRR）。括号（）中的数字表示基线和我方模型间的 MRR 差异。#POI 指属于每个组的 POI 总数。可以看到，1）两种神经网络方法( $direct$ 神经网络和 $wrap$ 神经网络)都没有尺度相关参数，在所有尺度上表现都不理想，其中 $direct$ 神经网络由于其简单的单层网络而表现较差。2）内置尺度参数的两种方法( $tile$ 和 $RBF$ ) 需要权衡不同尺度的性能。它们的最佳参数设置使其性能接近Space2Vec的中等型的水平，而在聚集型和均匀型组别中的性能都很差。这些观察清楚表明，所有基线最多只能很好地处理一个尺度上的分布，但在其他尺度上表现较差。相比之下，Space2Vec的多尺度表示可以处理不同尺度的分布。

表2:比较不同 POI 点组的表现。我们根据其根类型的半径r将所有1，191个POI类型分为三组，其中它们的重正化里普利k曲线(见图1d)达到3.0: 1)聚类(r ď 100m):具有聚类分布模式的POI类型；2)中(100米或200米): POI 点类型，分布格局不清；3)均匀(r 200m):具有均匀分布模式的POI类型。MRR的包装和理论对这三组显示。pq中的数字表示基线模型的MRR和特定群体的理论的MRR之间的差异。#POI指属于每个组的POI总数。根类型表示这些 POI 点类型属于每个组的根类别。

5.1.3 空间上下文建模任务的评估

我们对4.2节提到的空间上下文解码器 $Dec_c()$ 进行了评估。我们使用与位置建模相同的评估设置。上下文POI点是使用 $PostGIS(n=10)$ 查询的 $n$ 个最近邻点获得的。对于验证和测试数据集，我们确保在训练阶段对其中心点都是未知的。表3显示了用于空间上下文建模的不同模型的评估结果。基线方法( $direct$ 、 $tile$ 、 $wrap$ 、 $RBF$ ）在上下文建模中通常表现不佳。我们使用极坐标设计了（ $Polar$ 、 $Polar\_Tiles$ 、 $Scale\_RBF$ ）等模型的专门版本，并带来了显著的改进。请注意，这些模型是我们专门为上下文建模提出的模型，因此不像网格细胞方法那样通用。

表3:不同空间上下文模型对验证和测试数据集的评估结果。所有编码器包含一个隐藏层FFN。所有网格细胞编码器设置 $λ_{min}=10，λ_{max}=10k$ 。

尽管如此，网格细胞方法在测试数据集上的性能要好于专门的方法，而在验证数据集上的性能与专门的方法相当。实际上，所有基线方法的收益也很小。原因是当上下文信息可访问时，位置编码就不那么重要了。正如Gao等（2019年）所讨论的，当缺乏视觉线索时，动物的网格细胞对它们的导航最有帮助。

图3 显示了笛卡尔坐标系和极坐标系统中位置嵌入的聚类结果。可以看到， $direct$ （图3a，3g）仅在上下文 POI 非常接近（ $log(||\Delta \mathbf{x}_{ij}||+1) \leq 5$ ）时捕获距离信息，而在更远的空间上下文中，它仅对方向信息建模。 $Polar$ （图3b，3h）具有类似行为，但以更细粒度的方式捕获距离信息。 $wrap$ （图3c，3i）主要关注于区分更远空间上下文中的相对位置，这可能是其性能较低的原因。 $Polar\_Tile$ （图3d）主要响应距离信息。有趣的是， $Scaled\_RBF$ 和本文模型在极坐标系统中具有相似的表示（图3k，3l）和相似的性能（表3）。当 $Scaled\_RBF$ 捕捉到随着缩放核大小随距离增大而逐渐减小的距离效应时，理论上是通过整合不同尺度的表示来实现的。

图3：原始空间中的嵌入聚集：(a) $direct$ ；(b) $Polar$ ；© $wrap，h=2，o = 512$ ；(d) $polar_tile，S = 64$ ；(e) $scaled_rbf，σ = 40，β= 0.1$ ；(f)本文模型， $λ_{min}=10，λ_{max}=10k，S=64$ ；(g)(h)(i)(j)(k)(l)是使用 $log(||\Delta \mathbf{x}_{ij}||+1)$ 的极坐标空间中相同模型的聚集结果。所有模型都使用512个神经元的1个ReLU隐藏层(除了 $wrap$ )。大多数模型都能捕捉到距离约为 $150米$ 时的漂移。

5.2 细粒度图像分类任务评估

为了证明Space2Vec对于空间表示的泛化能力，我们将所提出的点空间编码器 $Enc^{(x)}()$ 模型用于众所周知的计算机视觉任务：细粒度图像分类。正如我们在第3节中讨论的那样，许多研究(Berg等，2014年；Chu等，2019年；Mac Aodha等，2019年)已经表明，地理先验信息（在哪里以及何时拍摄图像）对于细粒度图像分类任务来说是非常重要的附加信息，可以显著提高模型性能。例如，外观信息通常不足以区分两个视觉上相似的物种。在这种情况下，地理先验变得更加重要，因为这两个物种可能具有非常不同的空间先验分布，例如Mac Aodha等(2019年)论文图1中的欧洲蟾蜍和棘蟾蜍的例子。

我们采用了Mac Aodha等人的任务设置(2019年)。在训练过程中，我们有一组元组 $ \mathbb{D}={(I_i，\mathbf{x}_i，y_i，p_i)| i=1，…，N }$ ，其中 $I_i$ 表示图像，$ y_i \in {1，2，…，C}$ 是相应的类别标签， $\mathbf{x}_i=[Longitude_i，Latitude_i]$ 是拍摄图像的地理坐标， $p_i$ 是拍摄此图像摄影师的ID。

在训练时，位置编码器被训练以捕获空间先验信息 $P(y| \mathbf{x})$ 。在推断时， $p_i$ 信息不可用，最终的图像分类由两个模型的组合来计算：1）捕获空间先验 $P(y| \mathbf{x})$ 的训练后位置编码器，以及2）捕获 $P(y|I)$ 的InceptionV3网络预训练图像分类模型(Szegedy等，2016)。利用贝叶斯理论推导了联合分布 $P(y|I,\mathbf{x})$ 。参见Mac Aodha等(2019)详细解释的损失函数。请注意，虽然Space2Vec的性能优于专门的密度估计方法，如自适应核(Berg人，2014)，但探索早期就融合Space2Vec与图像模块的表示将是一件有趣的事情。

我们使用两个版本的点空间编码器 $Enc^{(x)}()$ 模型(网格模型，本模型)作为位置编码器来捕捉空间先验信息 $P(y| \mathbf{x})$ 。我们的模型和多个基线的评估结果如表4所示。我们可以看到，在两个具有显著大小的细粒度图像分类数据集Birdsnap，NABirds上，网格模型和本模型都优于以前的模型以及Mac Aodha等人的模型(2019年)。在NABirds上本模型显现了对网格模型的优越性，而在Birdsnap上却没有表现出比网格更好的性能。请注意，我们只选择了基线模型，这些模型捕获了仅限于空间的先验模型，丢弃了时间信息。网格模型和本模型都使用了1个由512个神经元组成的隐层，且有相同的超参数： $λ_{min}=0.0001，λ_{max}=360，S=64$ 。就像Mac Aodha等(2019年)一样，位置嵌入的大小 $d^{(x)}$ 为1024，我们对位置编码器进行了30轮的训练。我们的实现基于Mac Aodha等人的原始代码(2019年)，用于模型培训和评估阶段。

表4:两个数据集上的细粒度图像分类结果：BirdSnap和NABirds。通过将图像分类预测 $P(y|I)$ 与不同的空间先验 $P(y| \mathbf{x})$ 相结合来计算分类精度。网格模型和本模型使用1个512个神经元构成的ReLU隐藏层。基线模型的评估结果来自Mac Aodha等(2019年)的表1。

6 结论

我们引入了一个编码器-解码器框架，作为受生物网格细胞的多尺度周期表示启发的通用空间表征模型。该模型是一种归纳学习模型，可以以无监督的方式进行训练。我们基于 POI 点位置和附近 POI 点上下文进行了两种 POI 点类型预测实验。评价结果证明了本模型的有效性。我们的分析表明，正是集成不同尺度表示的能力使得网格细胞模型在这两个任务上优于其他基线。在未来，我们希望将提出的框架纳入更复杂的地理信息系统任务，如社会网络分析和海面温度预测。

参考文献

Alison Abbott and Ewen Callaway. Nobel prize for decoding brain’s sense of place. Nature News,
514(7521):153, 2014.
Benjamin Adams, Grant McKenzie, and Mark Gahegan. Frankenplace: interactive thematic mapping
for ad hoc exploratory search. In Proceedings of the 24th international conference on world wide
web, pp. 12–22. International World Wide Web Conferences Steering Committee, 2015.
Andrea Banino, Caswell Barry, Benigno Uria, Charles Blundell, Timothy Lillicrap, Piotr Mirowski,
Alexander Pritzel, Martin J Chadwick, Thomas Degris, Joseph Modayil, et al. V ector-based
navigation using grid-like representations in artificial agents. Nature, 557(7705):429, 2018.
G Baudat and F Anouar. Kernel-based methods and function approximation. volume 2, pp. 1244 –
1249 vol.2, 02 2001. ISBN 0-7803-7044-9. doi: 10.1109/IJCNN.2001.939539.
Thomas Berg, Jiongxin Liu, Seung Woo Lee, Michelle L Alexander, David W Jacobs, and Peter N
Belhumeur. Birdsnap: Large-scale fine-grained visual categorization of birds. In Proceedings of
the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2011–2018, 2014.
Herman J. Bierens. The nadaraya–watson kernel regression function estimator. Topics in Advanced
Econometrics, 16:212–247, 1994.
Hugh T Blair, Adam C Welday, and Kechen Zhang. Scale-invariant memory representations emerge
from moire interference between grid fields that produce theta oscillations: a computational model.
Journal of Neuroscience, 27(12):3211–3229, 2007.
Grace Chu, Brian Potetz, Weijun Wang, Andrew Howard, Yang Song, Fernando Brucher, Thomas
Leung, and Hartwig Adam. Geo-aware networks for fine grained recognition. arXiv preprint
arXiv:1906.01737, 2019.
Christopher J Cueva and Xue-Xin Wei. Emergence of grid-like representations by training recurrent
neural networks to perform spatial localization. arXiv preprint arXiv:1803.07770, 2018.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep
bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
A Stewart Fotheringham and David WS Wong. The modifiable areal unit problem in multivariate
statistical analysis. Environment and planning A, 23(7):1025–1044, 1991.
Ruiqi Gao, Jianwen Xie, Song-Chun Zhu, and Ying Nian Wu. Learning grid cells as vector represen-
tation of self-position coupled with matrix representation of self-motion. In Proceedings of ICLR
2019, 2019.
Nataliia Kussul, Mykola Lavreniuk, Sergii Skakun, and Andrii Shelestov. Deep learning classification
of land cover and crop types using remote sensing data. IEEE Geoscience and Remote Sensing
Letters, 14(5):778–782, 2017.
Alex M Lechner, William T Langford, Simon D Jones, Sarah A Bekessy, and Ascelin Gordon. Inves-
tigating species–environment relationships at multiple scales: Differentiating between intrinsic
scale and the modifiable areal unit problem. Ecological Complexity, 11:91–102, 2012.
Y aguang Li, Rose Y u, Cyrus Shahabi, and Y an Liu. Diffusion convolutional recurrent neural network:Data-driven traffic forecasting. arXiv preprint arXiv:1707.01926, 2017.
Oisin Mac Aodha, Elijah Cole, and Pietro Perona. Presence-only geographical priors for fine-grained
image classification. arXiv preprint arXiv:1906.05272, 2019.
Gengchen Mai, Krzysztof Janowicz, Bo Yan, Rui Zhu, Ling Cai, and Ni Lao. Contextual graph
attention for answering logical queries over incomplete knowledge graphs. In Proceedings of the
10th International Conference on Knowledge Capture, pp. 171–178, 2019a.
Gengchen Mai, Bo Yan, Krzysztof Janowicz, and Rui Zhu. Relaxing unanswerable geographic
questions using a spatially explicit knowledge graph embedding model. In AGILE: The 22nd
Annual International Conference on Geographic Information Science, pp. 21–39. Springer, 2019b
V Maz’ya and G Schmidt. On approximate approximations using gaussian kernels. IMA Journal of
Numerical Analysis, 16:13–29, 01 1996.
Grant McKenzie, Krzysztof Janowicz, Song Gao, Jiue-An Yang, and Yingjie Hu. Poi pulse: A
multi-granular, semantic signature–based information observatory for the interactive visualization
of big geosocial data. Cartographica: The International Journal for Geographic Information and
Geovisualization, 50(2):71–85, 2015.
Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed representations
of words and phrases and their compositionality. In Advances in neural information processing
systems, pp. 3111–3119, 2013.
Justin Moat, Steven P Bachman, Richard Field, and Doreen S Boyd. Refining area of occupancy to
address the modifiable areal unit problem in ecology and conservation. Conservation biology, 32
(6):1278–1289, 2018.
Stan Openshaw. The modifiable areal unit problem. Concepts and techniques in modern geography,
1984.
Jeffrey Pennington, Richard Socher, and Christopher Manning. Glove: Global vectors for word
representation. In Proceedings of the 2014 conference on empirical methods in natural language
processing (EMNLP), pp. 1532–1543, 2014.
Matthew E Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and
Luke Zettlemoyer. Deep contextualized word representations. arXiv preprint arXiv:1802.05365,
2018.
Charles R Qi, Hao Su, Kaichun Mo, and Leonidas J Guibas. Pointnet: Deep learning on point sets for
3d classification and segmentation. In Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition, pp. 652–660, 2017.
Christian Szegedy, Vincent V anhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna. Rethinking
the inception architecture for computer vision. In Proceedings of the IEEE conference on computer
vision and pattern recognition, pp. 2818–2826, 2016.
Kevin Tang, Manohar Paluri, Li Fei-Fei, Rob Fergus, and Lubomir Bourdev. Improving image
classification with location context. In Proceedings of the IEEE international conference on
computer vision, pp. 1008–1016, 2015.
Ashish V aswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz
Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, pp. 5998–6008, 2017.
Petar V eliˇ ckovi´ c, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Y oshua
Bengio. Graph attention networks. In ICLR 2018, 2018.
Bo Y an, Krzysztof Janowicz, Gengchen Mai, and Song Gao. From itdl to place2vec: Reasoning about
place type similarity and relatedness by learning embeddings from augmented spatial contexts. In
Proceedings of the 25th ACM SIGSPATIAL International Conference on Advances in Geographic
Information Systems, pp. 35. ACM, 2017.
Bo Yan, Krzysztof Janowicz, Gengchen Mai, and Rui Zhu. xnet+ sc: Classifying places based
on images by incorporating spatial contexts. In 10th International Conference on Geographic
Information Science (GIScience 2018). Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik, 2018.
Manzil Zaheer, Satwik Kottur, Siamak Ravanbakhsh, Barnabas Poczos, Ruslan R Salakhutdinov,
and Alexander J Smola. Deep sets. In Advances in neural information processing systems, pp.
3391–3401, 2017.
Wenyun Zuo, Ni Lao, Y uying Geng, and Keping Ma. Geosvm: an efficient and effective tool to
predict species’ potential distributions. Journal of Plant Ecology, 1(2):143–145, 2008.

附件A

A.1 基线

为了帮助理解分布式空间表示的机制，我们比较了编码空间信息的多种方式。不同的模型使用不同的点空间编码器Encpxqpq来编码位置xi(用于位置建模loc)或中心点和一个上下文点xij”Xi xij之间的位移(用于空间上下文建模cont)8。随机打乱正确 POI 点和N个阴性样本的顺序，作为预测排名。这显示了每个指标的下限。使用前馈神经网络(FFNs)9(表示为Encpxq directpxq)将位置xi(或称xijfor cont)直接编码到嵌入erxis(或称er xijs)的位置中，而无需将坐标分解为多尺度周期表示。这本质上就是Chu等人(2019)使用的GPS编码方法。请注意，Chu等人(2019)不是开源的，我们最终自己实现了模型架构。瓷砖将研究区域Aloc(对于loc)或由λmax、Acont(对于cont)定义的空间范围划分为具有相同网格尺寸的网格。每个网格都有一个嵌入，用作该网格中每个位置xior位移xijfall的编码。这是很多前期工作在处理坐标数据时的常见做法(Berg等人，2014；Adams等人，2015年；唐等，2015)。wrap是Mac Aodha等人(2019年)最近推出的位置编码器模型。它首先将x(或∏x)归一化到r ^ 1，1s的范围内，并使用一种坐标包裹机制rsinpπxrlsq；cospπxrlsqs将x的每个维度转换为2个数字。然后通过一个初始的全连接层，接着是一系列h剩余块，每个剩余块由两个全连接层(o个隐藏神经元)组成，中间有一个脱落层。我们采用Mac Aodha等人(2019)10的官方代码来实现。径向基函数从训练数据集中随机抽取M个点作为径向基函数锚点{xanchor m，m " 1…M}(或来自Acontfor cont的样本m∏xanchor m)11，并在每个锚点上使用高斯核exp k Xi xanchor m k2 2σ2 ˘(or exp k∏xij∏xanchor m k2 2σ2 ˘for cont ),其中σ是核大小。每个点都有一个M维径向基函数特征向量，该特征向量被输入FNN以获得空间嵌入。这是表示机器学习模型中浮点数特征的强基线。受《变压器》中位置编码的启发，如第4.1节所述的网格(V aswani等人，2017)。hexa与网格相同，但在P Epgq s、lpxq中使用sinpθq、sinpθ 2π{ 3q }和sinpθ 4π{ 3q }。第4.1节中描述的理论使用理论模型(高等人，2019年)作为Encpxq theorypxq或Encpxq theory p≈xijq的第一层。理论诊断进一步将NNpq约束为块对角矩阵，每个比例为一个块。我们还有以下特定于空间上下文建模任务的基线。无解码器Deccpq不考虑中心点和上下文点之间的空间关系，而只考虑共同定位模式，如Place2V ec (Y an等人，2017)。也就是说我们把er∏xijs从Equ的注意机制中去掉了。7和8。polar首先将位移∏Xi转换为极坐标pr，θq以r”logpk∏xijk ` 1q处的中心点为中心。然后，它使用rr，θs作为FFN的输入，以获得嵌入在等式中的空间关系。7.我们发现，与r " k≈xijk的变化相比，它有显著的性能改进。

polar_tile是tile的修改版本，但网格是从极坐标pr提取的，θq以r " logpk≈xijk 1q处的中心点为中心。我们使用沿θ(或r)轴的网格数F作为唯一的超参数，而不是使用网格大小c。同样，我们发现r " logpk≈xijk 1q明显优于r " k≈xijk。scaled_rbf是用于cont的rbf的修改版本，其内核大小与当前锚点和原点(k \u xanchor m k)之间的距离成比例，即exp k \u xij \u xanchor m k2 2σ2比例˘.这里σ缩放“σβk≈xan chor m k，其中σ是基本内核大小，β是内核重新缩放因子，一个常数。我们开发这一机制是为了帮助RFB处理不同规模的关系，我们观察到它产生的结果明显优于普通的径向基函数。

A.2 超参数选择

我们基于所有方法在验证集上的性能来执行网格搜索。

位置建模理论模型的超参数基于网格搜索，dpvq" p32，64，128，256q，dpxq" p32，64，128，256q，S " p4，8，16，32，64，128q，λmin" p1，5，10，50，100，200，500，1k，而λmax" 40k取决于研究区域的总大小。发现当dpvq" 64，dpxq" 64，S " 64，λmin" 50时，不同网格细胞模型的性能最佳。在平铺方面，超参数选自c " p10，50，100，200，500，1000q，而c " 500给了我们最好的性能。对于rbf，我们在超参数上做网格搜索:M " p10，50，100，200，400，800q和σ " p102，103，104，105，106，107q。当M " 200，σ " 103时，径向基函数的性能最好。至于包装，网格搜索是在:h " p1，2，3，4q和o " p64，128，256，512q上进行的，而h " 3和o " 512给出了最好的结果。除了包装，所有型号的Encpxqpq都使用FFNs。FFN的层数f和隐藏状态神经元的数量u选自f“P1，2，3q和u”p128，256，512q。我们发现f " 1和u " 512在直接、平铺、径向基函数和理论方面表现最佳。因此，我们将它们用于每个模型，以进行公平的比较。

空间上下文建模网格搜索用于超参数调整，当dpvq”64、dpxq”64、S”64和λmin”10时，获得不同网格细胞模型的最佳性能。我们根据上下文点和中心点之间的最大位移设置λmax”10k，以使位置编码唯一。对于多个基线模型，再次使用网格搜索来获得最佳模型。除了表3中的模型名称之外，最好的模型超参数显示在()中。请注意，径向基函数和比例径向基函数都可以在M”100上获得最佳性能。