主动学习与深度贝叶斯网络（图像分类任务）

【摘要】尽管主动学习是机器学习的重要支柱，但深度学习工具在其中应用并不普遍。在主动学习场景中使用深度学习会带来一些困难。首先，主动学习处理的对象是小数据，而深度学习的最新进展主要源于其对大量数据的依赖。其次，许多采集能力依赖于模型的不确定性估计，而在深度学习中很少表示模型的不确定性。本文基于深度学习的贝叶斯方法，以实用方式将贝叶斯深度学习的最新进展结合到了主动学习框架中。我们为高维数据开发了一个主动学习框架，这项任务在已有文献非常匮乏的情况下极具挑战性。利用贝叶斯卷积神经网络等专门模型，本文以图像数据为示例展示我们的主动学习技术，结果表明该技术能够显著改进现有主动学习方法。

【原文】 Gal Y., Islam R., Ghahramani Z. (2016) Deep Bayesian Active Learning with Image Data. In: Bayesian Deep Learning workshop, NIPS

【阅后感】本文对于那些尚不太清楚不确定性能做什么的人，是一个结合图像数据的很好案例。对于那些想提升主动学习效率的读者，也会有所帮助。

1 简介

许多应用中的一大挑战是获取有标签数据。这可能是一个漫长而费力的过程，这通常会使自动化系统的开发变得不经济。一个能够从少量数据中学习、并自动选择希望用户标记哪些数据的系统框架，将使机器学习适用于更广泛的问题。这种学习框架被称为主动学习 ^[1] （在统计学文献中也被称为 实验设计 ），并已成功应用于医学诊断、微生物学和制造等领域 ^[2] 。在主动学习中，模型在初始训练集（少量数据）上进行训练，由 采集函数（ Acquisition Function ）（通常基于模型的不确定性）决定哪些数据点需要被挑选出来，以向外部资源（ Oracle ）寻求得到标签答案。候选的无标签数据点集合在训练集外，通常被称为 候选池 (Pool )，而候选数据点被称为 池点或池中点（ Pool Point ）。外部资源（通常是人类专家）给选定数据点打上标签后，将其添加到训练集中，并在更新后的训练集上训练新模型。重复此过程，训练集大小会随着时间推移而增加。

在很多机器学习问题中，数据标注往往需要耗费很大成本。**主动学习（Active Learning）**在最大化模型准确率的同时，最小化标注成本，例如：对不确定性最高的数据进行标注。由于我们仅知道少量数据点，因此通常需要一个 代理模型（Surrogate Model） 来建模真正的模型（如高斯过程，灵活且能够估计不确定性）。在估计 $f(x)$ 的过程中，我们希望最小化评估的次数，因此可以通过主动学习来 “智能” 地选择下一个待评估的数据点。通过不断 选择具有最高不确定性的数据点 来获得 f(x) 更准确的估计，直至收敛或达到停止条件。下图展示了利用主动学习估计真实数据分布的过程：

尽管主动学习技术已经证明了其在各种任务中的作用，但它的一个主要挑战是缺乏对高维数据的可扩展性 ^[2] 。这些数据通常以图像形式出现，例如医生对 MRI 扫描图像进行分类以诊断阿尔茨海默氏症 ^[3] ，或者专家临床医生通过皮肤镜病变图像诊断皮肤癌。要执行主动学习，模型必须能够从少量数据中学习，并得到对未见数据不确定性的表示。这严重限制了可以在主动学习框架中使用的模型类别。因此，大多数主动学习方法都专注于低维问题 ^[2]^[4] ，只有少数依赖于核或基于图的方法例外 ^[5]^[6]^[7] 。

近年来，随着某些领域数据可用性的提高。机器学习社区已经将关注点从小数据问题转向大数据问题 ^[8]^[9]^[10]^[11] 。随着对大数据问题兴趣的增加，逐步开发了一些新工具，并改进了对高维数据的处理。深度学习，尤其是 卷积神经网络 (CNN) ^[12]^[13] 就是此类工具的一个例子。这些工具最初是在 1989 年开发的，用于解析手写邮政编码，现在已经蓬勃发展，并且达到了能够在物体识别任务上击败人类的地步 ^[14] 。诸如 Dropout ^[15]^[16] 等新技术，被广泛用于这些通常包含数百万参数的大型模型的正则化 ^[17] 。尽管主动学习是机器学习的重要支柱之一，但深度学习工具在其中的使用并不普遍。在主动学习场景中使用深度学习会带来一些困难：

首先，现有方法必须处理少量数据，但深度学习是因其对大数据的依赖而闻名的 ^[9] 。
其次，许多采集函数的设计和选择，依赖于模型的不确定性，但在深度学习中，很少表示这种模型不确定性`。

在本文中，我们依靠深度学习的贝叶斯方法，将贝叶斯深度学习的最新进展以非常实用的方式结合到了主动学习框架中。我们为高维数据开发了一个主动学习框架，这是一项极具挑战性的任务，在过去 $15$ 年中已有文献非常稀少 ^[5]^[18]^[6]^[7] 。利用 贝叶斯卷积神经网络 (BCNN) ^[19]^[20] 等模型，我们展示了在图像数据上使用的新型主动学习技术。在 MNIST 数据集的一个小模型中，我们的系统仅使用 $295$ 个有标记图像，而不依赖无标签数据，就能够实现 $5\%$ 的测试误差，（相比之下，使用随机抽样的方法，需要 $835$ 个标记图像才能实现 $5\%$ 的测试错误，也就是需要专家为两倍以上的图像做标记才能达到相同精度）。在有标签图像为 $1000$ 时，我们实现了 $1.64\%$ 的测试误差。我们将上述指标分别与 深度生成网络（ DGN） ^[21] $2.40\%$ 的测试误差，以及梯形网络模型（ Ladder Network Γ-model ） ^[22] $1.53\%$ 的测试误差进行了对比，而这两种 半监督学习技术 都使用了整个无标签训练集。

2 相关研究

过去对图像数据进行主动学习的尝试集中在核方法上。 Joshi 等人 利用历史文献中低维数据主动学习的想法 ^[2] 。而 ^[7] 则使用了 “基于边缘的不确定性” 并从支持向量机 (SVM) ^[23] 中提取概率输出。他们在原始图像上使用了线性、多项式和径向基函数 (RBF) 核，并选择其中能够提供最佳分类精度的核。与 SVM 方法不同，Li 和 Guo ^[18] 使用带有 RBF 核的 高斯过程 (GP) 来获得模型不确定性，不过他们将低维特征（例如 SIFT 特征 ）输入到了 RBF 核中。Zhu 等人 ^[5] 也同时利用了无标签数据，使用高斯随机场模型来采集点，评估原始图像上的 RBF 核。本文中，我们与最后一种技术进行比较，在下面有更详细的解释。

其他相关的文献包括图像数据的 半监督学习 ^[24]^[21]^[22] 。在半监督学习中，模型被赋予一组固定的有标签数据和一组固定的无标签数据。模型可以使用无标签数据来了解输入的分布信息，并希望这些信息能够帮助从小型的有标签数据集中学习。尽管学习范式与主动学习有很大不同，但此项研究形成了最接近图像数据主动学习的现代文献。我们也将在下文中与这些技术进行比较。

3 贝叶斯卷积神经网络

在本文中，我们专注于高维的图像数据，并且需要一个能够表示此类数据的预测不确定性的模型。诸如 ^[5]^[18]^[7] 之类的方法依赖于核方法，通过线性、多项式和 RBF 核对输入的图像对进行处理，以捕获图像相似性作为 SVM 的输入。相比之下，我们依赖于图像数据的专门模型，特别是卷积神经网络 (CNN) ^[12]^[13] 。与无法捕获输入图像中的空间信息的核方法不同，CNN 旨在利用空间信息，并已成功用于实现最先进的结果 ^[9] 。为了对图像数据进行主动学习，我们使用了 ^[19] 中提出的 贝叶斯卷积神经网络（Bayesian Convolutional Neural Network， BCNN）。这些 BCNN 是在一组模型参数 $$\boldsymbol{\omega}={ W_{1}, \ldots, W_{L} }: \boldsymbol{\omega} \sim p(\boldsymbol{\omega})$$ 上具有先验概率分布的 CNN。例如标准高斯先验 $p(\boldsymbol{\omega})$ 。

我们进一步定义了一个分类任务的 Softmax 似然：

p(y=c \mid \mathbf{x}, \boldsymbol{\omega})=\operatorname{softmax}\left(\mathbf{f}^{\boldsymbol{\omega}}(\mathbf{x}) \right)

对于回归任务，可以定义一个参数为 $\boldsymbol{\omega}$ 的似然
模型 $\mathbf{f}^{\omega}(\mathbf{x})$ ，并令其为高斯似然.

为了在 BCNN 模型中执行近似推断，我们使用了原先用于正则化模型的随机正则化技术，例如 Dropout ^[15]^[16]。如 ^[20]^[25] 中所示，Dropout 和其他随机正则化技术均可用于在复杂深度模型中执行实际的近似推断。推断首先训练一个在每个权重层之前都带有 Dropout 的模型，然后在测试阶段同样使用Dropout 从近似后验中采样（即随机前向传递，为与传统训练阶段的 Dropout 相区别，称其为 MC Dropout ）。

更正式地说，此方法等效于执行了近似变分推断，在变分推断中，我们基于给定训练集，在一个 tractable 的分布族中寻找一个能够最小化与真实后验 $p\left(\boldsymbol{\omega} \mid \mathcal{D}_{\text {train }}\right)$ 之间 KL 散度 的变分分布 $q_{\theta}^{*}(\boldsymbol{\omega})$ 。而 Dropout 可以被理解为变分贝叶斯近似，其中近似分布为两个具有小方差的高斯分布混合而成，并且其中一个高斯的均值固定为零。通过对近似后验使用蒙特卡洛积分边缘化，可以得到 权重不确定性 导致的 预测不确定性 为：

\begin{aligned} p\left(y=c \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right) &=\int p(y=c \mid \mathbf{x}, \boldsymbol{\omega}) p\left(\boldsymbol{\omega} \mid \mathcal{D}_{\text {train }}\right) \mathrm{d} \boldsymbol{\omega} \\ & \approx \int p(y=c \mid \mathbf{x}, \boldsymbol{\omega}) q_{\theta}^{*}(\boldsymbol{\omega}) \mathrm{d} \boldsymbol{\omega} \\ & \approx \frac{1}{T} \sum_{t=1}^{T} p\left(y=c \mid \mathbf{x}, \widehat{\boldsymbol{\omega}}_{t}\right) \end{aligned}

其中 $\widehat{\boldsymbol{\omega}}_{t} \sim q_{\theta}^{*}(\boldsymbol{\omega})$ ，且 $q_{\theta}(\boldsymbol{\omega })$ 为 Dropout 分布 ^[25] 。

BCNN 可以很好地处理少量数据 ^[19] ，并且得到能够与采集函数相结合的不确定性信息 ^[25]。接下来我们讨论一下分类任务中的采集函数，以便更好地理解其与 BCNN 的结合。

关于不确定性的来源和分类，请参考《安全的人工智能需要贝叶斯深度学习》和《深度神经网络中的不确定性调研报告：从开始到测试》，本文中的权重不确定性代表模型不确定性。

4 采集函数及其近似

4.1 常用采集函数

采集函数是从候选池中查找下一个最佳的待标记数据点的函数。接下来，我们探索适合图像数据应用场景的各种采集函数，并开发易于处理的近似值，以便能够与 BCNN 一起使用。

对于回归任务，我们通常将预测方差作为采集函数。例如，我们可能会寻找预测方差最大的那个图像，将其作为采集结果提供给专家进行标记。但更多涉及图像数据的任务被描述为分类问题，而对于分类任务，常用的采集函数有以下几种：

（1）最大化预测熵 ^[26]（ Max Entropy ）

选择能够最大化预测熵的池中点：

\mathbb{H}\left[y \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right]:=-\sum_{c} p\left(y=c \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right) \log p\left(y=c \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right) .

注意神经网络分类器的最后一层通常是 softmax 层，其输入为 logits，输出为各类的类概率，因此网络输出也可被视为是一个类别分布，既然是概率分布就可以计算其熵值，这一点对于熟悉回归任务的人可能有些不习惯。另外，softmax 输出的类别分布本身就代表了部分不确定信息，因此常被用于计算某种形式的不确定性度量（如：熵），并进而用于采集函数。

（2）最大化预测结果和模型后验之间的互信息 ( BALD ^[27] )

\mathbb{I}\left[y, \boldsymbol{\omega} \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right]=\mathbb{H}\left[y \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right]-\mathbb{E}_{p\left(\boldsymbol{\omega} \mid \mathcal{D}_{\text {train }}\right)}[\mathbb{H}[y \mid \mathbf{x}, \boldsymbol{\omega}]]

其中 $\boldsymbol{\omega}$ 为模型参数。使上式中采集函数最大化的点，平均应当是导致模型不确定的点，但也存在能够产生高确定性的错误预测结果的模型参数。这等效于 softmax 层输入（ logits ）中具有高方差的点，其每次通过模型的随机前向传递，将会具有给其他类别分配的最高概率。

（3）最大化变化率 ^[28]

\text { variation-ratio }[\mathbf{x}]:=1-\frac{f_{\mathbf{x}}}{T}

其中 $$f_{\mathbf{x}}=\sum_{t} \mathbb{I}\left[y^{t}=c^{*}\right]$$ ， $c^{*}$ 为 $$\left{y^{t}\right}$$ 的众数， $$\left{y^{t}\right}$$ 是输入 $\mathbf{x}$ 所对应预测分布的一个样本集。

（4）最大化平均 STD ^[29]^[30]

\sigma(\mathbf{x})=\frac{1}{C} \sum_{c} \sqrt{\mathbb{E}_{q(\boldsymbol{\omega})}\left[p(y= c \mid \mathbf{x}, \boldsymbol{\omega})^{2}\right]-\mathbb{E}_{q(\boldsymbol{\omega})}[p(y=c \mid \ mathbf{x}, \boldsymbol{\omega})]^{2}}

在 $\mathbf{x}$ 可以取值的所有 $c$ 个类上求平均。与前面的采集函数相比，这更像是最近文献中使用的一种临时性的技术。

（5）随机采集（基线）

$g(\mathbf{x})=\frac{1}{N}$ ， $N$ 为池中点的数量。

上述这些采集函数及其性质在 ^[25] 第 $48-52$ 页中有更详细的讨论。

4.2 近似方法

我们可以使用近似分布 $q_{\theta}^{*}(\boldsymbol{\omega})$ 来对上述采集函数求近似。以 BALD 为例，可以编写如下采集函数：

\begin{aligned} \mathbb{I}\left[y, \boldsymbol{\omega} \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right]:=& \mathbb{H}\left[y \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right]-\mathbb{E}_{p\left(\boldsymbol{\omega} \mid \mathcal{D}_{\text {train }}\right)}[\mathbb{H}[y \mid \mathbf{x}, \boldsymbol{\omega}]] \\ =-& \sum_{c} p\left(y=c \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right) \log p\left(y=c \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right) \\ &+\mathbb{E}_{p\left(\boldsymbol{\omega} \mid \mathcal{D}_{\text {train }}\right)}\left[\sum_{c} p(y=c \mid \mathbf{x}, \boldsymbol{\omega}) \log p(y=c \mid \mathbf{x}, \boldsymbol{\omega})\right] \end{aligned}

其中 $c$ 是 $y$ 可取的类。 $\mathbb{I}\left[y, \boldsymbol{\omega} \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right]$ 可以使用 $p\left(y=c \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right)=\int p(y=c \mid \mathbf{x}, \boldsymbol{\omega}) p\left(\boldsymbol{\omega} \mid \mathcal{D}_{\text {train }}\right) \mathrm{d} \boldsymbol{\omega}$ 来估计:

\begin{aligned} \mathbb{I}\left[y, \boldsymbol{\omega} \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right]=-& \sum_{c} \int p(y=c \mid \mathbf{x}, \boldsymbol{\omega}) p\left(\boldsymbol{\omega} \mid \mathcal{D}_{\text {train }}\right) \mathrm{d} \boldsymbol{\omega} \log \int p(y=c \mid \mathbf{x}, \boldsymbol{\omega}) p\left(\boldsymbol{\omega} \mid \mathcal{D}_{\text {train }}\right) \mathrm{d} \boldsymbol{\omega} \\ &+\mathbb{E}_{p\left(\boldsymbol{\omega} \mid \mathcal{D}_{\text {train }}\right)}\left[\sum_{c} p(y=c \mid \mathbf{x}, \boldsymbol{\omega}) \log p(y=c \mid \mathbf{x}, \boldsymbol{\omega})\right] \end{aligned}

用近似后验 $q_{\theta}^{*}(\boldsymbol {\omega})$ 替换后验分布 $p\left(\boldsymbol{\omega} \mid \mathcal{D}_{\text {train }}\right)$ 实施计算，通过 MC 采样可得：

\begin{aligned} &\approx-\sum_{c} \int p(y=c \mid \mathbf{x}, \boldsymbol{\omega}) q_{\theta}^{*}(\boldsymbol{\omega}) \mathrm{d} \boldsymbol{\omega} \log \int p(y=c \mid \mathbf{x}, \boldsymbol{\omega}) q_{\theta}^{*}(\boldsymbol{\omega}) \mathrm{d} \boldsymbol{\omega} \\ &\quad+\mathbb{E}_{q_{\theta}^{*}(\boldsymbol{\omega})}\left[\sum_{c} p(y=c \mid \mathbf{x}, \boldsymbol{\omega}) \log p(y=c \mid \mathbf{x}, \boldsymbol{\omega})\right] \\ &\approx-\sum_{c}\left(\frac{1}{T} \sum_{t} \widehat{p}_{c}^{t}\right) \log \left(\frac{1}{T} \sum_{t} \widehat{p}_{c}^{t}\right)+\frac{1}{T} \sum_{c, t} \widehat{p}_{c}^{t} \log \widehat{p}_{c}^{t}:=\widehat{\mathbb{I}} \left[y, \boldsymbol{\omega} \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right] \end{aligned}

$\hat{p}_{c}^{t}$ 表示输入 $\mathbf{x}$ 在模型参数 $\widehat{\omega}_{t} \sim q_{\ theta}^{*}(\boldsymbol{\omega})$ 时分为 $c$ 类的的概率，进而可以定义如下近似向量：

\widehat{\mathbf{p}}^{t}=\left[\widehat{p}_{1}^{t}, \ldots, \widehat{p}_{C}^{t}\right]=\operatorname{softmax}\left(\mathbf{f}^{\widehat{\omega}_{t}}(\mathbf{x})\right)

然后有：

\widehat{\mathbb{I}}\left[y, \boldsymbol{\omega} \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right] \underset{T \rightarrow \infty}{\longrightarrow} \mathbb{H}\left[y \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right]-\mathbb{E}_{q_{\theta}^{*}(\boldsymbol{\omega})}[\mathbb{H}[y \mid \mathbf{x}, \boldsymbol{\omega}]] \approx \mathbb{I}\left[y, \boldsymbol{\omega} \mid \mathbf{x}, \mathcal{D}_{\text {train }}\right]

该式生成了一个近似 BALD 采集函数的、计算上易于处理的估计器。其他采集函数可以采用类似的近似估计。

在下一节中，我们会基于这些采集函数做试验，并根据结果进行经验主义评估。这些试验将与采集函数基线（即上述的第 $5$ 个采集函数，从候选池中均匀地获取新数据点）进行比较，并进一步与其他用于图像数据的主动学习和半监督学习技术进行对比。

5 使用 BCNN 进行主动学习

我们研究了本文提出的图像数据主动学习技术：

我们将采用了 BCNN 不确定性的各种采集函数与图像分类基准进行比较；
为了研究模型不确定性的重要性，我们使用 确定性 CNN 对相同的采集函数做了对比评估；
与使用图像数据进行主动学习的当前技术（依赖 SVM ）进行了比较；
将我们的主动学习技术与现代最接近的图像数据半监督学习技术进行了比较，这些半监督技术比我们的模型访问更多数据，但我们的模型表现仍然与其相当。

5.1 各种采集函数的比较

我们使用在 MNIST 数据集 ^[31] 上训练的 BCNN 研究了上述所有采集函数，并且所有采集函数都使用相同的模型结构：

convolution-relu-convolution-relu-maxpooling-dropout-dense-relu-dropout-dense-softmax

其中具有 $32$ 个卷积核， $4 \times 4$ 核大小， $2 \times 2$ 池化，全连接层有 $128$ 个单元，Dropout 概率为 $0.25$ 和 $0.5$ （按照 Keras MNIST CNN 实现示例 ^[32] ）。

所有模型都在 MNIST 数据集上进行了训练，采用了 $20$ 个数据点的（随机但平衡的）初始训练集，和 $100$ 个点的验证集（用于优化 权重衰减 ）。与类似应用（如 MNIST 上的半监督学习）中使用的 $5K$ 标准验证集大小相比，这是一个比较现实的验证集大小。

我们进一步使用 $10K$ 个点的标准测试集，其余的点作为候选池。每个模型和采集函数的测试误差会在每次采集完成后，使用 测试时 Dropout 近似 来评估。为了确定要采集哪些数据点，我们在上述推导之后使用了 MC dropout。我们重复采集过程 $100$ 次，每次均采集在候选池上能够最大化采集函数的 $10$ 个点。每个实验重复 $3$ 次并取结果的平均值（ $3$ 次重复试验的标准差如 图 3 所示）。

实验代码见 https://github.com/Riashat/Active-Learning-Bayesian-Convolutional-Neural-Networks/tree/master/ConvNets/FINAL_Averaged_Experiments/Final_Experiments_Run

图 1：MNIST 测试准确度，作为从候选池中采集到的图像数量的函数（最多 $1000$ 张图像，使用大小为 $100$ 的验证集，平均超过 $3$ 次重复）。评估了四个采集函数（ BALD、变化率、最大熵和平均 STD ），并与基线（随机采集函数）进行比较。

图 2：具有 $1000$ 个有标签训练样本的 MNIST 数据集测试错误（与半监督技术做比较）。主动学习只访问了 $1000$ 张采集到的图像，而半监督可以访问没有标签的所有剩余图像。根据现有研究，我们使用一个 $5000$ 大小的验证集。

我们比较了 BALD、变化率、最大熵、平均 STD 和 随机采集，发现随机采集 和 平均 STD 与 BALD、变化率、最大熵相比表现不佳（ 图 1 ）。 变化率 采集函数似乎比 BALD 和 最大熵 更快地获得了更好的准确度。有趣的是，平均 STD 的表现似乎与 随机采集 相似。

在 表 1 中，我们给出了得到 $5\%$ 和 $10\%$ 测试误差时所需的采集步骤数。可以看出，BALD、变化率、最大熵 比 平均 STD 和随机采集 的数量也少得多。这张表展示了数据效率的重要性，例如，使用 变化率 模型的专家所需要标记的图像数量，比随机采集方法少了近一半。

表 1：在 MNIST 上达到百分比模型误差的被采集图像数量

5.2 模型不确定性的重要性

我们使用 确定性 CNN 对三个采集函数（ BALD、变化率 和 最大熵 ）进行了估计，以评估 模型不确定性 在 BCNN 中的重要性。与 BCNN 非常相似，确定性 CNN 也生成一个概率向量，该向量可以与 第 4 节 中采集函数一起使用（形式上，通过将近似分布 $q^∗_θ(ω) = δ(ω−θ)$ 设置为模型参数 $θ$ 处的点质量 )。这种确定性模型可以捕获 任意不确定性 ( 即数据中的噪声），但不能捕获 认知不确定性（即我们试图最小化的 CNN 参数的不确定性）。本实验中的模型仍然使用 Dropout，但仅用于正则化，在测试时不执行 MC dropout。

贝叶斯模型与确定性模型的 BALD、变化率和最大熵 采集函数比较见 图 3。贝叶斯模型在整个模型中传播不确定性，并在早期就获得了更高准确度，并且总体收敛到更高的准确度。这表明在整个贝叶斯模型中传播的不确定性对模型的置信度度量有显著影响。

图 3：各种采集函数的测试精度（被采集图像数量的函数），分别采用了 贝叶斯 CNN 方法（红色）和 确定性 CNN 方法（蓝色）

5.3 与当前图像数据中的主动学习技术比较

接下来，我们与少见的图像数据主动学习文献中的一种方法进行了比较，主要聚焦在 ^[5] 中提出的方法上，该方法依赖于核方法并进一步利用了未标记图像（将在下一节中更详细地讨论）。Zhu 等人 ^[5] 在原始图像上评估 RBF 核，并获得（可用于共享无标签数据信息的）相似性图，然后通过贪婪地选择待标记的无标签图像来执行主动学习，以便能够最小化对预期分类误差的估计。该方法被称为 MBR。

MBR 是为二分类案例制定的，因此我们将 MBR 与二分类任务（来自 MNIST 数据集的两个数字）的采集函数 BALD、变化率、最大熵 和 随机采集 进行了比较。分类精度如 图 4 所示。请注意，即便是随机采集函数，在与 CNN 结合使用时，性能也优于依赖于 RBF 核的 MBR。我们进一步试验了 MBR 的 CNN 版本，用 CNN 替换了 RBF 核，但对结果并没有改善。

图 4：MNIST 的测试准确度（两个数字的分类，被采集图像数量的函数）与当前用于图像数据主动学习的 MBR 技术 ^[5] 做对比

5.4 与半监督学习的比较

最后，我们调查了现代文献中与主动学习方法最接近的图像数据半监督方法，并与我们的主动学习方法进行了比较。在半监督学习中，模型被赋予一组固定的有标签数据和一组固定的无标签数据。该模型可以使用无标签数据集来了解输入数据的分布，希望此信息能够有助于学习输入到输出的映射。近年来已经提出了几种用于图像数据的半监督模型 ^[24]^[21]^[22] ，这些模型在给定少量有标签图像（ $1000$ 张随机图像）的情况下，在 MNIST 上设定了各自的评测基准。这些模型进一步使用了（非常）大的 $49K$ 无标签图像集和 $5K-10K$ 有标签图像构成的大型验证集，来调整模型超参数和模型结构 ^[22] 。这些模型可以访问比我们的主动学习模型更多的数据，虽然有些不公平，但我们仍然选择了与它们进行比较，因为它们是该领域中最相关的模型，而且也受到有标签数据过少的约束。

表 2 给出了我们的具有各种采集函数的主动学习模型（采集到 $1000$ 个训练点之后）以及半监督模型的测试误差。在本实验中，为了与其他技术进行比较，我们使用一个 $5K$ 点的验证集。我们的模型获得了与半监督模型相似的性能（尽管请注意，与例如 ^[22] 相比，我们仅使用了一个相当小的模型）。Rasmus 等人 ^[22] 的梯形网络（ full ）在 $1000$ 个有标签图像和 $59,000$ 个无标签图像中达到了 $0.84\%$ 的误差。但 ^[22] 中的 $ Γ $ -模型 架构与我们的模型更加可比。 $ Γ $ -模型 的误差为 $1.53\%$ ，而我们的 变化率 采集函数的误差为 $1.64\%$ ，且该函数不依赖于任何额外的无标签数据。

6 未来研究

我们提出了一种图像数据主动学习的新方法，它依赖于贝叶斯建模和深度学习交叉领域的最新进展。这种方法有望为医学诊断、微生物学和制造领域的各种新应用铺平道路。未来的研究包括将上述想法扩展到更复杂的模型，能够表示更好的不确定性估计，并捕获更复杂的数据。

7 参考文献

[1] David A Cohn, Zoubin Ghahramani, and Michael I Jordan. Active learning with statistical models. Journal of artificial intelligence research, 1996.
[2] Simon Tong. Active Learning: Theory and Applications. PhD thesis, 2001. AAI3028187.
[3] Daniel S Marcus, Anthony F Fotenos, John G Csernansky, John C Morris, and Randy L Buckner. Open access series of imaging studies: longitudinal mri data in nondemented and demented older adults. Journal of cognitive neuroscience, 22(12):2677–2684, 2010.
[4] Jose Miguel Hernandez-Lobato and Ryan Adams. Probabilistic backpropagation for scalable learning of Bayesian neural networks. In Proceedings of The 32nd International Conference on Machine Learning, pages 1861–1869, 2015.
[5] X Zhu, J Lafferty, and Z Ghahramani. Combining active learning and semi-supervised learning using Gaussian fields and harmonic functions. In Proceedings of the ICML-2003 Workshop on The Continuum from Labeled to Unlabeled Data, pages 58–65. ICML, 2003.
[6] Alex Holub, Pietro Perona, and Michael C Burl. Entropy-based active learning for object recognition. In Computer Vision and Pattern Recognition Workshops, 2008. CVPRW’08. IEEE Computer Society Conference on, pages 1–8. IEEE, 2008.
[7] Ajay J Joshi, Fatih Porikli, and Nikolaos Papanikolopoulos. Multi-class active learning for image classification. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, pages 2372–2379. IEEE, 2009
[8] Martin Sundermeyer, Ralf Schlüter, and Hermann Ney. LSTM neural networks for language modeling. In INTERSPEECH, 2012
[9] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012
[10] Nal Kalchbrenner and Phil Blunsom. Recurrent continuous translation models. In EMNLP, 2013
[11] Ilya Sutskever, Oriol Vinyals, and Quoc VV Le. Sequence to sequence learning with neural networks. In NIPS, 2014
[12] David E Rumelhart, Geoffrey E Hinton, and Ronald J Williams. Learning internal representa- tions by error propagation. Technical report, DTIC Document, 1985
[13] Yann LeCun, Bernhard Boser, John S Denker, Donnie Henderson, Richard E Howard, Wayne Hubbard, and Lawrence D Jackel. Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(4):541–551, 1989
[14] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE International Conference on Computer Vision, pages 1026–1034, 2015
[15] Geoffrey E Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, and Ruslan R Salakhut- dinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012
[16] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: A simple way to prevent neural networks from overfitting. JMLR, 2014
[17] Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu. Exploring the limits of language modeling. arXiv preprint arXiv:1602.02410, 2016
[18] Xin Li and Yuhong Guo. Adaptive active learning for image classification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 859–866, 2013
[19] Yarin Gal and Zoubin Ghahramani. Bayesian convolutional neural networks with Bernoulli approximate variational inference. ICLR workshop track, 2016
[20] Yarin Gal and Zoubin Ghahramani. Dropout as a Bayesian approximation: Representing model uncertainty in deep learning. ICML, 2016
[21] Diederik P Kingma, Shakir Mohamed, Danilo Jimenez Rezende, and Max Welling. Semi- supervised learning with deep generative models. In Advances in Neural Information Processing Systems, pages 3581–3589, 2014
[22] Antti Rasmus, Mathias Berglund, Mikko Honkala, Harri Valpola, and Tapani Raiko. Semi- supervised learning with ladder networks. In Advances in Neural Information Processing Systems, pages 3546–3554, 2015
[23] Corinna Cortes and Vladimir Vapnik. Support-vector networks. Machine learning, 20(3): 273–297, 1995
[24] Jason Weston, Frédéric Ratle, Hossein Mobahi, and Ronan Collobert. Deep learning via semi- supervised embedding. In Neural Networks: Tricks of the Trade, pages 639–655. Springer, 2012
[25] Yarin Gal. Uncertainty in Deep Learning. PhD thesis, University of Cambridge, 2016
[26] Claude Elwood Shannon. A mathematical theory of communication. Bell System Technical Journal, 27(3):379–423, 1948
[27] Neil Houlsby, Ferenc Huszár, Zoubin Ghahramani, and Máté Lengyel. Bayesian active learning for classification and preference learning. arXiv preprint arXiv:1112.5745, 2011
[28] Linton G Freeman. Elementary applied statistics, 1965
[29] Michael Kampffmeyer, Arnt-Borre Salberg, and Robert Jenssen. Semantic segmentation of small objects and modeling of uncertainty in urban remote sensing images using deep convolutional neural networks. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2016
[30] Alex Kendall, Vijay Badrinarayanan, and Roberto Cipolla. Bayesian segnet: Model uncertainty in deep convolutional encoder-decoder architectures for scene understanding. arXiv preprint arXiv:1511.02680, 2015
[31] Yann LeCun and Corinna Cortes. The MNIST database of handwritten digits, 1998
[32] fchollet. Keras. https://github.com/fchollet/keras, 2015
[33] Salah Rifai, Yann N Dauphin, Pascal Vincent, Yoshua Bengio, and Xavier Muller. The manifold tangent classifier. In Advances in Neural Information Processing Systems, pages 2294–2302, 2011
[34] Dong-Hyun Lee. Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks. In Workshop on Challenges in Representation Learning, 2013
[35] Nikolaos Pitelis, Chris Russell, and Lourdes Agapito. Semi-supervised learning using an unsupervised atlas. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pages 565–580. Springer, 2014
[36] Takeru Miyato, Shin-ichi Maeda, Masanori Koyama, Ken Nakae, and Shin Ishii. Distributional smoothing by virtual adversarial examples. arXiv preprint arXiv:1507.00677, 2015.