场景理解任务中的多任务学习与不确定性

【摘要】许多景深学习应用受益于具有多个回归和分类目标的多任务学习。在本文中，我们观察到此类系统的性能在很大程度上取决于每个任务损失之间的相对权重。手动调整这些权重是困难且昂贵的，这使多任务学习在实践中令人望而却步。我们提出了一种多任务景深学习的原理性方法，它通过考虑每个任务的同质不确定性来权衡多个损失函数。这使我们能够在分类和回归任务中同时学习具有不同尺度或类别的各种数据。我们的模型从单眼输入图像中学习了逐像素的景深回归、语义分割和实例分割。也许会令人惊讶，我们发现，该模型能够学得多任务的权重，并且其性能胜过了在每个任务上单独训练的模型。

【原文】 Kendall, A., Gal, Y., and Cipolla, R. 2018. Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). arxiv:1705.07115

【阅读建议】在多任务学习的训练过程中，传统方法需要手动调节不同任务的损失权重。而任务模型的最终性能受权重影响较大，因此取得理想效果往往需要大量工作。本文针对此问题提出了一种 利用不确定性来自动设定多个任务损失权重 的方法。具体来说：（1）提出了一种新颖的、原理性的多任务损失函数。该函数利用同质的任务不确定性，能够同时学习多种不同数值类型的回归损失和不同类别的分类损失；（2）提出了一种适用于语义分割、实例分割和景深回归的统一架构；（3）展示了损失权重对多任务景深学习任务的重要性，同探讨了如何能够获得比等效的单独训练模型更好的性能。

1 概况

多任务学习旨在从 共享表示 中学习多个目标，以提升学习效率和预测准确性 ^[7] 。多任务学习广泛应用于多种机器学习任务中，如：计算机视觉 ^[27] 、自然语言处理 ^[11] 语音识别 ^[23] 等。

计算机视觉领域的 场景理解，是非常典型的多任务学习。场景理解算法必须同时理解场景的 几何特征 和 语义特征，因此涉及不同量级、不同尺度和不同类别的多种回归和分类任务的联合学习。视觉场景理解的特殊性还在于，它通常被用于运行时间严格受限的系统（如：机器人使用的近实时视觉系统），如果能够将所有任务合并到一个模型中，则有可能减少计算、使系统能够实时运行。

早前的方法大多使用 不同任务损失的朴素加权求和 来同时学习多个任务。其中损失的权重为均匀的，或通过手动调整 ^[40]^[27]^[15] 。但是，实验表明多任务学习的性能严重依赖于对各任务损失的合理加权。我们观察到，各任务的最佳权重取决于测量尺度（如米、厘米或毫米）以及任务最终的噪声强度。

在本工作中，我们提出了一种利用 同质（任务）不确定性 定义损失权重，进而同时学习多个目标的原理性方法。在该方法中，我们将 同质不确定性 解释为与任务相关的损失权重，并展示了如何推导出一个多任务的损失函数。该函数可以学习平` 多种回归和分类的损失，并且与单独学习各任务相比，新方法能够学习以最佳方式平衡这些权重，从而获得优秀的性能。

具体来说，我们通过三个场景理解中的任务展示了我们的方法。

语义分割任务：学习像素级别的对象分类，也称为语义分割 ^[33]^[3]^[44]^[8]^[47] 。
实例分割任务：为图像中每个单独的对象分割出单独掩码（例如，道路上每辆汽车的精确独立掩码） ^[39]^[18]^[14]^[4] 。这是一项比语义分割更困难的任务，因为它不仅需要估计每个像素的类别，还需要估计像素属于哪个对象。它也比对象检测更复杂，对象检测通常单独预测对象外包矩形 ^[17] 。
像素级景深预测任务：已经有通过监督学习 ^[15] 和非监督 ^[16] 方法采用稠密神经网络识别和度量像素景深的研究，但至今很难以有泛化能力很好的景深估计模型。我们表明通过使用语义标签和多任务深度学习，可以改进对几何和景深的估计。

在现有文献中， 景深回归、语义分割和实例分割 任务大多是分离的，以创建一个完整的场景理解系统。在给定单眼输入图像条件下，我们的系统是第一个能够同时实现 语义分割、景深度量 和 实例分割 的系统（ 图 1 ）。虽然已有其他视觉模型展示了多任务学习，但我们展示了几何和语义的结合。将这些任务组合为一个模型，可以确保模型在各单独任务的输出之间达成一致，同时能够减少计算。我们还表明，使用 共享表示 和 多任务学习 可以提高各指标的性能，使模型更加有效。

图 1：多任务深度学习。我们得出了一种将多个回归和分类损失函数结合起来进行多任务学习的方法。我们的架构以单目 RGB 图像作为输入，同时生成逐像素的实例分割、语义分割 和 像素级景深估计。多任务学习可以提高各独立训练模型的准确性，因为来自一个任务的某些线索（例如深度）可以规范化和改进另一个任务的泛化（例如分割）

综上所述，本文最主要的贡献在于：

提出了一种新颖的、原理性的多任务损失函数，利用同质的任务不确定性，能够同时学习多种回归和分类任务中不同量级和尺度单位的损失。
提出了一种适用于 语义分割 、 实例分割 和 景深回归 的统一架构
展示了损失的权重对多任务学习的重要性，探讨了如何能够获得比单独训练模型更好的性能。

2 相关研究工作

3 考虑同质不确定性的多任务学习

多任务学习涉及多个目标的模型优化问题，它在许多景深学习问题中很普遍。结合多目标损失的最简单方法是对每个单独任务的损失进行线性加权求和：

L_{total}= \sum_i w_iL_i \tag{1}

这是先前工作 ^[41]^[40]^[31]^[43] 使用的主要方法，例如用于密集预测任务 ^[27] 、场景理解任务 ^[15] 以及相机姿势旋转（四元组）和平移（以米为单位）任务 ^[25] 。但此方法存在许多问题，模型的性能对权重 $w_i$ 的选择极为敏感，如 图 2 所示。这些权重超参数的调整成本很高，每次试验通常需要很多天。因此，希望找到一种更方便的方法来学习最佳权重。

更具体地说，让我们考虑一个学习从输入图像中预测像素级景深和语义类别的网络。在 图 2 中，图的两个边界显示了针对独立任务训练的模型，曲线显示了每个任务的不同权重 $w_i$ 的性能。我们观察到，在某些最佳权重下，联合网络的性能优于单独在每个任务上训练的独立网络（在图的两个边缘可以看到模型在单个任务中的性能： $w = 0$ 和 $w = 1$ ）。在接近最佳权重的值时，网络在其中一项任务上表现更差。然而，对于具有大量任务的大型模型，寻找这些最佳权重是昂贵的并且越来越困难。图 2 还显示了两个回归任务的类似结果：实例分割和景深回归。接下来，我们将展示如何使用概率建模思想来学习最佳任务权重。

图 2：学习多个任务提高了模型表示和单一任务的性能。这些图表说明了多任务学习在 (a) 语义分类和景深回归；以及 (b) 实例分割 和 景深回归 方面的优势。在图两侧（即 $w = 0$ 和 $w = 1$ ）可以看到模型在单一任务中的性能。通过每个任务之间的权重平衡，我们观察到两个单独任务的性能都有所提高。所有模型都以 $0.01$ 的学习率进行训练，并使用 式 (1) 中的损失函数。结果采用 Tiny CityScapes 验证集 验证，下采样分辨率为 128 × 256 。

3.1 将任务不确定性视为同质不确定性

在贝叶斯建模中，可以建模的不确定性主要有两种类型 ^[24]。

• 认知不确定性是模型中的不确定性，它捕获了我们的模型由于缺乏训练数据而不知道的内容。它可以通过增加训练数据来解释。
• 任意不确定性捕获了我们对数据无法解释的信息的不确定性。任意不确定性可以通过越来越精确地观察所有解释变量的能力来解释。

任意不确定性又可以分为两个子类别。
• 数据相关或异方差不确定性是任意不确定性，它取决于输入数据并被预测为模型输出。
• 任务相关或同质的不确定性是不依赖于输入数据的任意不确定性。它不是模型输出，而是一个对于所有输入数据保持不变并在不同任务之间变化的量。因此，它可以被描述为任务相关的不确定性。

在多任务设置中，我们表明任务不确定性捕获了任务之间的相对置信度，反映了回归或分类任务固有的不确定性。它还取决于任务的表示或度量单位。我们建议我们可以使用同质不确定性作为多任务学习问题中加权损失的基础。

3.2 多任务的似然函数

在本节中，我们推导出基于同质不确定性最大化高斯似然的多任务损失函数。令 fW(x) 为输入 x 上权重为 W 的神经网络的输出。我们定义了以下概率模型。对于回归任务，我们将似然定义为均值为模型输出、方差 $\sigma$ 为观察噪声的高斯：

p\left(\mathbf{y} \mid \mathbf{f}^{\mathbf{W}}(\mathbf{x})\right)=\mathcal{N}\left(\mathbf{f}^{\mathbf{W}}(\mathbf{x}), \sigma^2 \right)

对于分类，我们经常通过 softmax 函数压缩模型输出，并从得到的 概率向量 中采样：

p\left(\mathbf{y} \mid \mathbf{f}^{\mathbf{W}}(\mathbf{x})\right)=\operatorname{Softmax}\left(\mathbf{f}^{ \mathbf{W}}(\mathbf{x})\right)

在多个模型输出的情况下，给定一些足够的统计数据时，我们经常定义能够对输出进行因式分解的似然函数。我们定义 $\mathrm{f}^{\mathbf{W}}(\mathbf{x})$ 作为我们的充分统计量，得到如下多任务似然：

p\left(\mathbf{y}_{1}, \ldots, \mathbf{y}_{K} \mid \mathbf{f}^{\mathbf{W}}(\mathbf{x})\right )=p\left(\mathbf{y}_{1} \mid \mathbf{f}^{\mathbf{W}}(\mathbf{x})\right) \ldots p\left(\mathbf{y }_{K} \mid \mathbf{f}^{\mathbf{W}}(\mathbf{x})\right)

其中模型输出为 $\mathbf{y}_{1}、\ldots、\mathbf{y}_{K}$ （如语义分割、景深回归等）。

在最大似然推断中，我们最大化模型的对数似然。例如，在回归中，对数似然可以写成：

\log p\left(\mathbf{y} \mid \mathbf{f}^{\mathbf{W}}(\mathbf{x})\right) \propto-\frac{1}{2 \sigma^{ 2}}\left\|\mathbf{y}-\mathbf{f}^{\mathbf{W}}(\mathbf{x})\right\|^{2}-\log \sigma

对于具有 $\sigma$ 的高斯似然（或类似的拉普拉斯似然），模型的观察噪声参数捕获了我们在输出中有多少噪声。然后我们最大化关于模型参数 $\mathbf{W}$ 和观察噪声参数 $\sigma$ 的对数似然。

现在让我们假设模型输出由两个向量 $\mathbf{y}_{1}$ 和 $\mathbf{y}_{2}$ 组成，每个向量都遵循高斯分布：

\begin{aligned} p\left(\mathbf{y}_{1}, \mathbf{y}_{2} \mid \mathbf{f}^{\mathbf{W}}(\mathbf{x})\right) &= p\left(\mathbf{y}_{1} \mid \mathbf{f}^{\mathbf{W}}(\mathbf{x})\right) \cdot p\left(\mathbf{y}_ {2} \mid \mathbf{f}^{\mathbf{W}}(\mathbf{x})\right) \\ &=\mathcal{N}\left(\mathbf{y}_{1} ; \mathbf{f}^{\mathbf{W}}(\mathbf{x}), \sigma_{1}^{2} \right) \cdot \mathcal{N}\left(\mathbf{y}_{2} ; \mathbf{f}^{\mathbf{W}}(\mathbf{x}), \sigma_{2}^ {2}\right) \end{aligned}

这导致多模型输出的最小化目标 $\mathcal{L}\left(\mathbf{W}, \sigma_{1}, \sigma_{2}\right)$ （即多任务损失函数）：

\begin{aligned} &=-\log p\left(\mathbf{y}_{1}, \mathbf{y}_{2} \mid \mathbf{f}^{\mathbf{W}}(\mathbf{x}) \right) \\ &\propto \frac{1}{2 \sigma_{1}^{2}}\left\|\mathbf{y}_{1}-\mathbf{f}^{\mathbf{W}}(\mathbf {x})\right\|^{2}+\frac{1}{2 \sigma_{2}^{2}}\left\|\mathbf{y}_{2}-\mathbf{f}^ {\mathbf{W}}(\mathbf{x})\right\|^{2}+\log \sigma_{1} \sigma_{2} \\ &=\frac{1}{2 \sigma_{1}^{2}} \mathcal{L}_{1}(\mathbf{W})+\frac{1}{2 \sigma_{2}^{ 2}} \mathcal{L}_{2}(\mathbf{W})+\log \sigma_{1} \sigma_{2} \end{aligned}

其中， $\mathcal{L}_{1}(\mathbf{W})=\left\|\mathbf{y}_{1}-\mathbf{f}^{\mathbf{W}}(\ mathbf{x})\right\|^{2}$ 表示第一个输出变量的损失，类似地可以得到第二个损失 $\mathcal{L}_{2}(\mathbf{W})$ 。

我们将关于 $σ1$ 和 $σ2$ 的最后一个目标最小化解释为根据数据自适应地学习损失 $L_1(W)$ 和 $L_2(W)$ 的相对权重。随着 $σ1$ （变量 $y1$ 的噪声参数）增加，我们发现 $L1(W)$ 的权重减小。另一方面，随着噪声的减少，我们认为各个目标的权重会增加。目标中的最后一项不鼓励噪声增加太多（实际上忽略了数据），它充当噪声项的正则化器。

This construction can be trivially extended to multiple regression outputs. However, the extension to classification likelihoods is more interesting. We adapt the classification likelihood to squash a scaled version of the model output through a softmax function:

这种结构可以简单地扩展到多元回归输出。但我们对扩展到分类任务的似然更感兴趣。我们将分类似然调整为 softmax 函数 一个压缩版本：

p\left(\mathbf{y} \mid \mathbf{f}^{\mathbf{W}}(\mathbf{x}), \sigma\right)=\operatorname{Softmax}\left(\frac{1}{\sigma^{2}} \mathbf{f}^{\mathbf{W}}(\mathbf{x})\right)

其中标量值 $\sigma$ 为正。这可以解释为玻尔兹曼分布（也称为吉布斯分布），其中输入按 $\sigma^{2}$ （通常称为温度）缩放。这个标量要么是固定的，要么是可以学习的，其中参数的大小决定了离散分布的 “均匀”（平坦）程度。这与它的不确定性有关，用熵来衡量。这个输出的对数似然可以写成：

\begin{aligned} \log p\left(\mathbf{y}=c \mid \mathbf{f}^{\mathbf{W}}(\mathbf{x}), \sigma\right) &=\frac{1}{\sigma^{2}} f_{c}^{\mathbf{W}}(\mathbf{x}) \\ &-\log \sum_{c^{\prime}} \exp \left(\frac{1}{\sigma^{2}} f_{c^{\prime}}^{\mathbf{W}}(\mathbf{x})\right) \end{aligned}

其中 $f_{c}^{\mathbf{W}}(\mathbf{x})$ 为向量 $\mathbf{f}^{\mathbf{W}}(\mathbf{ x})$ 的第 $c$ 个元素。

接下来，假设一个模型的多个输出由一个连续输出 $\mathbf{y}_{1}$ 和一个离散输出 $\mathbf{y}_{2}$ 组成，用高斯似然和 softmax 似然建模，分别。和之前一样，联合损失 $\mathcal{L}\left(\mathbf{W}, \sigma_{1}, \sigma_{2}\right)$ 给出为：

\begin{aligned} &=-\log p\left(\mathbf{y}_{1}, \mathbf{y}_{2}=c \mid \mathbf{f}^{\mathbf{W}}(\mathbf{x})\right) \\ &=-\log \mathcal{N}\left(\mathbf{y}_{1} ; \mathbf{f}^{\mathbf{W}}(\mathbf{x}), \sigma_{1}^{2}\right) \cdot \operatorname{Softmax}\left(\mathbf{y}_{2}=c ; \mathbf{f}^{\mathbf{W}}(\mathbf{x}), \sigma_{2}\right) \\ &=\frac{1}{2 \sigma_{1}^{2}}\left\|\mathbf{y}_{1}-\mathbf{f}^{\mathbf{W}}(\mathbf{x})\right\|^{2}+\log \sigma_{1}-\log p\left(\mathbf{y}_{2}=c \mid \mathbf{f}^{\mathbf{W}}(\mathbf{x}), \sigma_{2}\right. \\ &=\frac{1}{2 \sigma_{1}^{2}} \mathcal{L}_{1}(\mathbf{W})+\frac{1}{\sigma_{2}^{2}} \mathcal{L}_{2}(\mathbf{W})+\log \sigma_{1} \\ &\quad+\log \frac{\sum_{c^{\prime}} \exp \left(\frac{1}{\sigma_{2}^{2}} f_{c^{\prime}}^{\mathbf{W}}(\mathbf{x})\right)}{\left.\left(\sum_{c^{\prime}} \exp \left(f_{c^{\prime}}^{\mathbf{W}}(\mathbf{x})\right)\right)\right)^{\frac{1}{\sigma_{2}^{2}}}} \\ &\approx \frac{1}{2 \sigma_{1}^{2}} \mathcal{L}_{1}(\mathbf{W})+\frac{1}{\sigma_{2}^{2}} \mathcal{L}_{2}(\mathbf{W})+\log \sigma_{1}+\log \sigma_{2} \end{aligned}

我们又写了 $\mathcal{L}_{1}(\mathbf{W})=\left\|\mathbf{y}_{1}-\mathbf{f}^{\mathbf{W}}( \mathbf{x})\right\|^{2}$ 对于 $\mathbf{y}_{1}$ 的欧几里得损失，写为 $\mathcal{L}_{2}(\mathbf{W}) =-\log \operatorname{Softmax}\left(\mathbf{y}_{2}, \mathbf{f}^{\mathbf{W}}(\mathbf{x})\right)$ 为交叉熵 $\mathbf{y}_{2}$ 的损失（ $\mathrm{f}^{\mathbf{W}}(\mathrm{x})$ 未缩放），并针对 $\mathbf{ 进行优化W}$ 以及 $\sigma_{1}、\sigma_{2}$ 。在上一个转换中，我们引入了显式简化假设 $\frac{1}{\sigma_{2}} \sum_{c^{\prime}} \exp \left(\frac{1}{\sigma_{2}^ {2}} f_{c^{\prime}}^{\mathbf{W}}(\mathbf{x})\right) \approx$ $\left(\sum_{c^{\prime}} \exp \left(f_{c^{\prime}}^{\mathbf{W}}(\mathbf{x})\right)\right)^{\frac{1}{\sigma_{2}^{2} }}$ 当 $\sigma_{2} \rightarrow 1$ 时变为等式。这具有简化优化目标以及在经验上改进结果的优点。

最后一个目标可以看作是学习每个输出的损失的相对权重。大尺度值 $\sigma_{2}$ 将减少 $\mathcal{L}_{2}(\mathbf{W})$ 的贡献，而小尺度 $\sigma_{2}$ 将增加其贡献。比例由等式中的最后一项调节。当 $\sigma_{2}$ 设置得太大时，目标会受到惩罚。

这种结构可以简单地扩展到离散和连续损失函数的任意组合，使我们能够以有原则和有根据的方式学习每个损失的相对权重。这种损失是平滑可微的，并且形成良好，使得任务权重不会收敛到零。相反，使用简单的损失线性和 (1) 直接学习权重会导致权重迅速收敛到零。在以下部分中，我们将介绍我们的实验模型并展示实证结果。

在实践中，我们训练网络来预测对数方差， $s:=\log\sigma^{2}$ 。这是因为它比回归方差 $\sigma^{2}$ 在数值上更稳定，因为损失避免了任何除以零。指数映射还允许我们回归不受约束的标量值，其中 $\exp (-s)$ 被解析为正域，给出了有效的方差值。

图 3：实例质心回归方法。对于每个像素，我们回归一个指向实例质心的向量。损失仅在来自实例的像素上计算。我们通过将颜色表示为实例向量的方向并将强度表示为向量的大小来可视化 ©

图 4：这个例子显示了两辆被树木和灯柱遮挡的汽车，使得实例分割具有挑战性。我们的实例分割方法可以有效地处理遮挡。通过结合语义和几何，我们可以正确处理被遮挡分割的分割掩码，但它们是同一实例的一部分。

4 场景理解模型

为了理解语义和几何，我们首先提出了一种可以在像素级别学习回归和分类输出的架构。我们的架构是一个景深卷积编码器解码器网络^[3]。我们的模型由许多产生共享表示的卷积编码器组成，然后是相应数量的特定于任务的卷积解码器。图 1 显示了一个高级摘要。编码器的目的是学习景深映射以产生丰富的上下文特征，使用来自许多相关任务的领域知识。我们的编码器基于 DeepLabV3 ^[10] ，它是最先进的语义分割框架。我们使用 ResNet101 ^[20] 作为基本特征编码器，然后使用 Atrous Spatial Pyramid Pooling (ASPP) 模块 ^[10] 来提高上下文意识。我们在这个编码器中应用扩张卷积，这样得到的特征图被子采样一个因子8 与输入图像尺寸相比。

然后，我们将网络拆分为每个任务的单独解码器（具有单独的权重）。解码器的目的是学习从共享特征到输出的映射。每个解码器由一个输出特征大小为 256 的 3×3 卷积层组成，然后是一个回归任务输出的 1×1 层。附录 A.

语义分割中描述了进一步的架构细节。我们使用交叉熵损失来学习逐像素的类别概率，平均每个小批量中带有语义标签的像素的损失。

实例分割。定义像素属于哪个实例的一种直观方法是与实例质心的关联。我们使用回归方法进行实例分割 ^[30] 。这种方法受到 ^[28] 的启发，该方法使用来自对象部分的霍夫投票来识别实例。在这项工作中，我们通过使用景深学习的单个像素的投票来扩展这个想法。我们为每个像素坐标 cn 学习一个实例向量 ^xn，它指向像素实例的质心 in，因此 in = ^xn + cn。我们使用地面实况标签 xn 用 L1 损失训练此回归，在一个小批量中对所有标记像素 NI 进行平均：LInstance = 1 |NI| ∑ NI |xn - ^xn|1。

图 3 详细说明了我们用于实例分割的表示。图 3(a) 显示了输入图像和属于实例类的像素的掩码（在测试时从预测的语义分割推断）。图 3(b) 和图 3© 显示了 x 和 y 坐标的基本事实和预测的实例向量。然后，我们使用 OPTICS ^[2] 对这些投票进行聚类，从而得到图 3(d) 中的预测实例分割输出。

实例分割算法最难处理的情况之一是实例掩码由于遮挡而被分割。图 4 表明我们的方法可以处理在这些情况下，通过允许像素为具有几何形状的实例质心投票。依赖分水岭方法 ^[4] 或实例边缘识别方法的方法在这些场景中失败。

为了获得每个实例的分割，我们现在需要估计实例中心，^in。我们建议将估计的实例向量 ^xn 视为霍夫参数空间中的投票，并使用聚类算法来识别这些实例中心。 OPTICS ^[2] 是一种高效的基于密度的聚类算法。它能够从给定的一组样本中识别出未知数量的具有不同密度的多尺度集群。我们选择 OPICS 有两个原因。至关重要的是，它不像 k-means ^[34] 等算法那样假设知道集群的数量。其次，它不像离散分箱方法 ^[12] 那样假设规范的实例大小或密度。使用 OPTICS，我们将点 cn + ^xn 聚类为多个估计实例，^i。然后我们可以将每个像素 pn 分配给最接近其估计实例向量 cn + xn 的实例。

景深回归。我们使用 L1 损失函数使用像素级度量逆景深使用监督标签进行训练：LDepth = 1 |ND| ∑ ND ∥ ∥ ∥dn - ^dn ∥ ∥ ∥1 。我们的架构估计了逆景深，^dn，因为它可以表示无限远的点（例如天空）。我们可以从 RGBD 传感器或立体图像中获得逆景深标签 dn。没有反向景深标签的像素在损失中被忽略。

5 实验与模型分析

6 结论

我们已经证明：

正确加权的损失项对多任务学习问题至关重要。
同质（任务）的不确定性是为损失进行加权的有效途径。我们推导了一个原理性的损失函数，它可以从数据中自动学习相对的权重，并且对权重的初始化具有鲁棒性。
该方法可以用做语义分割、实例分割和逐像素景深回归的统一架构，并提高场景理解任务的性能。
与单独训练的独立模型相比较，为依赖任务的同质不确定性建模，确实可以提升模型表示能力和各任务的性能。

当然还有很多有趣的问题没有得到解答。

结果表明，通常对于所有任务都无法确定一个最优权重。那么最优权重是什么？多任务学习是一个没有单一更高层次目标的病态优化问题吗？
将共享编码器网络拆分为各任务单独解码器的最佳位置在哪里？什么网络景深才最适合多任务表示的共享？
为什么“语义/景深任务”的表现优于“语义/实例任务”的结果？显然，本文探讨的三个任务存在互补，对于学习场景的丰富表示很有用。但是否可以量化多个任务之间的关系呢？

源码地址

https://github.com/yaringal/multi-task-learning-example/blob/master/multi-task-learning-example.ipynb （Keras）

https://github.com/Hui-Li/multi-task-learning-example-PyTorch （PyTorch）

https://github.com/ranandalon/mtl

参考文献

[1] P. Agrawal, J. Carreira, and J. Malik. Learning to see by moving. In Proceedings of the IEEE International Conference on Computer Vision, pages 37–45, 2015.
[2] M. Ankerst, M. M. Breunig, H.-P. Kriegel, and J. Sander. Optics: ordering points to identify the clustering structure. In ACM Sigmod Record, volume 28, pages 49–60. ACM, 1999.
[3] V. Badrinarayanan, A. Kendall, and R. Cipolla. Segnet: A deep convolutional encoder-decoder architecture for scene segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.
[4] M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. arXiv preprint arXiv:1611.08303, 2016.
[5] J. Baxter et al. A model of inductive bias learning. J. Artif.Intell. Res.(JAIR), 12(149-198):3, 2000.
[6] S. R. Bulo, L. Porzi, and P. Kontschieder. In-place activated batchnorm for memory-optimized training of dnns. arXiv preprint arXiv:1712.02616, 2017.
[7] R. Caruana. Multitask learning. In Learning to learn, pages 95–133. Springer, 1998.
[8] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2015.
[9] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. arXiv preprint arXiv:1606.00915, 2016.
[10] L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam. Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587, 2017.
[11] R. Collobert and J. Weston. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proceedings of the 25th international conference on Machine learning, pages 160–167. ACM, 2008.
[12] D. Comaniciu and P. Meer. Mean shift: A robust approach toward feature space analysis. IEEE Transactions on pattern analysis and machine intelligence, 24(5):603–619, 2002.
[13] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urban scene understanding. In In Proc. IEEE Conf. on Computer Vision and Pattern Recognition, 2016.
[14] J. Dai, K. He, and J. Sun. Instance-aware semantic segmentation via multi-task network cascades. In In Proc. IEEE Conf. on Computer Vision and Pattern Recognition, 2016.
[15] D. Eigen and R. Fergus. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. In Proceedings of the IEEE International Conference on Computer Vision, pages 2650–2658, 2015.
[16] R. Garg and I. Reid. Unsupervised cnn for single view depth estimation: Geometry to the rescue. Computer Vision–ECCV 2016, pages 740–756, 2016.
[17] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In In Proc. IEEE Conf. on Computer Vision and Pattern Recognition, pages 580–587, 2014.
[18] B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik. Hyper- columns for object segmentation and fine-grained localization. In In Proc. IEEE Conf. on Computer Vision and Pattern Recognition, pages 447–456. IEEE, 2014.
[19] K. He, G. Gkioxari, P. Dollar, and R. Girshick. Mask r-cnn. arXiv preprint arXiv:1703.06870, 2017.
[20] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In In Proc. IEEE Conf. on Computer Vision and Pattern Recognition, 2016.
[21] H. Hirschmuller. Accurate and efficient stereo processing by semi-global matching and mutual information. In In Proc. IEEE Conf. on Computer Vision and Pattern Recognition, volume 2, pages 807–814. IEEE, 2005.
[22] H. Hirschmuller. Stereo processing by semiglobal matching and mutual information. IEEE Transactions on pattern analysis and machine intelligence, 30(2):328–341, 2008.
[23] J.-T. Huang, J. Li, D. Yu, L. Deng, and Y. Gong. Crosslanguage knowledge transfer using multilingual deep neural network with shared hidden layers. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pages 7304–7308. IEEE, 2013.
[24] A. Kendall and Y. Gal. What uncertainties do we need in bayesian deep learning for computer vision? arXiv preprint arXiv:1703.04977, 2017.
[25] A. Kendall, M. Grimes, and R. Cipolla. Convolutional networks for real-time 6-dof camera relocalization. In Proceedings of the International Conference on Computer Vision (ICCV), 2015.
[26] J. Kirkpatrick, R. Pascanu, N. Rabinowitz, J. Veness, G. Desjardins, A. A. Rusu, K. Milan, J. Quan, T. Ramalho, A. Grabska-Barwinska, et al. Overcoming catastrophic forgetting in neural networks. Proceedings of the National Academy of Sciences, page 201611835, 2017.
[27] I. Kokkinos. Ubernet: Training auniversal’convolutional neural network for low-, mid-, and high-level vision using diverse datasets and limited memory. arXiv preprint arXiv:1609.02132, 2016.
[28] B. Leibe, A. Leonardis, and B. Schiele. Robust object detection with interleaved categorization and segmentation. International Journal of Computer Vision (IJCV), 77(1-3):259–
[29] 289, 2008.
[30] X. Liang, Y. Wei, X. Shen, J. Yang, L. Lin, and S. Yan. Proposal-free network for instance-level object segmentation. arXiv preprint arXiv:1509.02636, 2015.
[31] Y. Liao, S. Kodagoda, Y. Wang, L. Shi, and Y. Liu. Understand scene categories by objects: A semantic regularized scene classifier using convolutional neural networks. In 2016 IEEE International Conference on Robotics and Automation (ICRA), pages 2318–2325. IEEE, 2016.
[32] G. Lin, C. Shen, I. Reid, et al. Efficient piecewise training of deep structured models for semantic segmentation. arXiv preprint arXiv:1504.01013, 2015.
[33] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In Proc. IEEE Conf. on Computer Vision and Pattern Recognition, 2015.
[34] J. MacQueen et al. Some methods for classification and analysis of multivariate observations. In Proceedings of the fifth Berkeley symposium on mathematical statistics and probability, volume 1, pages 281–297. Oakland, CA, USA., 1967.
[35] I. Misra, A. Shrivastava, A. Gupta, and M. Hebert. Crossstitch networks for multi-task learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3994–4003, 2016.
[36] J. Ngiam, A. Khosla, M. Kim, J. Nam, H. Lee, and A. Y. Ng. Multimodal deep learning. In Proceedings of the 28th international conference on machine learning (ICML-11), pages
[37] 689–696, 2011.
[38] M. Oquab, L. Bottou, I. Laptev, and J. Sivic. Learning and transferring mid-level image representations using convolutional neural networks. In In Proc. IEEE Conf. on Computer Vision and Pattern Recognition, pages 1717–1724. IEEE, 2014.
[39] P. O. Pinheiro, R. Collobert, and P. Dollar. Learning to segment object candidates. In Advances in Neural Information Processing Systems, pages 1990–1998, 2015.
[40] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. International Conference on Learning Representations (ICLR), 2014.
[41] M. Teichmann, M. Weber, M. Zoellner, R. Cipolla, and R. Urtasun. Multinet: Real-time joint semantic reasoning for autonomous driving. arXiv preprint arXiv:1612.07695, 2016.
[42] S. Thrun. Is learning the n-th thing any easier than learning the first? In Advances in neural information processing systems, pages 640–646. MORGAN KAUFMANN PUBLISHERS, 1996.
[43] J. Uhrig, M. Cordts, U. Franke, and T. Brox. Pixel-level encoding and depth layering for instance-level semantic labeling. arXiv preprint arXiv:1604.05096, 2016.
[44] F. Yu and V. Koltun. Multi-scale context aggregation by dilated convolutions. In ICLR, 2016.
[45] S. Zagoruyko and N. Komodakis. Wide residual networks. In E. R. H. Richard C. Wilson and W. A. P. Smith, editors, Proceedings of the British Machine Vision Conference (BMVC), pages 87.1–87.12. BMVA Press, September 2016.
[46] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia. Pyramid scene parsing network. arXiv preprint arXiv:1612.01105, 2016. 8
[47] S. Zheng, S. Jayasumana, B. Romera-Paredes, V. Vineet, Z. Su, D. Du, C. Huang, and P. Torr. Conditional random fields as recurrent neural networks. In International Conference on Computer Vision (ICCV), 2015