表示学习概览
【摘 要】 表示学习是一种训练机器学习模型的特殊类型,它学着将原始的输入数据变换为对实现未来任务更有用的新形式。近年关于表示学习的研风头日胜,因为在很多实际工作中,增加预训练以学习有用的表示,确实提升了很多下游任务的性能。本文主要对表示学习的门类和方法做一概述,文章内容主要来自 Murphy 的《Machine Learning: Advanced Topics》第 32 章。
【参 考】 Murphy, 《Machine Learning: Advanced Topics》ch. 20
【思维导图】
1 概述
表示学习是一种训练机器学习模型以将原始输入变换为更容易解决新任务的形式的范式。与在训练时就已经知道了任务的监督学习不同,表示学习通常假设我们并不知道希望解决的任务是什么。但如果没有这些知识,是否真的可以学习到对后续任务有用的输入呢?
表示学习存在可能性的证据之一来自我们自身。人类可以快速形成对新类的丰富表示,并且支持多种行为:找到该类的更多实例,将该实例分解为多个部分,从该类生成新实例等。但是,很难直接指定我们希望机器学习系统学习哪些表示。我们可能希 ...
高斯过程混合模型
〖摘要〗 在很多模型假设中,存在各种形式的隐变量和隐结构,其目的是使高维数据能够得到足够地解释,以发现或挖掘隐藏在可观测数据深层的知识或信息。我们可以将此类模型暂时称为 发现模型 或者 广义隐变量模型。本文是此类模型的一个总揽,大部分内容摘自 Murphy 的《机器学习:高级主题》的第 27 章。
在本部分中,我们专注于能够为
问题提出
发现模型假设我们能够观测到的数据 x\boldsymbol{x}x 是由某些底层的潜在因素 z\boldsymbol{z}z ( 通常是低维的 )导致,并且通常 z\boldsymbol{z}z 代表了世界的某种 “真实” 状态。至关重要的是,这些潜在因素通常被认为对模型的最终用户有意义 ( 也就是说,评估此类模型需要领域专业知识,具有可解释性 )。
我们的目的是通过对可观测数据 x\boldsymbol{x}x 的处理,得到潜在因素 z\boldsymbol{z}z 的底层作用机理, 进而能够给可观测数据的生成作出一个合理的解释。
这种反向建模方法广泛用于科学和工程中,其中 z\boldsymbol{z}z 代表了自然界中待估计的潜在状态 ...
狄利克雷过程混合模型
〖摘要〗 在很多模型假设中,存在各种形式的隐变量和隐结构,其目的是使高维数据能够得到足够地解释,以发现或挖掘隐藏在可观测数据深层的知识或信息。我们可以将此类模型暂时称为 发现模型 或者 广义隐变量模型。本文是此类模型的一个总揽,大部分内容摘自 Murphy 的《机器学习:高级主题》的第 27 章。
在本部分中,我们专注于能够为
问题提出
发现模型假设我们能够观测到的数据 x\boldsymbol{x}x 是由某些底层的潜在因素 z\boldsymbol{z}z ( 通常是低维的 )导致,并且通常 z\boldsymbol{z}z 代表了世界的某种 “真实” 状态。至关重要的是,这些潜在因素通常被认为对模型的最终用户有意义 ( 也就是说,评估此类模型需要领域专业知识,具有可解释性 )。
我们的目的是通过对可观测数据 x\boldsymbol{x}x 的处理,得到潜在因素 z\boldsymbol{z}z 的底层作用机理, 进而能够给可观测数据的生成作出一个合理的解释。
这种反向建模方法广泛用于科学和工程中,其中 z\boldsymbol{z}z 代表了自然界中待估计的潜在状态 ...
发现模型概览
发现模型概览
〖摘要〗 在很多模型假设中存在各种形式的隐变量和隐结构,其目的是使高维数据能够得到足够地解释,以便发现或挖掘隐藏在可观测数据深层的知识或信息。我们将此类模型称为 发现模型 或者 广义隐变量模型。本文是此类模型的一个总揽,大部分内容摘自 Murphy 的《机器学习:高级主题》的第 27 章。
问题提出
发现模型假设我们能够观测到的数据 x\boldsymbol{x}x 是由某些底层的潜在因素 z\boldsymbol{z}z ( 通常是低维的 )导致,并且通常 z\boldsymbol{z}z 代表了世界的某种 “真实” 状态。至关重要的是,这些潜在因素通常被认为对模型的最终用户有意义 ( 也就是说,评估此类模型需要领域专业知识,具有可解释性 )。
我们的目的是通过对可观测数据 x\boldsymbol{x}x 的处理,得到潜在因素 z\boldsymbol{z}z 的底层作用机理, 进而能够给可观测数据的生成作出一个合理的解释。
这种反向建模方法广泛用于科学和工程中,其中 z\boldsymbol{z}z 代表了自然界中待估计的潜在状态,而 x\boldsy ...
➀ 隐变量模型综述
〖摘要〗隐变量模型是将一组可观察变量与一组隐变量建立关联的统计模型。本文对隐变量模型进行了概述:首先介绍了通用模型并讨论了各种推断方法;之后,介绍了几种比较常用的情况,包括:『隐类别模型 Latent Class Model 』 (也称『混合物模型 Mixture Model 』)、『混合模型(Mixed Model)』等;我们将这些模型应用于具有简单结构的相同数据集,并进行了结果比较和优缺点讨论;此外,本文还说明了包括『潜在结构模型』在内的若干问题;最后,我们讨论了模型扩展和应用,强调了在应用隐变量模型时经常被忽视的几个问题。
〖原文〗Modeling Through Latent Variables, Annual Review of Statistics and Its Application
〖作者〗Geert Verbeke, Geert Molenberghs,比利时鲁汶天主教大学,
〖时间〗2017
〖DOI〗10.1146/annurev-statistics-060116-054017
p{text-indent:2em}
1. 概述
目前在统计实践中使用 ...
➂ 连续型隐变量:混合模型
混合模型 (Mixed Model)
Sources:
Notebook
Repository
p{text-indent:2em;2}
第 1 部分 本系列文章介绍了具有离散隐变量的隐变量模型、高斯混合模型 (GMM) 和拟合算法这个模型要数据,EM 算法。第 2 部分介绍了具有连续隐变量的隐变量模型,用于对更复杂的数据(例如自然图像)进行建模,以及可与随机优化算法结合使用的贝叶斯推理技术。
Consider a natural image of size 100×100100 \times 100100×100 with a single channel. This image is a point in 10.00010.00010.000-dimensional space. Natural images are usually not uniformly distributed in this space but reside on a much lower-dimensional manifold within this high-dimensional ...
➂ 连续型隐变量:变分自编码器
连续型隐变量模型与变分自编码器
Sources:
Notebook
Repository
p{text-indent:2em;2}
第 1 部分 本系列文章介绍了具有离散隐变量的隐变量模型、高斯混合模型 (GMM) 和拟合算法这个模型要数据,EM 算法。第 2 部分介绍了具有连续隐变量的隐变量模型,用于对更复杂的数据(例如自然图像)进行建模,以及可与随机优化算法结合使用的贝叶斯推理技术。
Consider a natural image of size 100×100100 \times 100100×100 with a single channel. This image is a point in 10.00010.00010.000-dimensional space. Natural images are usually not uniformly distributed in this space but reside on a much lower-dimensional manifold within this high-dimensional spa ...
➁ 离散型隐变量:EM 算法
源代码:
Notebook
Repository
本文是关于隐变量模型的第 1 篇,介绍了期望最大化 (EM) 算法及其在高斯混合模型中的应用。
p{text-indent:2em;2}
1. 概述
给定概率模型 p(x∣θ)p(\mathbf{x} \lvert \boldsymbol{\theta})p(x∣θ) 和 NNN 个观测值值 X={x1,…,xN}\mathbf{X} = \{ \mathbf{x}_1, \ldots, \mathbf{ x}_N \}X={x1,…,xN} 。 我们希望找到一个能够使似然 p(X∣θ)p(\mathbf{X} \lvert \boldsymbol{\theta})p(X∣θ) 最大化的参数 θ\boldsymbol{\theta}θ 。这也被称为 最大似然估计 (MLE)。
θMLE=argmaxθp(X∣θ)(1)\boldsymbol{\theta}_{MLE} = \underset{\boldsymbol{\theta}}{\mathrm{argmax}} \quad p(\mathbf{X} \lver ...
➁ 离散型隐变量:EM 算法
源代码:
Notebook
Repository
本文是关于隐变量模型的第 1 篇,介绍了期望最大化 (EM) 算法及其在高斯混合模型中的应用。
p{text-indent:2em;2}
1. 概述
给定概率模型 p(x∣θ)p(\mathbf{x} \lvert \boldsymbol{\theta})p(x∣θ) 和 NNN 个观测值值 X={x1,…,xN}\mathbf{X} = \{ \mathbf{x}_1, \ldots, \mathbf{ x}_N \}X={x1,…,xN} 。 我们希望找到一个能够使似然 p(X∣θ)p(\mathbf{X} \lvert \boldsymbol{\theta})p(X∣θ) 最大化的参数 θ\boldsymbol{\theta}θ 。这也被称为 最大似然估计 (MLE)。
θMLE=argmaxθp(X∣θ)(1)\boldsymbol{\theta}_{MLE} = \underset{\boldsymbol{\theta}}{\mathrm{argmax}} \quad p(\mathbf{X} \lver ...
➀ 隐变量模型概览
隐变量模型初探
【摘要】隐变量模型常用于揭示计量或统计数据中的一些无法被直接观测到的规律或现象。例如:揭示不同原因导致的异质性、解释可观测变量中的误差构成等。
【作者】Francesco Bartolucci,意大利佩鲁贾大学
【原文】http://www.econ.upf.edu/~michael/latentvariables/
p{text-indent:2em;2}
0 引言
在本部分中,我们专注于能够创建高维数据的可解释表示的模型:隐变量模型。
问题提出
隐变量模型假设观测到的数据 x\boldsymbol{x}x 是由某些底层的潜在因素 z\boldsymbol{z}z (通常是低维的)导致,并且通常 z\boldsymbol{z}z 代表了世界的某种 “真实” 状态。至关重要的是,这些潜在因素被认为对模型的最终用户有意义 (也就是说,评估此类模型需要领域专业知识)。我们的目的是通过对可观测数据 x\boldsymbol{x}x 的处理,得到潜在因素 z\boldsymbol{z}z 的底层作用机理, 进而能够给可观测数据的生成作出一个合理的解释。这种反向建模方 ...