1新智能院编译
题目:使用基于能量的概率估计的深度直接生成模型(deep directed generative models with energy-based probability estimation)
作者:加拿大蒙特利尔大学泰苏夫金,Yoshua Bengio
要下载论文,请点击“阅读原文”
摘要
基于训练能量的概率模型面临着难解的加成问题(intractable sums),对此的蒙特卡罗估计需要从训练内部周期过程中预测的概率分布进行采样。
这可以通过马尔科夫链蒙特卡洛方法(MCMC)近似实现,但仍面临令人生畏的障碍:把那些尖锐的概率集中分布混合到各个模式之间去。尽管 MCMC 常常是从给定的基于数学因素的能量方程中推衍出来的,并需要任意长的时间才能获得好而多的样本,我们提出可以训练一种(非马尔科夫链的)深度有向生成模型,让它的样本分布近似地与正在训练的能量函数相匹配。
受生成对抗网络的启发,本框架涉及训练两个模型,分别表示对估计概率分布的两种观点:其中能量函数将输入的组态映射到标量形式的能量值,而生成器则将噪音向量映射到一个生成的组态。这两种模型都用深度神经网络来表示。
1. 引言
基于能量的模型通过定义能量函数,捕捉到了有价值的随机变量之间的依存度,而且可以通过对指数或负数形式的能量函数进行归一化来进一步获得概率分布。能量函数把随机变量的每种组态(configuration)都对应于一个标量能量值,其中较低的能量值对应于那些更可能发生的组态。
能量函数通常被用来对无向图模型进行参数化,例如在玻尔兹曼机中,能量函数就体现为引入了适当的归一化因子的玻尔兹曼分布。总的来说,归一化因子在对基于能量的模型进行最大似然训练时会带来一些困难,因为它是对随机变量的所有组态的加和,而相应的梯度则是从模型中得到的样本组态的能量梯度的均值。这个加和不仅是难解的(intractable),而且从它产生的精确蒙特卡洛取样也是难解的。
为了能对归一化因子的梯度进行估计,人们通常使用 MCMC 从模型分布中获取近似样本。然而,MCMC 方法会赋予一些小的移动以较高的概率,而这些小的移动极不可能在彼此分离的模式之间跳跃。当模型分布变得更加尖锐、训练过程中多个模式被概率极低的区域分隔开时,利用 MCMC 取样的困难就会凸显出来。
为了避开这一问题,我们训练了一个深度有向生成模型,它可以通过决定论性地对独立同分布的随机样本(例如均匀分布的变量)进行转换来产生样本。这样,在为训练基于能量的概率模型而生成样本时,就可以避免会导致任意长的计算时间的序列过程。在本框架中,学习到的知识在两种互补的模型中通过能量函数和生成器这两种观点来表示。
能量函数以这样一种方式来训练:它对最大似然梯度进行估计,这样来自模型的近似样本(需要估计归一化因子的梯度)就能通过生成模型而获得,而非通过马尔科夫链来获得。我们以类似于生成对抗网络的方式来训练生成器,也就是说,我们可以把能量函数看作一个甄别器:低能量对应于“真实”数据(因为能量函数被训练为将低能量分配给训练实例)而高能量对应于“假的”或生成的数据(因为生成器会把概率质量放在错误的地方)。
因此,能量函数提供了梯度,能激励生成器产生出低能量样本。由于生成对抗网络的生成器受制于缺失模式问题(missing mode problem),我们引入了一种规则化方式(regularization),可以间接地将生成器的训练目标的熵最大化;经验表明这一点对于获取更合理的样本而言非常重要。
3. 模型
我们提出了一个新的框架,训练基于能量的概率模型。其中,关于估计概率分布的信息以能量函数和生成器这两种不同方式来表示。理想状况下,它们将完美地互相匹配。但现实中,它们彼此训练时,每一种方式都可以被视为对另一种方式的相应操作(对能量的取样或计算)的逼近。
我们只使用深度神经网络来表示这两种模型,这样就不需要为它们以及 MCMC 取样设定明确的隐含变量和推理。这两个模型中:
定义了能量函数的深度能量模型(DEM)
深度生成模型(DGM),它是一个样本生成器,用于训练匹配深度能量模型
重要的是,要确保这两个模型在训练过程中近似地对齐,因为它们是对所学到的同一种东西的两种观点的近似表示。
图1:本框架具有两个模型,分别表示对所学东西的两种观点:(a) 深度能量模型被定义来估计概率分布,方法是从被表达为特征空间的能量函数中进行学习,(b) 深度生成模型则决定论性地生成样本,这些样本可以近似地与深度能量模型相匹配。为了训练深度能量模型,训练实例被用来降低能量(正相),而来自深度生成模型的样本则被用来提高能量(负相)。此外,深度生成模型通过与深度能量模型进行对齐而得到训练。
4. 试验
图4:从深度生成模型中生成的样本,该模型具有卷积操作,用 64x64的有色图像训练:(a) CelebA(面孔)), (b) LSUN (卧室)
5. 结论
基于能量的概率模型被广泛用来定义估计概率分布的生成过程。本文中,我们表明通过运用两个只使用神经网络的深度模型,可以避免难解性(intractability)。未来的工作中,我们将明确处理生成器的熵,并将深度能量模型扩展应用于半监督学习。此外,将高维数据输入的能量函数进行近似的可视化,也将会很有用。
点击“阅读原文”下载论文
「招聘」
全职记者、编译和活动运营
欢迎实习生
以及人工智能翻译社志愿者
详细信息请进入公众号点击「招聘」
或发邮件至 jobs@aiera.com.cn