来源:专知
本文约4000字,建议阅读5分钟
本论文通过引入基于最优传输和仿真方法的新方法,对深度概率模型的发展作出了贡献。
深度概率模型在高维、多模态数据合成和密度估计任务中已成为最新的技能前沿。通过将抽象的概率公式与神经网络的表达能力和可扩展性相结合,深度概率模型已成为机器学习工具箱中的基本组成部分。然而,这些模型仍旧存在一些局限性。例如,深度概率模型常日局限于基于梯度的演习,因此难以结合非可微操作;它们的演习和采样本钱较高;并且深度概率模型每每没有利用先验的几何和特定问题的构造知识。

本论文由四部分研究事情组成,通过基于最优传输的仿真方法推动深度概率模型领域的发展。首先,利用Sinkhorn算法的正则化最优传输,我们供应了一个理论上有依据且可微的粒子滤波中重新采样的近似方法。这使得人们能够通过端到端可微粒子滤波对状态空间模型(一类序列概率模型)进行基于梯度的演习。接下来,我们磋商了Sinkhorn算法的初始化策略以办理速率问题。我们展示了精心的初始化可以显著加速Sinkhorn算法。这在可微排序、变分自编码器潜在空间中的聚类以及粒子滤波中都有运用。
剩下的两项事情通过薛定谔桥对基于扩散的天生模型领域作出了贡献。首先,我们将扩散模型与薛定谔桥联系起来,称之为扩散薛定谔桥。这一方法论实现了加速采样、数据到数据的仿真以及一种打算高维连续状态空间问题的正则化最优传输的新方法。末了,我们将扩散薛定谔桥扩展到黎曼流形设置。这使得人们能够结合先验的几何知识,从而实现对黎曼流形值数据的扩散模型的更高效的演习和推理。这在景象和地球科学中有运用。
不雅观察到的征象常日具有高维度、分布上多模态,并且来自于尚未完备理解的随机繁芜系统。科学家的职责是更好地理解我们周围物理和社会天下中的这些不雅观察征象。对统计机器学习研究职员特殊感兴趣的是开拓数据驱动的模型来仿照和预测感兴趣的随机量及其相互浸染。此类数据驱动的机器学习方法常日包括利用大型数据集和富有表现力的模型参数化来弥合领域知识与履历证据之间的差距。
随着技能的进步,我们现在能够捕获、存储和访问大量且不断增加的数据。结合当代打算资源,广大数据可用于从业者演习大型且灵巧的神经网络参数化模型。富有表现力的神经网络与理论上有依据的统计方法之间的协同浸染,供应了一种原则性的、可扩展的办法来准确表示感兴趣的随机量之间繁芜关系。深度概率模型正位于此交汇点,并已成功运用于多个领域,包括:视觉和措辞的经典机器学习任务;韶光序列、预测或密度估计的统计推断问题;以及自然科学运用。只管进展迅速,但仍有许多未办理的寻衅。深度概率模型在演习和支配方面都资源昂贵。如何高效地演习和仿照概率模型尚不明确,尤其是对付迭代扩散模型。也不总是清楚如何将现有的特定问题知识或构造融入深度概率模型中。从直不雅观和实验上来看,结合现有知识可以开拓出更有效的丢失目标和更高效的模型,从而减少学习高性能模型所需的数据量和参数量。终极,结合领域知识可以减少神经网络须要通过从数据中学习来弥合的差距。在将涉及非可微操作(如排序、聚类或重采样)的理论上有依据的统计方法与常日限于基于梯度演习的深度网络的表现力相结合方面,也存在许多寻衅。
本论文通过引入基于最优传输和仿真方法的新方法,对深度概率模型的发展作出了贡献。
贡献
本文包括多项研究成果,可大致分为两个部分。论文的前半部分利用离散的熵正则化最优传输(OT)推导出新颖且改进的深度概率模型演习方案。论文的后半部分探索了熵正则化最优传输在连续状态空间和扩散模型中的新方法,通过扩散Schrödinger桥和黎曼扩展来实现。
仿真方法。仿真是一个广泛利用的术语,常日与蒙特卡罗(Monte Carlo)互换利用。在本研究中,仿真是指对随机过程的评估,包括:蒙特卡罗积分、马尔可夫链蒙特卡罗、概率模型以及大略的随机变量实现。本文中仿真将用于两个高下文。首先,仿真在蒙特卡罗积分的意义上利用,指的是近似那些常日表现为不可解积分的丢失。其次,运行概率模型的天生过程也称为仿真。在某些方法中,从概率模型进行仿真直接用于近似演习丢失,例如GANs。然而,其他可扩展方法如扩散模型在演习和支配期间有不同的仿真过程。
可微分粒子滤波。本文的第一篇文章【19】详细先容于第三章,考虑利用Sinkhorn算法实现端到端可微分粒子滤波。这许可演习神经网络参数化的状态空间模型,从而以原则性的办法利用问题的序列构造以及神经网络的表达能力。粒子滤波是一类蒙特卡罗方法,用于在状态空间模型中实行状态推断和似然估计【30】。给定按韶光t ∈ {1, . . . , T}索引的顺序未不雅观察到的潜在状态(Xt)t和不雅观测值(Yt)t,状态空间模型是一个顺序概率模型,其特色在于潜在状态的转移模型,表示为密度fθ(xt|xt−1),以及不雅观测模型gθ(yt|xt)。这在包括机器人技能、计量经济学和盛行病学在内的科学领域中有运用【18, 29, 31, 33】。粒子滤波供应了不雅观测值的渐近无偏对数似然估计log p(y1:T),可用于以原则性的办法学习转移和不雅观测模型的参数。
粒子滤波包括三个紧张操作的顺序运用:
1. 提案。为每个韶光t的隐蔽状态提出粒子,输出提案粒子分布。
2. 加权。根据提案密度、状态空间模型转移密度和不雅观测密度为每个发起的粒子分配主要性权重。此步骤天生加权的滤波粒子分布。
3. 重采样。根据主要性权重重采样发起的粒子以防止权重退化。此步骤天生未加权的滤波粒子分布。
范例的重采样过程是不可微的,这限定了通过基于梯度的优化演习深度神经网络参数化的状态空间模型的粒子滤波的利用。可以将粒子滤波中的重采样操作重新表述为通过履历提案和加权滤波粒子分布之间的耦合进行采样【68】。最小化此耦合的方差等同于最优传输。跨这种耦合进行采样保留了标准重采样的理论担保,但也‘减少’了不连续性,从而增加了似然函数的‘平滑度’。利用Sinkhorn算法打算此传输耦合是可微的,然后取耦合矩阵行的均匀值,也称为重心投影或集成变换【68】,而不是采样耦合,引入了轻微的、可量化的偏差,但实现了可微重采样,因此端到端可微分粒子滤波。
初始化Sinkhorn势。只管在神经网络中嵌入Sinkhorn层取得了成功,但Sinkhorn算法可能须要多次迭代才能收敛,此外,Sinkhorn算法的每次迭代的繁芜度为O(n^2),个中n是每个离散边缘测度中的原子数量。因此,Sinkhorn算法的收敛可能耗时。当像可微粒子滤波那样,在概率模型的前向通报中嵌入多个Sinkhorn层时,这一问题更为严重。Sinkhorn算法的收敛速率取决于两个成分。首先,取决于Gibbs核e^(-ci,j/ε)的一些条件常数,对付地面本钱(ci,j)i,j;其次,取决于初始Sinkhorn势与最上风的靠近程度,拜会【66,第4.1定理】。已有许多加速Sinkhorn算法的考试测验,包括利用Anderson加速【17】或动量方法【56, 90】。在本文的第二篇文章【91】中,第四章,我们研究了通过初始化来加速Sinkhorn算法。
如果初始化的Sinkhorn势处于最优点,则不须要进一步迭代。非正式地说,如果传输问题OT1 = (α, β, c, ϵ)与类似问题OT2 = (α, ˜ β, c, ˜ ϵ˜)“靠近”,那么最上风也会靠近【61】。第四章事情的条件是构建一系列便于办理或近似的OT问题,但它们在边缘测度或正则化参数方面收敛到原始的OT问题。然后,我们利用近似问题的更便宜的办理方案来初始化原始、更困难的问题。针对涉及神经网络中Sinkhorn层的各种常见问题,提出了多种初始化器,特殊是:用于排序【21】的初始化器,聚类潜在嵌入(如自编码器中)利用的高斯和高斯稠浊初始化器【13, 19, 41】,以及适用于离散测度点数量n较大的情形的子样本初始化器。这些初始化器在各种任务中显示了显著的加速效果。
扩散Schrödinger桥。在本文的第三篇文章【7】、第五章中,先容了一种扩散模型的新型泛化,并构建了最优传输和扩散模型之间的联系。该事情的核心思想是,每个逆向扩散学习一个扩散过程,以最小化到前向过程的Kullback–Leibler散度;迭代这个韶光反转对应于迭代比例拟正当式(IPF)【38】,这是Sinkhorn算法【20, 81】在连续状态空间中的推广。IPF过程收敛到Schrödinger桥问题的解【74】,这也为高维、正则化的OT供应了近似解。与传统扩散模型演习方案不同,迭代韶光反转方法不须要前向加噪过程收敛到大略的先验分布,而是在交替的IPF步骤中通过学习新的前向过程来逼迫收敛。这意味着相应的逆过程可以比常规扩散模型方法显著更短,从而加快仿真速率。鉴于不再须要前向过程收敛,逆过程不再局限于高斯先验,而是可以从另一个干系数据集初始化逆过程——导致数据到数据的仿真。例如,这可以用于图像到图像的规复任务或更一样平常的其他条件天生建模任务。事实上,本文的第三篇文章是首批(如果不是第一批)先容图像到图像扩散模型的事情之一;首批扩散模型加速技能之一;以及首个具有非线性前向过程的扩散模型。只管性能已被其他方法超越,但它仍旧是其他自那时以来利用的方法的补充。
黎曼扩散Schrödinger桥。许多现实天下的数据存在于黎曼流形上。这包括地球和气候数据【53, 64】;蛋白质或分子建模【76】和机器人技能【34, 75】。通过结合这种几何先验知识,有望得到更高效的天生概率模型,常日须要更少的参数进行演习,并更随意马虎采样。
本文的下一篇文章【93】详细先容于第六章,扩展了黎曼设置下的扩散Schrödinger桥方法。黎曼流形上的扩散模型演习和采样与传统欧几里德扩散模型不同【23】。而不是像范例的欧几里德扩散模型那样进行线性扩散,须要在流形上进行布朗运动及其扩展。这种流形约束的扩散过程常日没有闭式解,须要进行仿真。可以利用测地随机游走在流形上采样扩散路径,这是Euler–Maruyama方法的黎曼对应。紧致流形上的布朗运动收敛到均匀分布,然后用于初始化逆向天生过程。在【23, 93】和第六章中,我们详细先容了如何为黎曼流形布朗运动实行韶光反转。
在【93】和第六章中引入了黎曼流形上的迭代韶光反转和黎曼扩散Schrödinger桥。此过程包括在流形上进行勾引扩散的韶光反转,这许可数据到数据的天生,并使从业者能够将天生模型条件设定为靠近已知数据集。此外,黎曼扩散Schrödinger桥使得黎曼扩散模型的加速成为可能,个中许多用于欧几里德空间的加速方法不再适用。