Neural ODE相关论文摘要翻译
阅读原文时间:2023年07月08日阅读:2

*****仅供个人学习记录*****

Neural Ordinary Differential Equations【2019】

论文地址:[1806.07366] Neural Ordinary Differential Equations (arxiv.org)

摘要:我们介绍了一个新的深度神经网络模型系列。我们不是指定一个离散的隐藏层序列,而是使用神经网络对隐藏状态的导数进行参数化。网络的输出是用一个黑盒微分方程解算器计算的。这些连续深度模型具有恒定的内存成本,使其评估策略适应每个输入,并且可以明确地以数字精度换取速度。我们在连续深度残差网络和连续时间潜变量模型中展示了这些特性。我们还构建了连续归一化流,一种可以通过最大似然进行训练的生成模型,不需要对数据维度进行分割或排序。对于训练,我们展示了如何通过任何ODE求解器进行可扩展的反向传播,而不接触其内部操作。这允许在更大的模型中对ODE进行端到端的训练。

Dissecting Neural ODEs【2021】

论文地址:[2002.08071] Dissecting Neural ODEs (arxiv.org)

摘要:连续深度学习架构最近重新出现了神经常微分方程(Neural ODEs)。这种无限深度的方法在理论上弥补了深度学习和动力系统之间的差距,提供了一个新的视角。然而,破译这些模型的内部工作仍然是一个开放的挑战,因为大多数应用将它们作为通用的黑盒子模块来应用。在这项工作中,我们 "打开了盒子",进一步发展了连续深度公式,目的是澄清几个设计选择对基本动态的影响。

Augmented Neural ODEs【2019】

论文地址:[1904.01681] Augmented Neural ODEs (arxiv.org)

摘要:我们表明,神经常微分方程(ODEs)学习的表征保留了输入空间的拓扑结构,并证明这意味着存在神经常微分方程无法表示的函数。为了解决这些限制,我们引入了增强的神经ODEs,它除了是更有表现力的模型外,在经验上也更稳定,概括性更好,计算成本也比神经ODEs低。

How to train your neural ODE: the world of Jacobian and kinetic regularization【2020】

论文地址:[2002.02798] How to train your neural ODE: the world of Jacobian and kinetic regularization (arxiv.org)

摘要:由于必须允许自适应数值ODE求解器将其步长细化到非常小的数值,因此在大数据集上训练神经ODE是不可行的。在实践中,这导致了相当于数百甚至数千层的动力学。在本文中,我们通过引入有理论基础的最优传输和稳定性正则化的组合来克服这一明显的困难,鼓励神经ODEs在所有能很好解决问题的动力学中选择更简单的动力学。更简单的动力学导致更快的收敛和更少的离散化,在不损失性能的情况下大大减少了壁时钟的时间。我们的方法允许我们训练基于神经ODE的生成模型,使其达到与非规则化动力学相同的性能,同时大大减少了训练时间。这使神经ODEs在大规模应用中更接近实际意义。

On Neural Differential Equations【2022】

论文地址:[2202.02435] On Neural Differential Equations (arxiv.org)

摘要:动态系统和深度学习的结合已经成为一个备受关注的话题。特别是,神经微分方程(NDEs)表明,神经网络和微分方程是一个硬币的两面。传统的参数化微分方程是一个特例。许多流行的神经网络架构,如残差网络和递归网络,都是离散化的。

  无差异化适合处理生成问题、动态系统和时间序列(特别是在物理学、金融学……),因此对现代机器学习和传统数学建模都有兴趣。无损检测提供了高容量的函数近似,对模型空间的强优先权,处理不规则数据的能力,内存效率,以及双方的大量可用理论。

  这篇博士论文对该领域进行了深入调查。
  主题包括:神经常微分方程(如用于物理系统的混合神经/机械建模);神经控制微分方程(如用于学习不规则时间序列的函数);以及神经随机微分方程(如产生能够代表复杂随机动态的生成模型,或从复杂的高维分布中采样)。
  进一步的主题包括:无损检测的数值方法(如可逆微分方程求解器,通过微分方程的反向传播,布朗重建);动态系统的符号回归(如通过正则化进化);以及深度隐含模型(如深度平衡模型,可微调优化)。
  我们预计,任何对深度学习与动力系统的结合感兴趣的人都会对这篇论文感兴趣,并希望它能为当前的技术状况提供有用的参考。

Beyond Finite Layer Neural Networks: Bridging Deep Architectures and Numerical Differential Equations【2020】

论文地址:[1710.10121v2] Beyond Finite Layer Neural Networks: Bridging Deep Architectures and Numerical Differential Equations (arxiv.org)

摘要:在我们的工作中,我们将深度神经网络设计与数值微分方程联系起来。我们表明,许多有效的网络,如ResNet、PolyNet、FractalNet和RevNet,可以被解释为微分方程的不同数值离散化。这一发现为我们带来了设计有效深度架构的全新视角。我们可以利用数值分析方面的丰富知识来指导我们设计新的、可能更有效的深度网络。作为一个例子,我们提出了一个线性多步骤架构(LM-架构),其灵感来自解决常微分方程的线性多步骤方法。LM-架构是一个有效的结构,可以用于任何类似ResNet的网络。特别是,我们证明了LM-ResNet和LM-ResNeXt(即分别在ResNet和ResNeXt上应用LM架构得到的网络)在CIFAR和ImageNet上,在可训练参数数量相当的情况下,可以达到明显高于ResNet和ResNeXt的精度。特别是在CIFAR和ImageNet上,LM-ResNet/LM-ResNeXt可以显著压缩(>50\%)原始网络,同时保持相似的性能。这可以用数值分析中的修正方程概念进行数学解释。最后但同样重要的是,我们还在训练过程中建立了随机控制和噪声注入之间的联系,这有助于提高网络的通用性。此外,通过将随机训练策略与随机动态系统联系起来,我们可以很容易地将随机训练应用于具有LM结构的网络。例如,我们在LM-ResNet中引入了随机深度,并在CIFAR10上取得了比原始LM-ResNet更明显的改进。

Latent ODEs for Irregularly-Sampled Time Series【2019】

论文地址:[1907.03907] Latent ODEs for Irregularly-Sampled Time Series (arxiv.org)

摘要:具有非均匀间隔的时间序列出现在许多应用中,并且很难使用标准的递归神经网络(RNN)来建模。我们将RNN概括为具有由常微分方程(ODE)定义的连续时间的隐性动力学,这种模型我们称之为ODE-RNNs。此外,我们使用ODE-RNNs来取代最近提出的Latent ODE模型的识别网络。ODE-RNNs和Latent ODEs都可以自然地处理观察之间的任意时间间隔,并且可以明确地使用泊松过程对观察时间的概率进行建模。我们通过实验表明,这些基于ODE的模型在不规则采样数据上的表现优于基于RNN的同类模型。

Learning Differential Equations that are Easy to Solve【2020】

论文地址:[2007.04504] Learning Differential Equations that are Easy to Solve (arxiv.org)

摘要:随着训练的进行,以神经网络为参数的微分方程在数值上的求解变得昂贵。我们提出了一个补救措施,鼓励学习的动力学更容易解决。具体来说,我们为标准数值求解器的时间成本引入了一个可微调的替代物,使用解轨迹的高阶导数。这些导数可以通过泰勒模式的自动微分进行有效计算。优化这个额外的目标,将模型性能与解决所学动力学的时间成本进行交易。我们通过在监督分类、密度估计和时间序列建模任务中训练速度大大加快,同时几乎同样准确的模型来证明我们的方法。

================================================================================================================================================================================================================================================================================================================

Automatic differentiation in machine learning: a survey【2018】

论文地址:[1502.05767v4] Automatic differentiation in machine learning: a survey (arxiv.org)

摘要:导数,主要是梯度和 Hessians 的形式,在机器学习中无处不在。自动微分 (AD),也称为算法微分或简称为“autodiff”,是一组与反向传播类似但比反向传播更通用的技术,用于有效和准确地评估以计算机程序表示的数值函数的导数。 AD 是一个小型但成熟的领域,其应用领域包括计算流体动力学、大气科学和工程设计优化。直到最近,机器学习和 AD 领域在很大程度上还没有意识到彼此,在某些情况下,它们已经独立地发现了彼此的结果。尽管具有相关性,但机器学习工具箱中仍然缺少通用 AD,随着它以“动态计算图”和“可微编程”的名义不断被采用,这种情况正在慢慢改变。我们调查了 AD 和机器学习的交叉点,涵盖了与 AD 直接相关的应用,并解决了主要的实现技术。通过精确定义主要的微分技术及其相互关系,我们的目标是使术语“autodiff”、“自动微分”和“符号微分”的用法更加清晰,因为这些术语在机器学习环境中越来越多地出现。

Reversible Architectures for Arbitrarily Deep Residual Neural Networks【2017】

论文地址:[1709.03698] Reversible Architectures for Arbitrarily Deep Residual Neural Networks (arxiv.org)

摘要:最近,深度残差网络已经成功地应用于许多计算机视觉和自然语言处理任务,以更深更广的架构推动了最先进的性能。在这项工作中,我们将深度残差网络解释为常微分方程(ODEs),这在数学和物理学中早已被研究,并取得了丰富的理论和经验成果。从这个解释出发,我们建立了一个关于深度神经网络的稳定性和可逆性的理论框架,并推导出三种可逆的神经网络架构,在理论上可以任意深入。可逆性的特性允许一个内存效率高的实现,它不需要存储大多数隐藏层的激活。再加上我们架构的稳定性,这使得我们可以只用少量的计算资源来训练更深的网络。我们提供了理论分析和实证结果。实验结果证明了我们的架构在CIFAR-10、CIFAR-100和STL-10上对几个强大的基线的功效,其性能优于或接近最先进的水平。此外,我们表明我们的架构在使用较少的训练数据进行训练时产生了卓越的结果。

Fast derivatives of likelihood functionals for ODE based models using adjoint-state method【2017】

论文地址Fast derivatives of likelihood functionals for ODE based models using adjoint-state method | SpringerLinkhttps://arxiv.org/pdf/1606.04406v3.pdf】

摘要:我们考虑用常微分方程(ODEs)建模的时间序列数据,这是物理学、化学、生物学和一般科学中广泛使用的模型。这种动态系统的敏感性分析通常需要计算与模型参数有关的各种导数。我们采用邻接状态法(ASM)来有效地计算受ODE约束的似然函数的第一和第二导数,这些导数与基础ODE模型的参数有关。从本质上讲,梯度的计算成本(通过模型评估来衡量)与ODE模型参数的数量无关,而Hessian的计算成本与参数的数量成线性关系,而不是四次方的。即使参数空间是高维的,敏感性分析也是可行的。主要贡献是在统计学背景下,当离散数据与连续ODE模型耦合时,ASM的推导和严格的分析。此外,我们提出了一个高度优化的实施结果和它在一些问题上的基准。这些结果直接适用于(例如)基于ODE的统计模型的最大似然估计或贝叶斯抽样,允许对基础ODE模型的参数进行更快、更稳定的估计。

Normalizing Flows for Probabilistic Modeling and Inference【2019】

论文地址[1912.02762] Normalizing Flows for Probabilistic Modeling and Inference (arxiv.org)

摘要:归一化流为定义富有表现力的概率分布提供了一种通用机制,只需要指定一个(通常是简单的)基数分布和一系列的偏向变换。最近有很多关于归一化流的工作,从提高其表达能力到扩大其应用范围。我们认为这个领域现在已经成熟了,需要一个统一的视角。在这篇评论中,我们试图通过概率建模和推理的视角来描述流量,从而提供这样一个视角。我们特别强调流程设计的基本原则,并讨论了基础性的话题,如表达能力和计算权衡。我们还通过将它们与更普遍的概率转换联系起来,扩大了流量的概念框架。最后,我们总结了流在生成建模、近似推理和监督学习等任务中的应用。

Variational Inference with Normalizing Flows【2015】

论文地址[1505.05770] Variational Inference with Normalizing Flows (arxiv.org)

摘要:近似后验分布的选择是变分推理的核心问题之一。变分推理的大多数应用都采用了简单的后验近似族,以便进行有效的推理,重点是均值场或其他简单的结构化近似。这种限制对使用变分方法进行推理的质量有很大影响。我们引入了一种新的方法来指定灵活的、任意复杂的和可扩展的近似后验分布。我们的近似分布是通过归一化流构建的分布,即通过应用一连串的可逆变换将简单的初始密度转化为更复杂的密度,直到达到所需的复杂程度。我们用这种归一化流的观点来发展有限和无限小流的类别,并为构建丰富的后验近似的方法提供一个统一的观点。我们证明了具有更好地匹配真实后验的后验的理论优势,结合摊销变异方法的可扩展性,为变异推理的性能和适用性提供了明显的改进。

Deep Neural Networks Motivated by Partial Differential Equations【2018】

论文地址[1804.04272] Deep Neural Networks Motivated by Partial Differential Equations (arxiv.org)

摘要:偏微分方程(PDEs)对于许多物理现象的建模是不可或缺的,同时也常用于解决图像处理任务。在后一领域,基于PDE的方法将图像数据解释为多变量函数的离散化,将图像处理算法的输出解释为某些PDE的解决方案。在无限维度的环境中提出图像处理问题,为其分析和解决提供了强有力的工具。在过去的几十年里,通过PDE视角对经典图像处理问题的重新解释已经创造了多种著名的方法,使包括图像分割、去噪、注册和重建在内的广大领域的任务受益。

  在本文中,我们为一类深度卷积神经网络(CNN)建立了新的PDE解释,这些网络通常用于从语音、图像和视频数据中学习。我们的解释包括卷积残差神经网络(ResNet),它是图像分类等任务中最有前途的方法,在著名的基准挑战中提高了最先进的性能。尽管最近取得了成功,深度ResNets仍然面临着一些关键的挑战,这些挑战与他们的设计、巨大的计算成本和内存要求有关,并且对他们的推理缺乏了解。
  在成熟的PDE理论指导下,我们推导出三种新的ResNet架构,属于两个新的类别:抛物线和双曲线CNNs。我们展示了PDE理论如何为深度学习提供新的见解和算法,并通过数字实验证明了三种新的CNN架构的竞争力。

Black-box Variational Inference for Stochastic Differential Equations【2018】

论文地址[1802.03335] Black-box Variational Inference for Stochastic Differential Equations (arxiv.org)

摘要:由于潜伏扩散过程的存在,随机微分方程的参数推断具有挑战性。在对扩散进行Euler-Maruyama离散化时,我们使用变分推理来共同学习参数和扩散路径。我们使用参数后验的标准均值场变异近似,并引入一个循环神经网络来近似参数条件下的扩散路径的后验。这个神经网络学习如何提供高斯状态转换,这些状态转换以非常类似于有条件的扩散过程的方式在观测之间建立桥梁。由此产生的黑盒推理方法可以应用于任何具有轻度调整要求的SDE系统。我们在一个Lotka-Volterra系统和一个流行病模型上说明了该方法,在几个小时内产生准确的参数估计。

Optimization and uncertainty analysis of ODE models using second order adjoint sensitivity analysis【2018】

论文地址Optimization and uncertainty analysis of ODE models using second order adjoint sensitivity analysis | bioRxiv

摘要动机 生物过程的常微分方程(ODE)模型的参数估计方法可以利用目标函数的梯度和Hessians来实现收敛和计算效率。然而,已有的评估Hessian的方法的计算复杂性与状态变量的数量成线性关系,与参数的数量成二次关系。这限制了它们对低维问题的应用。

结果 我们介绍了用于计算Hessians的二阶邻接敏感性分析和用于轮廓似然计算的混合优化-积分方法。二阶邻接敏感性分析与参数和状态变量的数量呈线性关系。所提出的轮廓似然计算方法有效地利用了Hessians。我们在已发表的具有真实测量数据的生物模型上评估了我们的方法。我们的研究显示,与已有的方法相比,当使用邻接敏感性分析计算的Hessians时,优化的计算效率和稳健性得到了改善。混合计算方法比最好的竞争者快2倍以上。因此,所提出的方法和实施的算法可以改善大中型ODE模型的参数估计。
  可用性 二阶邻接敏感性分析的算法在Advance MATLAB Interface CVODES和IDAS(AMICI,https://github.com/ICB-DCM/AMICI/)中实现。混合轮廓似然计算的算法在参数估计工具箱(PESTO,https://github.com/ICB-DCM/PESTO/)中实现。这两个工具箱在BSD许可证下都是免费提供的。

Automatic differentiation in PyTorch【2017】

论文地址[PDF] Automatic differentiation in PyTorch | Semantic Scholar

摘要:在这篇文章中,我们描述了PyTorch的自动分化模块--一个旨在实现机器学习模型快速研究的库。它建立在一些项目的基础上,最主要的是Lua Torch、Chainer和HIPS Autograd[4],并提供了一个高性能的环境,可以方便地对不同设备(CPU和GPU)上执行的模型进行自动区分。为了使原型设计更容易,PyTorch没有遵循许多其他深度学习框架中使用的符号方法,而是专注于纯粹的命令式程序的区分,重点是可扩展性和低开销。请注意,这份预印本是即将发表的涵盖PyTorch所有功能的论文中某些章节的草稿。

Ueber die numerische Auflösung von Differentialgleichungen【关于微分方程的数值解:1895】

论文地址:Ueber die numerische Auflösung von Differentialgleichungen | SpringerLink

摘要:

手机扫一扫

移动阅读更方便

阿里云服务器
腾讯云服务器
七牛云服务器

你可能感兴趣的文章