伴随着人工智能的急速发展，以神经网路为代表的深度学习如同饥饿的猛兽，无论你喂多少的数据给它什么是物理，它都不嫌多。但在现实中，有好多数据存在着遗失、不完整。总之，尽管神经网路可以实现很高的精度，而且它们不能为我们总结底层的原理。莫非我们真的要扔掉无数学者总结出的知识，完全借助数据来加快发展吗？近来学者将数学知识嵌入机器学习，称为基于化学信息的机器学习什么是物理，可以以一种统一的方法无缝地整合数据和数学原理，也因而提高了机器学习的泛化性，使机器学习不再是只针对特定的某种问题有着挺好的疗效。来自北大学院朱军等学者发布了《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面论述PIML进展。tlS物理好资源网(原物理ok网)

数据驱动机器学习的最新进展早已彻底改变了计算机视觉、强化学习以及许多科学和工程领域。在许多现实世界和科学问题中，生成数据的系统是受数学定理支配的。近来的研究表明，通过结合化学先验和搜集到的数据，它为机器学习模型提供了潜在的用处，这促使机器学习和化学的交叉成为一个流行的范式。在本次综述中，我们提出了一种被称为化学信息机器学习(PIML)的学习范式，它致力构建一个模型，借助经验数据和可用的化学先验知识来提高三组涉及化学机制的任务的性能。我们从机器学习任务、物理先验的表示和融合数学先验的方式三个角度系统地回顾了基于数学的机器学习的最新发展。依据该领域目前的发展趋势，我们提出了几个重要的开放研究问题。我们觉得，将不同方式的数学先验编码到模型构架、优化器、推理算法和重要的领域特定应用(如逆向工程设计和机器人控制)中，在基于数学的机器学习领域中还远远没有得到充分的探求。我们相信这项研究将鼓励机器学习领域的研究人员积极参与到基于数学的机器学习的跨学科研究中来。tlS物理好资源网(原物理ok网)

1.概述tlS物理好资源网(原物理ok网)

近几六年来，随着计算机技术的发展，科学研究的范式发生了革命性的变化。传统上研究自然现象的方式是理论推论与实验验证相结合。随着估算技巧的发展，大量基于计算机数值模拟的方式被开发下来，以理解复杂的实际系统。现在，随着科学实验的手动化和批量化，科学家们积累了大量的观测数据。(数据驱动)机器学习的范式是理解和构建模型，借助经验数据来提升个别任务集的性能[1]。利用观测资料的学习，推动现代科学和工程技术的发展具有重要意义。tlS物理好资源网(原物理ok网)

作为近些年来机器学习明显进展的一部份，深度神经网路[2]在计算机视觉[3]、自然语言处理[4]、语音处理[5]、强化学习[6]等领域取得了里程碑式的突破。只要有足够的数据量，神经网路的灵活性和可伸缩性促使它可以很容易地被应用到许多不同的领域。深度神经网路强悍的具象能力也使得研究人员将其应用于化学系统建模中的科学问题。诸如，2[7]早已彻底改变了蛋白质结构预测的范式。同样，[8]构建了一个超小型的基于学习的天气预报系统，它赶超了传统的数值预报系统。Deep[9]提出了学习满足对称性的大尺度分子势的神经模型。tlS物理好资源网(原物理ok网)

尽管基于统计的机器学习模型在大数据的帮助下取得了惊人的进展。当将这种纯数据驱动的模型作为现实应用程序布署时，依然存在许多限制。诸如，预测可能不可靠，缺少可解释性，而且可能违背化学约束或常识。在计算机视觉中，深度神经网路一般无法辨识和理解图象或视频中的几何、形状、纹理和动态，外推能力有限。据悉，这种模型在训练分布[10]之外的表现也不令人满意，或容易遭到人类无法察觉的对抗噪音[11]的功击。在深度加强学习中，智能体可以通过试错来学习采取奖励更高的行动，但它并不认识到潜在的化学机制。在科学问题中，数学系统一般遭到一些领域特定的数学定理的约束，如微分等式。科学和工程领域搜集的数据常常是稀疏和有噪音的，由于现实世界的实验极其高昂，并且会受到环境或设备噪音的干扰。在常见的机器学习模型中，从稀疏和噪音数据小学习会造成严重的泛化错误。我们觉得，导致泛化错误的一个可能缘由是，目前仅依赖经验数据的统计学习模型没有意识到生成数据的内部化学机制。以人类为参照，人类从数据中理解简明数学定理的能力，可以帮助模型更高效、更稳健地学习、推理、与世界互动[12]，[13]。使机器学习模型还能感知数学定理或约束是机器学习领域一个开放而有吸引力的领域。tlS物理好资源网(原物理ok网)

依照问题的背景和化学约束的表示，研究人员尝试了许多方式将数学知识与机器学习结合上去。其实有大量复杂的工作，但我们可以提炼出一个简约的方式化的数学机器学习(PIML)概念。具体来说，基于数学的机器学习(PIML)的范式是构建一个模型，借助经验数据和可用的化学先验知识来提高三组涉及化学机制的任务的性能。在基于数学的机器学习中有几个基本问题。tlS物理好资源网(原物理ok网)

图1:基于数学的机器学习概述。化学先验由强到弱的表征可分为偏微分等式/偏微分等式/偏微分多项式、对称性和直观化学。它们可以被整合到机器学习模型的不同部份，如数据、模型构架、损失函数、优化器和推理算法。不同的方式用于不同类型的任务，如神经模拟，逆问题，CV/NLP和RL/控制。在化学信息机器学习领域，还有许多像化学信息优化器和化学信息推理技巧等有待探求的空间。tlS物理好资源网(原物理ok网)

首先，化学先验知识的定义和表征是哪些?在现有的工作中，我们可以将化学先验知识由强到弱分为PDE/ODE/SDE或代数约束、对称约束和直观化学约束几类。PDE/ODE/SDE在科学和工程中无处不在。它们还具有剖析物理表达式，因而很容易集成到机器学习模型中。诸如，PINN[15]使用PDE/ODE作为正则化项构造损失函数。神经alode[16]建立了一个新的神经结构，服从ode。对称约束和直观化学约束比偏微分等式/偏微分多项式的归纳误差更弱。对称约束的事例有平移、旋转和排列不变性或等残差。在设计新型网路体系结构时，它是一种广泛使用的归纳误差。诸如，[17]和图频域网路(GCN)[18]借助了点云数据和图数据的排列不变性。在她们以后还有成千上万的作品，我们就不详尽讨论了。数学学中的守恒定理也可以看作是对称约束。直观化学(或质朴化学)[19]是关于化学世界中物体的动力学和约束的可解释的数学常识。诸如，“一个固体不能穿过另一个固体”是描述物体连续性的直观化学约束。其实直观的化学约束是必不可少的和简单的，但怎样用物理的和系统的表示它们依然是目前具有挑战性的任务。tlS物理好资源网(原物理ok网)

什么是物理_物理是一门什么样的学科_物理是理科还是文科 tlS物理好资源网(原物理ok网)

第二，怎样将数学先验知识集成到机器学习模型中?训练一个机器学习模型包括几个基本组成部份，即数据、模型构架、损失函数、优化算法和推理。化学先验可以集成到一个或多个这种组件中。首先，对于具有对称约束或已知的偏微分等式/偏微分多项式的问题，可以对数据进行提高或综合。模型可以从这种生成的数据小学习。其次，模型的体系结构可能须要重新设计和评估。因为偏微分等式/偏微分多项式、对称性、守恒定理以及数据可能存在的周期性等数学规律，可能须要我们重新设计现有神经网路的结构，以满足实际问题的须要。第三，对于包含数学约束的训练模型，通常深度神经网路的损失函数和优化方式可能不是最优的。比如，当使用化学约束作为规则项损失时，每位损失函数的残差调整十分重要，常用的一阶优化器如Adam[20]不一定适宜这类模型的训练。tlS物理好资源网(原物理ok网)

第三，基于化学的机器学习的任务是哪些?从基于数学的机器学习的定义中，我们看见它也适用于纯统计机器学习的问题设置，如监督学习、无监督学习、半监督学习、强化学习等。但是，一个基本条件是，基于数学的机器学习问题必须涉及现实世界的化学过程，而我们必须对此有所了解。否则，它就退化为纯粹的统计学习。现有的工作可分为两类，即借助PIML解决科学问题和结合化学先验解决传统机器学习问题。在本文中，我们将分别讨论这种应用。第一堂课，人类把握了丰富而精确的数学定理来描述科学现象，一般用微分多项式来表示。目前，PIML领域在科学问题上有更多的进展，我们将在总结方式时重点介绍。具体来说，这种问题大致可以分为两类:数学系统的神经模拟(包括神经求解器和神经算符)和逆问题(如逆设计和科学发觉)。神经模拟的目的是借助数学知识和可用数据预测或预测系统的状态。诸如，求解PDE系统、预测分子性质和预测未来的天气都可以被视为正向问题。相反，逆问题的目标是找到一个满足数据或给定约束的化学系统，比如，从数据中科学发觉PDE,PDE系统的最优控制等。我们总结了近些年来提出的工作，按时间次序排列，如图2所示。在第二节课中，结合数学知识可能会明显帮助提升在许多计算机视觉和加强学习任务中的表现。在那些领域中，数学知识比精确的微分等式愈发模糊和无法表示。对称和直观的化学约束更常被用作提高机器学习模型的数学先验。tlS物理好资源网(原物理ok网)

图2:基于数学的机器学习的神经模拟(神经求解器和神经算符)和逆问题(逆设计)的重要方式的时序概述。tlS物理好资源网(原物理ok网)

因为这是一个有吸引力的研究领域，近来发表了一些相关的综述。[12]展示了基于数学的机器学习发展的整体图景。[21]是一个极其相关的研究，它关注的是PINN的算法和应用。[22]回顾了使用神经网路求解偏微分多项式的理论结果。一些研究关注化学信息机器学习的子领域或应用，如流体热学[23]、不确定性量化[24]、域分解[25]和动态系统[26]。[27]，[28]，[29]，[30]，[31]提供了更多的事例，以及软件教程。[32]，[33]，[34]，[35]专注于机器学习与数学知识的混和建模范式。在本次综述中，我们的主要贡献是从机器学习研究者的角度总结了基于数学的机器学习的发展。我们提供了关于算法、理论和应用的全面综述，并提出了基于数学的机器学习的未来挑战，这将极大地推动跨学科研究的社区。这篇综述文章组织如下。首先从物理的角度介绍了本文的基础和背景。之后，我们介绍了在科学问题和传统机器学习任务(如计算机视觉、强化学习)中相关的基于数学的机器学习技巧的发展。对于科学问题，我们重点介绍了具有代表性的方式，如PINN、以及目前各类改进的变体、理论、应用和未解决的挑战。之后分别总结了将数学先验知识融入计算机视觉和加强学习的方式。最后，我们描述了机器学习社区的一些具有代表性和挑战性的任务。tlS物理好资源网(原物理ok网)

2神经模拟tlS物理好资源网(原物理ok网)

用基于神经网路的方式来模拟PDEs/ODEs/SDEs()所控制的化学系统，是基于数学的机器学习领域中一个卓有成效和活跃的研究领域。在本节中，我们首先列举本文中使用的符号和背景知识。神经仿真主要包括两个部份，即使用神经网路求解单个偏微分等式/偏微分等式(称为神经求解器)和学习参数化偏微分等式/偏微分等式的解映射(称为神经算子)。之后，我们将详尽总结神经求解器和神经算符的问题、方法、理论和挑战。tlS物理好资源网(原物理ok网)

3.逆问题tlS物理好资源网(原物理ok网)

什么是物理_物理是理科还是文科_物理是一门什么样的学科 tlS物理好资源网(原物理ok网)

不仅使用神经网路作为模拟化学系统的代理模型外，还有一项重要而富于挑战性的任务:设计或优化化学系统的未知参数。这个问题也被称为逆问题(如逆设计)，广泛应用于工程[253]、[254]、[255]、设计[256]、[257]、流体动力学[258]等许多领域。在本节中，我们回顾了结合机器学习算法，非常是神经网路，来解决逆向设计问题的技巧。我们首先方式化了逆设计问题，并在3.1节中介绍了逆设计的基本概念、传统方式和挑战。考虑到反设计的求解一般涉及数学系统或过程的仿真、性能评估和组态表示等多个步骤，按照它们在反设计任务中的作用，给出了不同的求解方式。化学系统的神经代理建模早已得到了广泛的关注，相关研究将在第3.2节中介绍。针对反设计其他部份的方式将在第3.3节中介绍。最后，在第3.5节中，我们讨论了该领域的剩余挑战和未来的工作。tlS物理好资源网(原物理ok网)

4.推论tlS物理好资源网(原物理ok网)

在这篇综述中，我们从机器学习研究者的角度，对基于数学的机器学习领域进行了系统的综述和总结。首先，我们确定并介绍了基于数学的机器学习的通常概念。我们觉得存在几种类型的化学先验，即偏微分等式/偏微分等式/偏微分等式，对称约束和直观化学。它们可以嵌入到机器学习模型的不同部份，即数据、架构、损失函数、优化方式和推理算法。之后，我们详尽地介绍了这种问题的现有技巧、面临的挑战和未来的发展方向。现有的研究大多集中在借助神经网路求解或辨识受PDE/ODE控制的系统，即神经模拟和逆向设计。本文详尽总结了这种方式的研究进展。从方式论的角度来看，基于化学的机器学习问题有许多开放的挑战。tlS物理好资源网(原物理ok网)

专知方便查看tlS物理好资源网(原物理ok网)

方便下载，请关注专知公众号（点击上方红色专知关注）tlS物理好资源网(原物理ok网)

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登入专知，获取+AI(AI与军事、医药、公安等)主题干货知识资料！tlS物理好资源网(原物理ok网)

欢迎陌陌扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！tlS物理好资源网(原物理ok网)

点击“阅读原文”，了解使用专知，查看获取+AI主题知识资料tlS物理好资源网(原物理ok网)

当前位置首页 > 信息公告

基于物理信息的机器学习:问题、方法和应用

发表评论