新的「AI科學家」結合理論和數據來發現科學方程-人工智慧-PHP中文網

科學家們的目標是發現能夠準確描述實驗數據的有意義的公式。自然現象的數學模型可以根據領域知識手動創建，或者也可以使用機器學習演算法從大型資料集自動建立。學界已經研究了表示相關先驗知識與相關函數模型合併的問題，認為尋找與一般邏輯公理先驗知識一致的模型，是一個懸而未決的問題。

IBM 研究團隊以及三星AI 團隊的研究人員開發了一種方法“AI-Descartes”，透過將邏輯推理與符號回歸相結合，能夠從公理知識和實驗數據中對自然現像模型進行原則性推導。

研究以「Combining data and theory for derivable scientific discovery with AI-Descartes」為題，於2023 年4 月12 日發佈在《Nature Communications》。

新的「AI科學家」結合理論和數據來發現科學方程

人工神經網路 (NN) 和統計迴歸通常用於自動發現資料中的模式和關係。 NN 傳回「黑盒」模型，其中底層函數通常僅用於預測。在標準迴歸中，函數形式是預先決定的，因此模型發現相當於參數擬合。在符號迴歸（SR）中，函數形式不是預先決定的，而是由給定清單中的運算子（例如，、-、× 和 ÷）組成，並根據資料計算得出。

SR 模型通常比 NN 模型更「可解釋」，並且需要的資料更少。因此，為了從實驗數據中以符號形式發現自然法則，SR 可能比 NN 或固定形式回歸更有效；NN 與 SR 的整合一直是神經符號 AI 近期研究的主題。 SR 的一個主要挑戰是從許多適合數據的模型中識別出具有科學意義的模型。科學家將有意義的函數定義為平衡準確性和複雜性的函數。然而，對於給定的資料集存在許多這樣的表達式，並且並非所有表達式都與已知的背景理論一致。

另一種方法是從已知的背景理論開始，但目前還沒有實用的推理工具可以從一組已知的公理中產生與實驗數據一致的定理。自動定理證明器（ATP）是使用最廣泛的推理工具，它可以為給定邏輯理論證明猜想。計算複雜性是 ATP 面臨的主要挑戰；對於某些類型的邏輯，證明猜想是不可判定的。

此外，當涉及算術和微積分運算子時，使用形式推理工具從邏輯理論推導模型尤其困難。機器學習技術已被用於提高 ATP 的性能，例如，透過使用強化學習來指導搜尋過程。

可推導的模型不僅要在經驗上準確，而且它們應該是可預測的、有洞察力的。

IBM 研究團隊以及三星 AI 團隊的研究人員，試圖透過將一種新穎的基於數學最佳化的 SR 方法與推理系統相結合，來獲得此類模型。這產生了一個端到端的發現系統「AI-Descartes」，它透過 SR 從資料中提取公式，然後從一組公理中提供公式的可推導性的證明，或提供不一致的證明。當模型可證明不可推導時，研究人員提出了表明公式與可推導公式的接近程度的新度量，並且使用他們的推理系統計算這些度量的值。

新的「AI科學家」結合理論和數據來發現科學方程

圖示：系統概述。（來源：論文）

在早期将机器学习与推理相结合的工作中，科学家使用基于逻辑的描述来约束生成图像的 GAN 神经架构的输出。也有团队结合机器学习工具和推理引擎，来搜索满足预先指定约束的函数形式。这是用新点扩充初始数据集，从而提高学习方法的效率和最终模型的准确性。也有团队还利用先验知识来创建额外的数据点。然而，这些研究仅考虑对要学习的函数形式的约束，并没有包含一般背景理论公理（描述现象中涉及的其他定律和未测量变量的逻辑约束）。

该论文的第一作者，三星 AI 的研究科学家 Cristina Cornelio 表示，AI-Descartes 提供了一些优于其他系统的优势，但它最显著的特点是它的逻辑推理能力。如果有多个候选方程可以很好地拟合数据，系统会识别哪些方程最适合背景科学理论。推理能力也使该系统有别于 ChatGPT 等「生成式 AI」程序，后者的大型语言模型逻辑能力有限，有时还会搞乱基础数学。

「在我们的工作中，我们正在将第一性原理方法与机器学习时代更常见的数据驱动方法相结合，这种方法几个世纪以来一直被科学家用来从现有背景理论中推导出新公式。」Cornelio 说，「这种结合使我们能够利用这两种方法，并为广泛的应用创建更准确和有意义的模型。」

AI-Descartes 这个名字是对 17 世纪数学家和哲学家 René Descartes 的致敬，他认为自然世界可以用一些基本的物理定律来描述，逻辑推论在科学发现中发挥了关键作用。

新的「AI科學家」結合理論和數據來發現科學方程

图示：对系统实施的科学方法的解释。（来源：论文）

该团队的研究人员已经证明，将逻辑推理与符号回归相结合，在获得有意义的物理现象符号模型方面有重要价值；因为它们与背景理论一致，并且在明显大于实验数据的领域中具有很好的概括性。回归和推理的综合产生了比单独通过 SR 或逻辑推理更好的模型。

单个系统组件的改进或替换以及新模块的引入，例如溯因推理或实验设计将扩展整个系统的功能。推理和回归的更深入集成可以帮助合成数据驱动和基于第一性原理的模型，并导致科学发现过程的革命。发现与先验知识一致的模型将加速科学发现，并超越现有的发现范式。

该团队使用模型对开普勒行星运动第三定律、爱因斯坦相对论时间膨胀定律和朗缪尔吸附理论进行了推导；研究表明，当使用逻辑推理来区分在数据上具有相似误差的候选公式时，模型可以从少量数据点中发现支配规律。

新的「AI科學家」結合理論和數據來發現科學方程

图示：相关集合及其距离的可视化。（来源：论文）

「在这项工作中，我们需要人类专家以正式的、计算机可读的方式写下背景理论的公理是什么，如果人类遗漏了任何或弄错了其中的任何一个，系统将无法工作。」UMBC 化学、生物化学和环境工程助理教授 Tyler Josephson 说，「在未来，我们也希望将这部分工作自动化，这样我们就可以探索更多的科学和工程领域。」

最终，该团队希望他们的 AI-Descartes 能够像真人科学家一样激发一种富有成效的新科学方法。「我们工作中最令人兴奋的方面之一是更够在科学研究方面获得重大进展的潜力。」Cornelio 说。

论文链接：https://www.nature.com/articles/s41467-023-37236-y

相關報導：https://techxplore.com/news/2023-04-ai-scientist-combines-theory-scientific.html

以上是新的「AI科學家」結合理論和數據來發現科學方程的詳細內容。更多資訊請關注PHP中文網其他相關文章！