神経象徴回帰: データから科学を抽出する-AI-php.cn

神経象徴回帰: データから科学を抽出する

訳者|李瑞

校閲者|孫樹娟

宇宙は騒々しく混沌としており、十分に複雑です予測を困難にするため。人間の知性と直観は、周囲の世界のいくつかの活動の基本的な理解に貢献しており、個人や小グループの限られた視点から、巨視的な空間および時間スケールでの個々の出来事についての基本的な理解を得るには十分です。

人類の先史時代や古代における自然哲学者は、ほとんどが常識的な合理化と推測テストに限定されていました。これらの方法には大きな制限があり、特に大規模すぎるものや複雑なものの場合には、迷信的または魔術的な思考が蔓延する原因となります。

これは、推測と確認（現代の科学的手法の基礎である）を軽視するものではなく、調査し理解する人間の能力の変化は、物理現象を数学的に抽出したいという欲求とツールによって引き起こされるということを理解するためです。表現原因。

これは、古代にも分析的還元主義の痕跡が残っていますが、ニュートンや他の科学者が主導した啓蒙主義以降に特に顕著でした。観察から数学の方程式 (およびそれらの方程式から得られる予測) に移行する能力は、科学の探求と進歩に不可欠です。

人間の科学者が入力と出力の間の関数関係を数式の形で学ぼうとするのと同じように、深層学習も基本的には入出力の観察に関連する変換を学習することです。

もちろん、違いは、ディープニューラルネットワークによって学習される入出力関係 (普遍近似定理の結果) が、主に重み、バイアス、およびそれらの数値パラメーターの解釈できない「ブラックボックス」で構成されていることです。接続されたノード。

普遍近似定理では、非常に緩和された基準を満たすニューラルネットワークは、適切に動作する関数に非常に近づくことができるはずであると述べています。実際には、ニューラルネットワークは、単純かつ正確な基礎となる方程式から生じる入出力関係を表す、脆弱で漏れやすい抽象概念です。

不確実性を予測するためのモデル (またはモデルのアンサンブル) のトレーニングに特別な注意を払わない限り、ニューラルネットワークは、トレーニングされた分布の外で予測を行う場合、パフォーマンスが非常に低下する傾向があります。

ディープラーニングの予測は、反証可能な予測、つまり科学的手法の基礎を形成する独創的な仮定を行うことも苦手です。したがって、ディープラーニングはデータの適合に優れていることが実証されたツールではありますが、その有用性は、人類の最も重要な追求の 1 つである、科学的手法を通じて私たちの周囲の宇宙を探索することにおいて限定されています。

人間の科学的取り組みにおいてディープラーニングにはさまざまな欠点がありますが、科学分野におけるディープラーニングの巨大な適合能力と数多くの成功は無視できません。

現代科学は大量のデータを生成しますが、その出力は個人 (またはチーム) が観察することはできず、ノイズの多いデータから明確な数式に直観的に変換することもできません。

これを行うには、データを方程式に変換する自動または半自動の方法であるシンボリック回帰を利用します。

現在のゴールドスタンダード: 進化的手法

最新の深層学習を記号回帰に適用するという興味深い最近の研究に入る前に、まずデータセットを方程式に変換する進化を理解することが重要です。メソッドの現在の状態。最も一般的に言及されるシンボリック回帰パッケージは、遺伝的アルゴリズムに基づく Eureqa です。

Eureqa はもともとコーネル大学の Hod Lipson のチームによって研究プロジェクトとして開発され、Nutonian から独自のソフトウェアとして提供されましたが、Nutonian は後に DataRobot Corporation に買収されました。 Eureqa は、Eureqa の共著者で Datarobot の CTO である Michael Schmidt の主導のもと、Datarobot プラットフォームに統合されました。

Eureqa および類似のシンボリック回帰ツールは、遺伝的アルゴリズムを使用して、精度と簡素化のために方程式系を同時に最適化します。

TuringBot は、シミュレーテッドアニーリングに基づく代替シンボリック回帰パッケージです。模擬焼鈍は、金属の物理的特性を変更するために使用される冶金焼鈍に似た最適化アルゴリズムです。

シミュレートされたアニーリングでは、最適化問題に対する候補解を選択するときに「温度」が低下します。温度が高いほど、より劣った解が受け入れられることに対応し、早期探索を促進するために使用され、全体的な最適解の検索が可能になります。 . メリットがあり、局所最適から脱出するためのエネルギーを提供します。

TuringBot は、シミュレーテッドアニーリングに基づくもう 1 つのシンボリック回帰パッケージです。模擬焼鈍は、金属の物理的特性を変更するために使用される冶金焼鈍に似た最適化アルゴリズムです。

TuringBot は無料バージョンですが、データセットのサイズと複雑さに大きな制限があり、コードの変更は許可されていません。

商用シンボリック回帰ソフトウェア (特に Eureqa) は、シンボリック回帰用の新しいツールを開発する際の比較のための重要なベースラインを提供しますが、クローズドソースプログラムの役割は限られています。

PySR と呼ばれるもう 1 つのオープンソースの代替案は、Apache 2.0 ライセンスの下でリリースされており、プリンストン大学博士課程の学生 Miles Cranmer が主導しており、精度と倹約 (単純さ) という最適化目標を Eureqa と共有し、使用される組み合わせ方法を共有しています。チューリングボットによる。

PySR は、シンボリック回帰を実行するための無料で自由に変更可能なソフトウェアライブラリを提供することに加えて、ソフトウェアの観点からも興味深いものです。Python で書かれていますが、高速バックエンドとして Julia プログラミング言語を使用します。

一般に、遺伝的アルゴリズムがシンボリック回帰の最新技術であると考えられていますが、ここ数年、新しいシンボリック回帰戦略が爆発的に増加しています。

これらの新しい開発の多くは、複数ステップのプロセスにおける関数近似コンポーネントとして、またはもともと自然言語処理用に開発された大規模な Transformer モデルに基づくエンドツーエンドの方法で、最新の深層学習モデルを活用しています。そしてその間の何か。

深層学習に基づく新しいシンボリック回帰ツールに加えて、確率的および統計的手法、特にベイズ統計的手法も復活しています。

最新のコンピューティング能力と組み合わせることで、新世代のシンボリック回帰ソフトウェアは、それ自体が興味深い研究であるだけでなく、大規模なデータセットや包括的な実験などの科学分野への実際の有用性と貢献も提供します。

ディープニューラルネットワークを関数近似器として使用したシンボリック回帰

1980 年代後半から 1990 年代前半に Cybenko と Hornik によって説明および研究された普遍近似定理により、少なくとも 1 つの近似定理が期待できます。隠れ層の非線形活性化を備えたニューラルネットワークは、適切に動作するあらゆる数学関数を近似できます。

実際には、より深いニューラルネットワークは、より複雑な問題に対してより優れたパフォーマンスを達成する傾向があります。ただし、原理的にはさまざまな関数を近似するには隠れ層が必要です。

物理学にヒントを得た AI ファインマンアルゴリズムは、より複雑なパズルの一部として普遍近似定理を使用します。

AI ファインマン (およびその後継 AI ファインマン 2.0) は、物理学者の Silviu-Marian Udrescu 氏と Max Tegmark 氏 (および数人の同僚) によって開発されました。 AI ファインマンは、滑らかさ、対称性、構成性など、多くの物理方程式に見られる機能的特性を利用します。

ニューラルネットワークは関数近似器として機能し、データセットで表される入出力変換ペアを学習し、同じ関数変換の下で合成データを生成することでこれらの特性の研究を容易にします。

AI ファインマンが問題を解くために使用する関数特性は、物理方程式では一般的ですが、考えられるすべての数学関数の空間に任意に適用することはできません。ただし、これらは依然として、現実世界に対応するさまざまな機能を探すのに合理的な仮定です。

前述の遺伝的アルゴリズムやシミュレーテッドアニーリング手法と同様に、AI ファインマンは新しいデータセットを最初から適合させます。一般化や事前トレーニングは必要なく、ディープニューラルネットワークは、より大規模で物理的に情報が豊富なシステムの調整された部分のみを形成します。

AI ファインマン記号回帰は、ファインマンの物理学の講義にある 100 の方程式 (またはパズル) を解読するという優れた仕事をしましたが、一般化が欠けていたため、新しいデータセット (新しい方程式に対応する) ごとに大規模な計算が必要でした。予算。

シンボリック回帰のための新しい一連の深層学習戦略は、もともと Vaswani らによって自然言語モデルとして導入され、非常に成功した Transformer モデルのファミリーを活用しています。これらの新しい方法は完璧ではありませんが、事前トレーニングを使用すると、推論中の計算時間を大幅に節約できます。

自然言語モデルに基づく第一世代のシンボリック回帰

注意ベースの非常に大規模な Transformer モデルが、コンピュータービジョン、オーディオ、強化学習、レコメンデーションシステムなどで広く使用されていることを考えると、 (自然言語処理における本来の役割であるテキストベースに加えて) 他の分野でもさまざまなタスクで大きな成功を収めているため、Transformer モデルが最終的には記号回帰にも適用されることは驚くべきことではありません。

シンボリックシーケンスに対する数値入出力ペアの領域では、慎重なエンジニアリングが必要ですが、数式のシーケンスベースの性質は、当然のことながら、Transformer メソッドに適しています。

重要なのは、Transformer を使用して数式を生成することで、自動生成された何百万もの方程式の構造と数値的意味についての事前トレーニングを活用できるようになったということです。

これは、スケールアップを通じてモデルを改善するための基礎も築きます。スケーリングはディープラーニングの主な利点の 1 つであり、モデルの規模が大きくなり、より多くのデータが追加されることで、過剰適合による古典的な統計学習の制限をはるかに超えてモデルのパフォーマンスが向上し続けます。

スケーリングは、NSRTS と呼ばれる Biggio らの論文「スケーラブルニューラルシンボリック回帰」で言及されている主な利点です。 NSRTS Transformer モデルは、専用のエンコーダーを使用して、データセットの各入出力ペアを潜在空間に変換します。エンコードされた潜在空間は、エンコーダーの入力サイズとは独立した固定サイズを持ちます。

NSRTS デコーダは、エンコードされた潜在空間とこれまでに生成されたシンボルを条件として、方程式を表すトークンのシーケンスを構築します。重要なのは、デコーダーは数値定数のプレースホルダーのみを出力しますが、それ以外の点では、事前トレーニングされた方程式データセットと同じ語彙を使用します。

NSRTS は PyTorch と PyTorch Lightning を使用し、寛容なオープンソース MIT ライセンスを持っています。

定数を含まない方程式 (方程式スケルトンと呼ばれる) を生成した後、NSRTS は勾配降下法を使用して定数を最適化します。このアプローチは、シーケンス生成の上に一般的な最適化アルゴリズムを重ねます。これは、Valipour らによって同時に開発された、いわゆる「SymbolicGPT」によって共有されます。

Valipour らは、NSRTS 法のようなアテンションベースのエンコーダを使用しませんでした。代わりに、スタンフォード点群モデル PointNet に基づくモデルを使用して、Transformer デコーダが方程式を生成するために使用する固定次元の特徴セットを生成します。 NSRT と同様、シンボリック GPT は BFGS を使用して、Transformer デコーダによって生成された方程式スケルトンの数値定数を見つけます。

自然言語モデルに基づく第 2 世代のシンボリック回帰

いくつかの最近の記事では、シンボリック回帰の一般化とスケーラビリティを実現するための自然言語処理 (NLP) トランスフォーマーの使用について説明していますが、上記のモデルはそうではありません。数値定数を推定しないため、真にエンドツーエンドです。

これは重大な欠陥である可能性があります。異なる周波数の 1000 個の正弦波基底を含む方程式を生成するモデルを想像してください。 BFGS を使用して各項の係数を最適化することは、おそらくほとんどの入力データセットに適していますが、実際にはフーリエ解析を実行するには時間がかかり、回りくどい方法にすぎません。

ちょうど 2022 年の春に、第 2 世代の Transformer ベースのシンボリック回帰モデルが Vastl らによって SymFormer で ArXiv にリリースされ、別のエンドツーエンドの Transformer が Kamienny らによってリリースされました。

これらのモデルと以前の Transformer ベースのシンボリック回帰モデルの重要な違いは、シンボリック数学的シーケンスだけでなく数値定数も予測することです。

SymFormer は、双頭の Transformer デコーダを使用して、エンドツーエンドのシンボル回帰を完了します。 1 つのヘッドは数学記号を生成し、2 つ目のヘッドは数値回帰のタスク、つまり方程式に現れる数値定数の推定を学習します。

Kamienny と Vastl のエンドツーエンドモデルは、数値推定の精度などの細部で異なりますが、両方のグループのソリューションは依然として、改良のための後続の最適化ステップに依存しています。

それでも、著者らによると、以前の方法よりも推論時間が短縮され、より正確な結果が生成され、より優れた方程式のスケルトンが生成され、最適化ステップと定数の推定の優れた開始点が提供されます。

シンボリック回帰の時代がやってくる

ほとんどの場合、シンボリック回帰は洗練された計算集約型の機械学習手法であり、過去 10 年間でその注目度ははるかに低くなりました。一般的な深層学習のことです。

これは、遺伝的手法または確率的手法の「使ったら失われる」というアプローチに部分的に起因しており、新しいデータセットごとに最初から開始する必要があり、ディープラーニングからシンボリック学習までの中間アプリケーションとは矛盾する特性です。回帰（AIファインマンなど）も同様です。

シンボリック回帰の統合コンポーネントとして Transformer を使用すると、最近のモデルで大規模な事前トレーニングを利用できるようになり、推論時のエネルギー、時間、計算ハードウェア要件が削減されます。

この傾向は、数値定数を推定し数学記号を予測できる新しいモデルによってさらに拡張され、より高速な推論とより高い精度を可能にします。

記号式を生成するタスクは、テスト可能な仮説を生成するために使用できますが、これは非常に人間的なタスクであり、科学の中心です。記号回帰の自動化手法は、過去 20 年間にわたって興味深い技術的進歩を続けてきましたが、本当の試練は、それらが実際の科学を行う研究者にとって役立つかどうかです。

シンボリック回帰は、技術的な実証を超えて、出版可能な科学的結果をますます生み出し始めています。ベイズ記号回帰アプローチにより、細胞分裂を予測するための新しい数学モデルが得られます。

別の研究チームは、スパース回帰モデルを使用して海洋乱流の合理的な方程式を生成し、改良されたマルチスケール気候モデルへの道を切り開きました。

グラフニューラルネットワークと記号回帰を Eureqa の遺伝的アルゴリズムと組み合わせたプロジェクトは、多体重力を記述する式を一般化し、従来のシミュレーターから暗黒物質の分布を記述する新しい方程式を導き出します。

シンボリック回帰アルゴリズムの今後の開発

シンボリック回帰は、科学者のツールボックスの強力なツールになりつつあります。 Transformer ベースの手法の一般化とスケーラビリティは依然としてホットなトピックであり、一般的な科学的実践にはまだ浸透していません。より多くの研究者がこのモデルを適応させ、改良することで、科学的発見がさらに前進することが期待されます。

これらのプロジェクトの多くはオープンソースライセンスの下で実施されているため、数年以内に影響を与えることが期待でき、その用途は Eureqa や TuringBot などのプロプライエタリソフトウェアよりも広範囲になる可能性があります。

シンボリック回帰は、多くの場合謎めいて解釈が難しい深層学習モデルの出力を自然に補完するものですが、数学的言語でより理解できる出力は、新しいテスト可能な仮説を生成し、直感的な飛躍を促進するのに役立ちます。

これらの特性と、最新世代のシンボリック回帰アルゴリズムの直接的な機能により、重要な発見の瞬間がより多くなる機会が提供されることが約束されています。

以上が神経象徴回帰: データから科学を抽出するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。