編集者 | Radish Skin
過去数世紀にわたり、研究者はさまざまな知識分野を結び付ける方法を模索してきました。人工知能の出現により、私たちは分野間 (例: 力学と生物学)、または異なる分野 (例: 故障力学と芸術) 間の関係を探索する機会を得ることができました。
この目標を達成するために、MIT の研究者はMIT の原子分子力学研究所 (LAMM) は、微調整された大規模言語モデル (LLM) を使用して、マルチスケール材料の破損に関する関連知識のサブセットを取得します。
この方法の手順は、まず一般的なLLM を使用して、元のソースから質問と回答のペアを抽出し、LLM を微調整します。この微調整された MechGPT LLM 基本モデルを使用して一連の計算実験が行われ、知識の検索、さまざまな言語タスク、仮説生成、さまざまなドメイン間の知識の接続における機能を調査しました。
このモデルには、次のような一定の機能があります。トレーニングから知識を思い出すことはできませんが、研究者らは、LLM はオントロジー知識グラフを通じて構造的洞察を抽出するのにより意味があることを発見しました。これらの解釈可能なグラフ構造は、解釈的な洞察、新しい研究課題のフレームワーク、検索強化生成にも使用できる知識の視覚的表現を提供します。
この研究のタイトルは「MechGPT、スケール、専門分野、モダリティを越えて知識を結び付ける力学および材料モデリングのための言語ベースの戦略」で、2023 年 10 月 19 日に公開されました。 ##応用力学のレビュー"。
物理的、生物学的、形而上学的な概念のモデル化は、多くの分野の研究者の焦点となっています。初期の科学者や技術者は、科学から哲学、物理学から数学、芸術に至るまでの分野に深く根ざしていたことがよくありましたが(例:ガリレオ・ガリレイ、レオナルド・ダ・ヴィンチ、ヨハン・ヴォルフガング・フォン・ゲーテ)、科学の発展とともに専門分野が細分化されてきました。今日は優勢。その理由の 1 つは、分野を超えて大量の知識が蓄積されており、人間が研究と実践に多大なエネルギーを費やしていることが挙げられます。 現在、大規模言語モデル (LLM) の出現により、科学研究のパラダイムに挑戦が生じています。人工知能/機械学習に基づいた新しいモデリング戦略をもたらすだけでなく、領域を超えて知識、アイデア、概念を結び付ける機会も提供します。これらのモデルは、層状材料の解析と設計、および力学における他の多くのアプリケーションのための従来のマルチスケール モデリングを補完できます。#図: 概略ワークフロー。 (出典: 論文)
ここで、LAMM 研究者は、力学および材料の研究開発で最近提案された LLM の使用を基礎にしており、Llama-2 ベースの OpenOrca-Platypus2-13B に基づく一般的な LLM を開発しました。 -材料破損のモデリング、マルチスケール モデリング、および関連分野に焦点を当てた調整された MechGPT モデル。
OpenOrca-Platypus2-13B モデルが選択されたのは、推論、論理、数学/科学、その他の分野などの主要なタスクで優れたパフォーマンスを発揮し、豊富で適用可能な主題の知識と一般概念、および効率的なコンピューティング機能を提供するためです。
LLM は科学分野で強力なアプリケーションを提供します。 LLM は、大量のデータと複雑なシステムを分析できることに加えて、力学や材料科学の分野で、機械的応力、温度、化学相互作用などのさまざまな条件下での材料の挙動をシミュレーションおよび予測するために使用されます。以前の研究で示されているように、分子動力学シミュレーションからの大規模なデータセットで LLM をトレーニングすることにより、研究者は新しい状況での材料の挙動を予測できるモデルを開発できるため、発見プロセスが加速され、実験的テストの必要性が減ります。
このようなモデルは、書籍や出版物などの科学文書の分析にも非常に効果的で、研究者が大量のデータから重要な情報や洞察を迅速に抽出できるようになります。これは、科学者がさまざまな概念やアイデア間の傾向、パターン、関係を特定し、さらなる研究のための新しい仮説やアイデアを生成するのに役立ちます。
以下の図をご覧ください。これは、MechGPT の構築に使用される自己回帰デコーダー トランスフォーマー アーキテクチャの概要です。 (出典: 論文)
ここでは、チームは後者の開発に焦点を当て、特に材料破損と関連するマルチスケール手法を対象とした、Transformer ベースの LLM ファミリの生成人工知能ツールである MechGPT の使用を検討しています。これらの戦略の可能性。
この研究で提案された戦略には、いくつかのステップが含まれています。 1 つ目は蒸留ステップです。このステップでは、研究者が LLM を使用して、生のデータ チャンク (1 つ以上の PDF ファイルなど) から抽出されたテキストから質問と回答のペアを生成します。次に、このデータを使用して、2 番目のステップでモデルを微調整します。この研究では、初期の MechGPT モデルも特別にトレーニングされ、材料破損の原子論的モデリングの分野における知識の検索、一般的な言語タスク、および仮説生成におけるその有用性が実証されました。
図:使用されたモデリング戦略の概要。 (出典: 論文)
この論文では、研究者が特定の言語モデリング戦略を採用してデータセットを生成し、ソースから知識を抽出し、新しいメカニズムとマテリアル データセットを活用してモデルをトレーニングする、包括的なモデリング戦略を紹介します。研究者らは、パラメータサイズが130億から700億の範囲で、コンテキストの長さが10,000トークンを超えるMechGPTの3つのバージョンを分析および議論し、一般論に続いて、研究者らはモデルを適用し、LLMの使用を含むさまざまな設定でそのパフォーマンスをテストしたオントロジー グラフの生成と、複数の分野にわたる複雑なトピックに関する洞察の開発、および複数の LLM が協力または相互に作用するエージェント モデリングのために、トピック領域または質問への回答に対するより深い洞察を生成する方法で対話します。
グラフ: 超音速破壊とタンパク質のアンフォールディング機構に関連した超弾性を関連付けるオントロジー知識グラフ表現の開発。 (出典: 論文)
同時に、チームはさらに、さまざまな抽象化レベルでの言語モデルと多粒子システムの間の概念的な比較を提供し、新しいフレームワークが普遍的な関係を抽出するものとしてどのようにみなされるかを説明しています。複雑なシステムを支配するメソッド。
書き直された内容: 上の画像は、LLM と複数粒子シミュレーションの間の概念的な類似性を示しています。 (出典: 論文)
全体として、この研究で発表された研究は、科学研究を進歩させ、特定の応用分野における複雑な問題を解決するのに役立つ、より強力で一般的な人工知能モデルの開発に貢献し、 -モデルのパフォーマンスの詳細な評価。すべてのモデルと同様に、それらは慎重に検証される必要があり、その有用性は、尋ねられる質問のコンテキスト、その長所と短所、および科学者が科学と工学を進歩させるのに役立つ広範なツールに依存します。
さらに、人工知能ツールは、科学的調査のツールとして、私たちの周囲の世界を理解し、モデル化し、設計するためのツールの集合として見なされなければなりません。人工知能ツールが急速に発展するにつれて、科学的文脈でのその応用は新たな機会をもたらし始めたばかりです。
論文リンク:
https://arxiv.org/ftp/arxiv/papers/ 2310/2310.10445.pdf関連レポート:
https://twitter.com/llama_index/status/1723379654550245719以上が学際的な理解とマルチスケールモデリングが可能な MIT LAMM が、微調整された大規模言語モデル MechGPT をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。