著者 | Wang Haorui、ジョージア工科大学
編集者 | ScienceAI
最適化の目的が微分できない可能性があるため、最適化問題としての分子発見は、重大な計算上の課題を引き起こします。進化的アルゴリズム (EA) は、ランダムな突然変異とクロスオーバーを通じて化学空間を横断することにより、分子発見においてブラックボックスターゲットを最適化するために一般的に使用されますが、これにより広範囲かつ高価なターゲット評価が必要になります。
この研究では、ジョージア工科大学、トロント大学、コーネル大学の研究者が協力して、化学知識を備えた事前トレーニング済みの大規模言語モデル (LLM) を進化的最適化に統合する分子言語強化進化最適化 (MOLLEO) を提案しました。アルゴリズムでは、進化的アルゴリズムの分子最適化機能が大幅に向上しました。
「大規模言語モデルを使用した化学空間上の効率的な進化的探索」と題されたこの研究は、6 月 23 日にプレプリント プラットフォーム arXix で公開されました。
論文リンク: https://arxiv.org/abs/2406.16976
分子発見の巨大な計算上の課題
分子発見は、設計、合成、評価、および評価を含む複雑な反復プロセスです。改善は、医薬品設計、材料設計、エネルギーの改善、病気の問題などを含む、現実世界の幅広い用途に応用できます。このプロセスは多くの場合時間がかかり、手間がかかり、複雑な設計条件や分子特性の評価により、近似的な計算による評価でさえ多大なリソースを必要とし、多くの場合高価な評価 (湿式実験、バイオアッセイ、計算シミュレーションなど) が必要となります。
したがって、効率的な分子検索、予測、生成アルゴリズムの開発は、発見プロセスを加速するための化学分野の研究のホットスポットとなっています。特に、機械学習主導の手法は、有望な分子候補を迅速に特定して提案する上で重要な役割を果たしています。
問題の重要性により、分子最適化は大きな注目を集めており、20 を超える分子設計アルゴリズムが開発およびテストされています (その中でも、遺伝的アルゴリズムや強化学習などの組み合わせ最適化手法は、他の生成モデルに先駆けています)および継続的最適化アルゴリズム)、詳細については、Natureサブジャーナルの最近のレビュー記事を参照してください。最も効果的な手法の 1 つは進化的アルゴリズム (EA) です。このアルゴリズムの特徴は、勾配評価を必要としないため、分子探索におけるブラックボックス目的の最適化に非常に適しています。
ただし、これらのアルゴリズムの大きな欠点は、タスク固有の情報を利用せずに候補構造をランダムに生成するため、広範な目的関数の評価が必要になることです。属性の評価にはコストがかかるため、分子最適化では、最も期待される属性を持つ分子構造を見つけるだけでなく、目的関数の評価数を最小限に抑えます (これは検索効率の向上にも相当します)。
最近、LLM は、分子特性の予測、最適な分子の取得、化学実験の自動化、ターゲット特性を持つ分子の生成など、複数の化学関連タスクにおけるいくつかの基本的な機能を実証しました。 LLM は、幅広いタスクをカバーする大規模なテキスト コーパスでトレーニングされるため、一般的な言語理解能力と基本的な化学知識を実証し、化学発見タスクにとって興味深いツールとなります。
しかし、LLM ベースの手法の多くは、コンテキスト内学習とキュー エンジニアリングに依存しており、厳密な数値目標を持つ分子を設計する場合、LLM では正確な数値制約を満たすことや特定の数値目標を最適化することが困難になる可能性があるため、問題が発生する可能性があります。さらに、LLM ヒントのみに依存する方法では、物理的基盤が不十分な分子が生成されたり、化学構造にデコードできない無効な SMILES 文字列が生成されたりする可能性があります。
分子言語拡張進化的最適化
この研究では、生成された候補の品質を向上させ、最適化プロセスを加速するためにLLMをEAに統合する分子言語拡張進化的最適化(MOLLEO)を提案します。 MOLLEO は、遺伝子オペレーターとして LLM を利用し、交叉または突然変異を通じて新しい候補を生成します。分子生成のために LLM を EA フレームワークにどのように統合できるかを初めて示します。
この研究では、GPT-4、BioT5、MoleculeSTM という、異なる機能を持つ 3 つの言語モデルを検討しました。私たちは各 LLM をさまざまなクロスオーバーおよび突然変異手順に統合し、アブレーション研究を通じて設計の選択を実証します。
私たちは、単一目的最適化と多目的最適化を含む複数のブラックボックス最適化タスクの実験を通じて、MOLLEO の優れたパフォーマンスを証明しました。より困難なタンパク質-リガンドドッキングを含むすべてのタスクにおいて、MOLLEO はベースライン EA および他の 25 の強力なベースライン手法を上回ります。さらに、ZINC 250K データベース内の最良の JNK3 阻害剤分子をさらに最適化する MOLLEO の能力を実証します。
当社の MOLLEO フレームワークは、単純な進化アルゴリズムである Graph-GA アルゴリズムに基づいており、遺伝的操作に化学的認識 LLM を統合することでその機能を強化しています。
最初に問題ステートメントの概要を説明し、ブラックボックス最適化における高価な客観的評価を最小限に抑える必要性を強調します。 MOLLEO は、GPT-4、BioT5、MoleculeSTM などの LLM を利用して、ターゲットの説明に基づいて新しい候補分子を生成します。
具体的には、クロスオーバー ステップでは、2 つの親分子をランダムに組み合わせる代わりに、LLM を使用してターゲットの適応度関数を最大化する分子を生成します。突然変異ステップでは、オペレーターは、ターゲットの説明に従って、現在の集団の最も適したメンバーを突然変異させます。しかし、LLM が常に入力分子よりも高い適合度を持つ候補を生成するとは限らないことに気づき、構造類似性に基づいて編集された分子をフィルタリングするための選択圧力を構築しました。
実験結果
18のタスクについてMOLLEOを評価しました。タスクは PMO および TDC のベンチマークとデータベースから選択され、次のカテゴリに分類できます:
私たちの手法を評価するために、目標値と計算予算を考慮して PMO ベンチマーク手法に従い、上位 k の平均属性値の曲線下面積 (AUC top-k) と数値を報告します。ターゲット関数呼び出しの数。
比較ベンチマークとして、強化学習に基づく REINVENT、基本的な進化アルゴリズム Graph-GA、ガウス プロセス ベイズ最適化 GP BO など、PMO ベンチマークの上位モデルを使用しました。
図: 単一ターゲット タスクの上位 10 位の AUC。 (出典: 論文)
PMO の 12 タスクに対して単一目的の最適化実験を実施し、その結果を上の表に示します。各タスクの AUC トップ 10 スコアと各モデルの全体的なランキングを報告します。結果は、大規模言語モデル (LLM) を遺伝的演算子として使用すると、デフォルトの Graph-GA および他のすべてのベースライン モデルを超えてパフォーマンスを向上できることが示されています。
GPT-4 は 12 タスク中 9 タスクですべてのモデルを上回り、分子生成における一般的な大規模言語モデルとしての有効性と将来性を示しました。 BioT5 は、GPT-4 に近い合計スコアで、すべてのテスト モデルの中で 2 番目に良い結果を達成しました。これは、ドメイン知識に基づいてトレーニングおよび微調整された小規模モデルにも、MOLLEO での応用の見通しが良好であることを示しています。
MOLSTM は、分子の自然言語記述と分子の化学式に基づいて微調整された CLIP モデルに基づく小規模なモデルです。同じ自然言語記述の進化アルゴリズムで勾配降下法アルゴリズムを使用します。さまざまな新しい分子を生成し、そのパフォーマンスも他のベースライン手法を上回ります。
図: JNK3 は、反復数が増加するにつれて発生する集団適応度を阻害します。 (出典: 論文)
LLM を EA フレームワークに統合する効果を検証するために、JNK3 タスクの初期ランダム分子プールのスコア分布を示します。続いて、プール内のすべての分子に対して一連の編集を実行し、編集された分子の JNK3 スコア分布をプロットしました。
結果は、LLM によって編集された分布がすべて、より高いスコアに向かってわずかにシフトしていることを示しており、LLM が有用な変更を提供していることを示しています。ただし、全体的な目標スコアはまだ低いため、単一ステップの編集では不十分であり、ここでは進化的アルゴリズムを使用した反復的な最適化が必要です。
図: DRD3、EGFR、またはアデノシン A2A 受容体タンパク質とドッキングした場合の上位 10 分子の平均ドッキング スコア。 (出典: 論文)
PMO の 12 の単一目的最適化タスクに加えて、単一目的タスクよりも現実世界の分子生成シナリオに近い、より困難なタンパク質-リガンドドッキングタスクでも MOLLEO をテストしました。上の図は、MOLLEO と Graph-GA の上位 10 位の分子の平均ドッキング スコアとターゲット関数の呼び出し数をプロットしたものです。
結果は、3 つのタンパク質すべてにおいて、私たちの方法で生成された分子のドッキング スコアがほぼすべてベースライン モデルよりも優れており、収束速度が速いことを示しています。私たちが使用した 3 つの言語モデルの中で、BioT5 が最も優れたパフォーマンスを発揮しました。実際には、ドッキング スコアが向上し、収束が速くなると、分子のスクリーニングに必要なバイオアッセイの数が減り、プロセスのコストと時間の効率が向上します。
図: 多目的タスクの合計とハイパーボリューム分数。 (出典: 論文)
イラスト: 多目的タスクにおける Graph-GA と MOLLEO のパレート最適視覚化。 (出典: 論文)
複数目的の最適化では、すべての最適化目的のスコアの合計の AUC トップ 10 とパレート最適セットのハイパーボリュームという 2 つの指標を考慮します。 3 つのタスクに関する多目的最適化の結果を示します。タスク 1 と 2 は創薬の目標に触発されており、分子の QED の最大化、合成アクセシビリティ (SA) スコアの最小化 (合成が容易になることを意味する)、および JNK3 (タスク 1) または GSK3β への寄与の最大化という 3 つの目標を同時に最適化することを目的としています。 (タスク 2) バインディング スコア。タスク 3 は、QED および JNK3 結合スコアの最大化、GSK3β 結合スコア、DRD2 結合スコア、および SA スコアの最小化という 5 つの目的を同時に最適化する必要があるため、より困難です。
MOLLEO (GPT-4) は、3 つのタスクすべてにわたって、ハイパーボリュームと合計の両方で、ベースラインの Graph-GA よりも一貫して優れていることがわかりました。この図では、タスク 1 とタスク 2 の手法とグラフ GA のパレート最適集合 (目的空間内) を視覚化しています。複数のターゲットが導入されると、オープンソース言語モデルのパフォーマンスが低下します。このパフォーマンスの低下は、大量の情報密度の高いコンテキストをキャプチャできないことが原因である可能性があると推測しています。
イラスト: ZINC 250K の最高の分子を使用して MOLLEO を初期化します。 (出典: 論文)
進化的アルゴリズムの最終目標は、初期分子プールの特性を改善し、新しい分子を発見することです。新しい分子を探索する MOLLEO の能力を調べるために、分子プールを最適な状態で初期化します。 ZINC 250K の分子を解析し、MOLLEO と Graph-GA を使用して最適化します。 JNK3 タスクの実験結果は、私たちのアルゴリズムがベースライン モデル Graph-GA を常に上回り、既存のデータセットで見つかった最良の分子を改善できることを示しています。
さらに、BioT5 のトレーニング セットは ZINC20 データベース (14 億の化合物を含む) であり、MoleculeSTM のトレーニング セットは PubChem データベース (約 250,000 分子) であることにも気付きました。 JNK3 タスクの各モデルによって生成された最終分子が、対応するデータセットに出現するかどうかを確認しました。生成された分子はデータセット内の分子と重複していないことがわかりました。これは、モデルがトレーニング セットには存在しなかった新しい分子を生成できることを示しています。
創薬、材料、生体分子の設計に応用可能
分子の発見と設計は数多くの実用的な応用が可能な豊富な分野であり、その多くは現在の研究の範囲を超えていますが、それでも私たちが提案するフレームワークに関連しています。 MOLLEO は、LLM と EA アルゴリズムを組み合わせて、純粋なテキストを通じて柔軟なアルゴリズム フレームワークを提供し、将来的には、創薬、高価なコンピューター シミュレーション、材料や大きな生体分子の設計などのシナリオに適用できるようになります。
今後の課題目標値や発見速度など、生成される分子の品質を向上させる方法にさらに焦点を当てていきます。 LLM が進歩し続けるにつれて、MOLLEO フレームワークのパフォーマンスも向上し続け、生成化学アプリケーションにおける有望なツールとなることが期待されます。
以上が25 の分子設計アルゴリズムを破り、ジョージア工科大学、トロント大学、コーネル大学が大規模言語モデル MOLLEO を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。