編集者 | Dry Leaf Butterfly
大規模な言語モデルにより、生物学と化学を理解する科学者の能力は大幅に向上しましたが、構造ベースの創薬、量子化学、および構造生物学のための信頼できる方法は依然として少数です。大規模な言語モデルでは、正確な生体分子とリガンドの相互作用データセットが緊急に必要とされています。
この問題を解決するために、ミュンヘンヘルムホルツ研究センター生物学研究所とミュンヘン工科大学の研究者がMISATOを提案しました。これは、小分子の量子力学 (QM) 特性と、約 20,000 の実験用タンパク質-リガンド複合体の関連する分子動力学 (MD) シミュレーション、および実験データの広範な検証を組み合わせたデータセットです。
研究者たちは、既存の実験構造から始めて、半経験的な量子力学を使用してこれらの構造を体系的に改善しました。これらには、蓄積時間が 170 マイクロ秒を超える、純水中の多数のタンパク質-リガンド複合体の分子動力学シミュレーションが含まれます。
チームは、このデータセットを使用することで精度が向上したことを示す機械学習 (ML) ベースライン モデルの例を提供しています。機械学習の専門家に、創薬用の次世代人工知能モデルを実装するための簡単なエントリ ポイントを提供します。
この研究は「MISATO: 構造ベースの創薬のためのタンパク質-リガンド複合体の機械学習データセット」と題され、2024年5月10日に「Nature Computational Science」に掲載されました。
近年、AI 予測技術は科学分野に革命を引き起こしています。たとえば、AlphaFold はタンパク質の構造を正確に予測できます。構造に基づく創薬は依然として大きな課題ですが、この分野での AI の応用はまだ浅いです。現在の手法は、精度、計算コスト、実験への依存などの課題に直面しており、主に単純な解決策と 1 次元データ処理に焦点を当てています。三次元タンパク質-リガンド複合体の複雑さは見落とされてきました。
さまざまなデータベースが存在しますが、データ量の制限と熱力学情報の欠如により、創薬を促進する AI モデルは示されていません。タンパク質構造予測の分野におけるAlphaFoldの成果とは異なり、AIモデルは力学や化学的複雑さなどの問題を無視しているため限界もあり、生体分子分析や量子化学における可能性に影響を与える。
ここで、ミュンヘンヘルムホルツ研究センターの構造生物学研究所とミュンヘン工科大学の研究者は、実験的なタンパク質-リガンド構造に基づくタンパク質-リガンド構造データベース、MISATO (Molecular Interactions Are Structurally Optimized) を提案しました。
研究者らは、データベースが創薬関連分野やそれ以外の分野でモデルをより適切にトレーニングするのに役立つことを示しました。これには、量子化学、一般的な構造生物学、生物情報学が含まれます。
チームは、配位子の幾何学形状の正則化を含む、量子化学ベースの構造管理と改良を提供します。研究者らは、時間スケールでの MD を含む、欠落している動的および化学情報でこのデータベースを強化し、特定のシステムの過渡的および不可解な状態の検出を可能にしました。後者は医薬品設計を成功させるために非常に重要です。
したがって、研究者たちは、最大数の物理パラメータを実験データに追加しました。これにより、AI モデルはこのすべての情報を暗黙的に学習する負担から解放され、主要な学習タスクに集中できるようになります。 MISATO データベースは、機械学習コードに直接インポートできる使いやすい形式を提供します。
チームは、データセットをフィルタリングして視覚化するためのさまざまな前処理スクリプトも提供しています。さらに、量子化学特性 (化学的硬度と電子親和力) の計算、結合親和力の計算、タンパク質の柔軟性や誘導フィット特性の予測用の AI ベースライン モデルの例が提供されているため、データを簡素化できます。さらに、QM、MD、AI モデルは実験データに基づいて広範囲に検証されています。
研究者らは、MISATOを創薬分野全体に利益をもたらす有益なコミュニティプロジェクトに変えたいと考えています。
論文リンク:https://www.nature.com/articles/s43588-024-00627-2
以上が量子機能と 20,000 の分子動力学シミュレーションを組み合わせた、新しいタンパク質-リガンド複合体 ML データセットが Nature サブジャーナルに掲載されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。