「AI+物理学の事前知識」、浙江大学および中国科学院の一般的なタンパク質-リガンド相互作用スコアリング手法が Nature サブジャーナルに掲載

編集者 |科学者たちは、これらの「キー」と「ロック」の間の適合性、つまりタンパク質とリガンドの相互作用を予測する効率的な方法を探してきました。

しかし、従来のデータ駆動型の手法は、多くの場合、リガンドとタンパク質のトレーニングデータ間の相互作用を実際に学習するのではなく、それらを暗記する「暗記学習」に陥ります。

最近、浙江大学と中国科学院の研究チームは、異種グラフニューラルネットワークを使用して物理的な事前知識を統合し、方程式変換空間におけるタンパク質-リガンド相互作用を特徴付ける、EquiScoreと呼ばれる新しいスコアリング方法を提案しました。

EquiScore は、複数のデータ拡張戦略と厳密な冗長性排除スキームを使用して構築された新しいデータセットでトレーニングされています。

2 つの大規模な外部テストセットでは、EquiScore が他の 21 のメソッドと比較してトップになり始めました。 EquiScore をさまざまなドッキング方法とともに使用すると、これらのドッキング方法のスクリーニング機能を効果的に強化できます。 EquiScore は、構造的に類似した一連の物質の活性をランク付けするタスクでも良好なパフォーマンスを示し、リード化合物の最適化を導く可能性を実証しました。

最後に、EquiScore のさまざまな解釈可能性レベルが研究されました。これにより、構造に基づいた医薬品設計により多くの洞察が得られる可能性があります。

この研究は「

物理的な事前知識とデータ拡張モデリングを統合することによる汎用タンパク質-リガンド相互作用スコアリング

」と題され、2024年6月6日に「Nature Machine Intelligence」に掲載されました。

「AI+物理学の事前知識」、浙江大学および中国科学院の一般的なタンパク質-リガンド相互作用スコアリング手法が Nature サブジャーナルに掲載論文リンク:

https://www.nature.com/articles/s42256-024-00849-z

機械学習に基づく採点方法

ヒトゲノム計画の後は、ゲノム科学も登場新しい知識を新薬に応用するという挑戦。近年、タンパク質のフォールディングアルゴリズムが次々と進歩し、構造生物学の分野は大きな進歩を遂げています。そして野心的なプロジェクトでは、人体のすべてのタンパク質に適合する薬剤やプローブを見つけようとしている。この分野では大幅な進歩が見られましたが、現実世界のアプリケーションシナリオでより正確なスコアリング方法を開発することは依然として課題です。

実験的なタンパク質-リガンド相互作用データの爆発的な増加により、機械学習ベースのスコアリング方法は大幅に進歩しました。

機械学習モデルの容量が増加することで、トレーニングデータセット全体を記憶できるようになります。同時に、トレーニングデータとテストデータの間のデータ漏洩の問題は、これらのモデルの機能の過度に楽観的な評価につながります

データセットの品質に加えて、機械学習ベースのスコアリング方法のパフォーマンスに影響を与えるもう 1 つの重要な要素リガンドとタンパク質の相互作用に関する関連する物理的な事前情報を効果的に統合することです。

EquiScore のアーキテクチャ

この研究は、主に 2 つの側面から未知のターゲットに対する深層学習スコアリング手法の一般化能力を向上させます。

まず、研究者らは複数のデータ拡張戦略を使用して PDBscreen と呼ばれる新しいデータセットを構築しました。たとえば、ネイティブに近いリガンド結合ポーズを使用して陽性サンプルのサイズを増幅し、生成された高度に欺瞞的なデコイを使用して陰性サンプルのサイズを増幅します。

第二に、新しいタイプのノードとエッジ、および情報認識型注意メカニズムを導入することにより、物理的な分子間相互作用に関する事前情報を統合できる異種グラフが提案されます。

「AI+物理学の事前知識」、浙江大学および中国科学院の一般的なタンパク質-リガンド相互作用スコアリング手法が Nature サブジャーナルに掲載イラスト: PDBscreen データセットを構築するためのパイプライン。 (出典: 論文)

EquiScore は、タンパク質のポケット領域とリガンドから構築された同型マップを入力することにより、タンパク質とリガンド間の結合の可能性を評価するバイナリ分類モデルです。

イラスト: EquiScore の全体的なアーキテクチャ。

最初のステップで、研究者たちは異種グラフ構築スキームを設計しました。既存の原子をノードに抽象化することに加えて、芳香族系をより適切に表現するために、専門家の予備知識に基づいて各芳香環に仮想ノードが追加されます。エッジを構築するには、幾何学的距離ベースのエッジ (

幾何学) と化学結合による構造ベースのエッジ (E構造) がノード間に確立されます。

研究者らはまた、ProLIF によって計算されたタンパク質-リガンドの経験的相互作用成分 (IFP) に基づくエッジのクラスをE構造に追加し、分子間相互作用に関する先験的な物理的知識を含めました。 2 番目のステップでは、埋め込み層を使用して、異種グラフ上の各タイプのエッジとノードの潜在表現を取得します。このスキームは、明確な物理的意味を持つ他の新しいノードとエッジを導入することができ、後続の表現学習モジュールとシームレスに統合できます。

モデルの等しい分散を確保しながら、さまざまなノードやエッジからの情報の帰納的バイアスを最大限に活用するために、EquiScore レイヤーは、情報認識アテンションモジュール、ノード更新モジュール、エッジ更新モジュールの 3 つのサブモジュールで構成されます。
情報認識型アテンションモジュールは、(1) 等変幾何情報、(2) 化学構造情報、(3) タンパク質-リガンドの経験的相互作用成分など、さまざまな情報から相互作用を解釈できます。
モデルのパフォーマンス評価
研究者たちは、生成された EquiScore モデルのパフォーマンスを評価しました。
仮想スクリーニング (VS) シナリオでは、EquiScore は、DEKOIS2.0 と DUD-E という 2 つの外部データセット上の未確認タンパク質の 21 の既存のスコアリング方法と比較して、一貫してトップランキングを達成しました。

イラスト：DEKOIS2.0における22の採点方法の評価。 (出典: 論文)

図: AUROC、BEDROC、EF に関する 22 の DUD-E スコアリング方法の評価。 (出典: 論文)
リード最適化シナリオでは、8 つの異なる方法のうち、EquiScore は FEP+ と比較して低いランキング能力のみを示しました。 FEP+ の計算には大幅に高い計算コストが必要であることを考慮すると、EquiScore は速度と精度の間でよりバランスのとれた利点を示しています。

図: DEKOIS2.0 上のさまざまなドッキング方法によって生成された EquiScore 再スコアリングドッキングポーズのパフォーマンス比較。 (出典: 論文)
さらに、EquiScore は、さまざまなドッキング方法によって生成されたポーズに適用すると強力な再スコアリング機能を示し、EquiScore 再スコアリングを使用すると、すべての評価方法で VS のパフォーマンスを向上できることがわかりました。

図: EquiScore を注意分布を視覚化して説明します。 (出典: 論文)
最後に、研究者らはモデルの解釈可能性を分析し、このモデルが重要な分子間相互作用を捕捉できることを発見し、モデルの合理性を証明し、合理的な医薬品設計に有用な手がかりを提供した。
タンパク質とリガンドの相互作用の確実な予測は、タンパク質の生物学を理解し、将来の薬物療法への影響を判断するための貴重な機会を提供します。 EquiScore は、人間の健康と病気の理解を深めることに貢献し、新薬の発見を促進します。

以上が「AI+物理学の事前知識」、浙江大学および中国科学院の一般的なタンパク質-リガンド相互作用スコアリング手法が Nature サブジャーナルに掲載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。