中国科学院チームが酵素反応速度パラメータの予測精度を向上させるための統一フレームワークを作成-AI-php.cn

中国科学院チームが酵素反応速度パラメータの予測精度を向上させるための統一フレームワークを作成

編集者 | 大根の皮

酵素反応速度パラメータの予測は、バイオテクノロジーや産業用途における酵素の設計と最適化にとって重要ですが、現在の予測ツールのパフォーマンスは限られていますさまざまなタスクで実際の用途が制限されます。

中国科学院の研究者らは最近、酵素代謝回転数 (kcat) やミカエリス・メンテン定数 ( Km) および触媒効率 (kcat/Km)、これらのパラメータはタンパク質配列と基質構造から得られました。

UniKP (EF-UniKP) に基づく 2 層フレームワークも提案されており、pH や温度などの環境要因を考慮して kcat 値を安定して予測できます。同時に研究チームは、4つの代表的な再重み付け手法を体系的に検討し、価値の高い予測タスクにおける予測誤差を減らすことに成功しました。

この研究は「UniKP: 酵素反応速度パラメータの予測のための統一フレームワーク」と題され、2023年12月11日にジャーナル「Nature Communications」に掲載されました。

中国科学院チームが酵素反応速度パラメータの予測精度を向上させるための統一フレームワークを作成

特定の基質に対する酵素の触媒効率の研究は生物学における重要な問題であり、酵素の進化、代謝工学、合成生物学に大きな影響を与えます。 kcat と Km、最大代謝回転率、ミカエリス・メンテン定数を測定する in vitro 実験データは、特定の反応を触媒する酵素の効率を測定し、さまざまな酵素の相対的な触媒活性を比較するための指標として使用できます。

現在、酵素速度論パラメータの測定は主に実験的測定に依存していますが、これには時間と費用がかかり、労働集約的であるため、実験的に測定された速度論的パラメータ値のデータベースは小規模になります。。たとえば、配列データベース UniProt には 2 億 3,000 万を超える酵素配列が含まれており、酵素データベース BRENDA および SABIO-RK には実験的に測定された数万の kcat 値が含まれています。これらの酵素データベースに Uniprot 識別子を統合すると、測定されたパラメーターとタンパク質配列の間の関連付けが容易になります。ただし、これらの接続の規模は酵素配列の数に比べて依然としてはるかに小さいため、指向性進化や代謝工学などの下流の応用における進歩が制限されます。

酵素反応速度論パラメータ予測フレームワーク

この研究では、中国科学院の研究者が、事前トレーニング言語モデルに基づいた UniKP と呼ばれる新しいフレームワークを提案しました。酵素反応速度パラメータの予測精度を向上させるように設計されています。これらのパラメーターには、酵素配列と基質構造を考慮して予測できる kcat、Km、kcat/Km が含まれます。研究者らは、16 の異なる機械学習モデルと 2 つの深層学習モデルの包括的な比較を実施し、予測精度の点で UniKP が優れたパフォーマンスを発揮したことを発見しました。この研究は、酵素反応速度論の分野における研究と応用のための新しいツールと方法を提供することが期待されています。

中国科学院チームが酵素反応速度パラメータの予測精度を向上させるための統一フレームワークを作成

図: UniKP の概要。 (出典: 論文)

以前の最先端モデル DLKcat と比較して、UniKP は kcat 予測タスクにおいて優れたパフォーマンスを示し、平均決定係数は 0.68 で 20% 向上しました。研究者らは、事前学習済みモデルがデータベース全体からの教師なし情報を使用して酵素配列と基質構造の学習しやすい表現を作成することにより、UniKP のパフォーマンスに大きく貢献したと推測しています。

モデル学習の分析により、おそらく基質構造と比較した酵素構造の複雑さにより、タンパク質情報が支配的な役割を果たしていることが示されました。さらに、UniKP は、実験的に測定されたケースを含め、酵素とその変異体の kcat 値の小さな差異を効果的に捕捉することができ、これは酵素の設計や修飾にとって重要です。 UniKP 予測の R^2 と、高アイデンティティ領域と低アイデンティティ領域の gmean 法の R^2 の差は、より深く相互接続された情報を抽出する UniKP の能力を示しており、したがってこれらのタスクで良好なパフォーマンスを発揮します。

2 層フレームワーク EF-UniKP

現在のモデルのほとんどは、実際の実験条件をシミュレートする際の重要な制限である環境要因を考慮していません。この問題を解決するために、研究者らは環境要因を考慮した2層フレームワークEF-UniKPを提案した。それぞれ pH と温度の情報を含む 2 つの新しく構築されたデータセットに基づいて、EF-UniKP は初期の UniKP と比較して向上したパフォーマンスを示します。これは、正確でハイスループットの、生物に依存せず、コンテキストに依存する kcat 予測です。さらに、このアプローチは、共基質や NaCl 濃度などの他の要素を含めるように拡張される可能性があります。

中国科学院チームが酵素反応速度パラメータの予測精度を向上させるための統一フレームワークを作成

図: 環境要因を考慮した 2 層のフレームワーク。 (出典: 論文)

しかし、既存のモデルでは、包括的なデータが不足しているため、これらの要因間の相互作用が考慮されていません。バイオキャスト研究室の自動化や継続的進化法などの実験技術が進歩するにつれて、研究者は酵素動態データの急増を予想しています。この流入により、この分野が豊かになっただけでなく、予測モデルの精度も向上しました。

kcat データセットの不均衡が大きく、高い kcat 値の予測では誤差が大きくなるため、チームはこの問題を軽減するために 4 つの代表的な再重み付け方法を系統的に検討しました。結果は、各メソッドのハイパーパラメーター設定が、高い kcat 値の予測を改善するために重要であることを示しています。

チームは、ミカエリス定数 (Km) 予測と kcat/Km 予測の観点から、現在のフレームワークの強い一般性を確認しました。 UniKP は、Km 値の予測において最先端のパフォーマンスを達成し、さらに驚くべきことに、kcat/Km 値の予測において、現在の最先端モデルの組み合わせ結果を上回るパフォーマンスを発揮します。さらに、研究者らは、実験的に測定されたkcat/Km値と、kcat/KmデータセットのkcatおよびKm予測モデルを使用して計算されたkcat/Km値に基づいて、UniKPフレームワークを検証しました。

UniKP kcat / UniKP Km から導出された値と実験結果の kcat / Km の間に観察された相関関係が比較的低いことは注目に値します (PCC = −0.01)。この違いは、それぞれのモデルの構築に使用されるデータセットが異なるためである可能性があり、そのため、kcat/Km 値を予測するには別のモデルの開発が必要になります。将来的には、kcat および Km の値を含む統一データセットの出現により、kcat および Km モデルの計算出力は、kcat/Km 専用モデルによって生成される出力と厳密に一致することが予想されます。

酵素のマイニングと進化における具体的な用途

チロシンアンモニアリアーゼ (TAL) 酵素のマイニングと指向性進化における UniKP の応用は、合成生物学と生化学研究に革命をもたらすその能力を証明しました。。この研究は、UniKP が高活性 TAL を効果的に認識し、既存の TAL の触媒効率を急速に向上させ、RgTAL-489T が野生型酵素の 3.5 倍高い kcat/Km 値を有することを示しています。

さらに、派生フレームワーク EF-UniKP は常に非常に高い精度で高活性 TAL 酵素を同定することができ、Tephrocybe rancida 由来の TrTAL の kcat/Km 値は野生型酵素よりも 2.6 倍高かった。その結果、5つの配列のkcatおよびkcat/Km値が野生型酵素の値を上回っていることが示されました。

UniKP は、酵素の発見と最適化のプロセスを加速することで、生体触媒、創薬、代謝工学、および酵素触媒プロセスに依存するその他の分野を進歩させるための強力なツールになることが期待されています。

制限事項と展望

ただし、UniKP の現在のバージョンにはまだいくつかの制限があります。たとえば、UniKP は酵素の実験的に測定された kcat 値とその変異体を区別できますが、予測された kcat 値は十分に正確ではありません。これは、既知のタンパク質配列および基質構造の数と比較してデータセットが不十分であることが原因である可能性があります。

再重み付け手法は、不均衡な kcat データセットによって引き起こされる予測バイアスをある程度まで軽減できますが (約 6.5% 改善)、合成少数オーバーサンプリング手法やその他のサンプル合成手法を使用すると、さらに多くのことを達成できます。

合成生物学の中心的な目標は、科学者が生物学を研究する方法に革命をもたらすデジタル細胞の開発です。この研究の重要な前提条件は、経路内のすべての酵素の酵素パラメータを注意深く決定することです。人工知能支援ツールはこの課題に光を当て、酵素動態を予測するためのハイスループットな方法を提供します。

UniKP 予測誤差は以前のモデルに比べて減少していますが、不正確さは依然として正確な代謝モデルを構築する上で大きな障害となっています。実験的に決定された kcat 値と Km 値の数を増やすと、モデルの精度を向上させることができます。

次に、研究者らは、転移学習、強化学習、その他のスモールショット学習アルゴリズムなどの最先端のアルゴリズムを組み合わせて、不均衡なデータセットを効果的に処理することを計画しています。そして、チームは、酵素の進化や生物の全体的な分析など、さらなる応用を探索することを目指しています。

論文リンク: https://www.nature.com/articles/s41467-023-44113-1

以上が中国科学院チームが酵素反応速度パラメータの予測精度を向上させるための統一フレームワークを作成の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。