デュアルタスクに基づくエンドツーエンドのテンプレート不要の応答予測モデル-AI-php.cn

デュアルタスクに基づくエンドツーエンドのテンプレート不要の応答予測モデル

再フォーマット| 修士課程の学生、Hu Haozhe です

デュアルタスクに基づくエンドツーエンドのテンプレート不要の応答予測モデル論文リンク: https://doi.org/10.1007 /s10489-023-05048-8

関連コード : https://github.com/AILBC/BiG2S

現在、分野で出現しているグラフからシーケンスへのモデルフレームワークに基づいています。テンプレートフリーレトロシンセシスを利用して、著者はさらに、同じパラメータスケールの下で単一モデルのクラスを構築することを試みます BiG2S (Bidirection Graph to Sequence)、レトロシンセシス予測と順反応予測のタスクを同時に解決するモデル予測難易度の違い異なる SMILES フラグメントの変化と、検証セット上のモデルの Top-k 一致率の変動があり、これらの問題に対処するために、不均衡損失関数が導入され、モデルの統合とビーム探索戦略が改善されました。

3 つの主要な反応予測データセットでテストし、逆合成および順反応予測タスクでテストし、上記のモジュールで包括的なアブレーション実験を行ったところ、BiG2S が適切なパラメータースケールの単一モデルで逆合成と順反応の両方を処理できることが実証されました。 . 応答予測タスク。事前トレーニングとデータ強化に基づく既存のテンプレートフリーの手法と比較して、BiG2S の全体的な予測能力は同様に優れています。

研究の背景

逆合成と順合成は、有機化学、コンピュータ支援合成計画 (CASP)、コンピュータ支援創薬 (CADD) の分野における根本的な課題です。内容を書き換える場合、原文を維持したまま中国語に書き直す必要があります。

初期の逆合成計画システムは、分野の専門家によって事前にコード化された反応ルール、または物理化学に基づく計算に直接依存していましたが、深層学習の急速な発展に伴いました。現在この分野で主流となっている手法は、タスク固有のニューラルネットワークフレームワークを構築して、データ駆動型の観点から反応予測タスクを完了するというものです。その中でも、特定の事前の化学知識に依存しないテンプレートフリー手法は、エンドツーエンドの機械翻訳に似たシンプルさと柔軟性により、徐々にこの分野の主流の開発方向の1つになりました。

現在、ほとんどのテンプレートフリー逆合成モデルの入力と出力は SMILES 分子列であり、シーケンスツーシーケンス (Seq2Seq) プロセスを使用しています。この方法は、自然言語処理の分野における既存のモデルフレームワークと、SMILES 表現方法の成熟したデータ処理フローをうまく利用できます。

ただし、SMILES は 1 次元の文字列シーケンスであるため、分子グラフに含まれる二次元/三次元構造情報をより適切に特徴づけて利用するために、SMILES の代わりに分子グラフをモデル入力として使用するグラフツーシーケンス (Graph2Seq) 手法がこの分野で徐々に登場してきました。分子グラフの追加の構造情報が徐々に明らかになり、SMILES 配列に埋め込まれた配列間メソッド。どちらの方法でも、分子グラフからの豊富な構造特徴をうまく利用できます。

これに基づいて、この論文は、新しいグラフからシーケンスへの方法に基づいており、元の SMILES ベースのモデルで逆合成と順反応を組み合わせています。予測タスクの同時トレーニングの関連探索ベンチマークに基づいて、このタイプのデュアルタスクモデルの構築と実験をさらに包括的に探索し、実行中にモデルによって表示される難易度の不均衡と Top-k マッチングを事前に探索および分析します。トレーニングプロセスレート変動の問題; これに基づいて構築された BiG2S モデルは、主流のデータセットにおける逆合成および順反応予測タスクをより適切に処理でき、データ拡張を使用せずに他のテンプレートフリー逆合成モデルと一致する結果を達成できます。能力

全体的なフレームワークを書き直す必要がある

BiG2S の全体的な構造は、図 1 に示すように、エンドツーエンドのエンコーダー/デコーダーです。エンコーダ側は、ローカルの有向メッセージパッシンググラフネットワークと、グラフ構造のバイアス情報を組み込んだグローバルグラフ Transformer を使用して、最終的な分子グラフノード表現を生成します。デコーダは、標準の Transformer デコーダを使用して、自己回帰的にターゲット分子の SMILES シーケンスを生成します。逆合成と順反応予測を同時に学習するには、デコーダへの入力が必要であることに注意してください。さらに、位置情報のデュアルタスクラベリングが含まれます。同時に、デコーダ側の正規化層と最終線形層には 2 つのパラメータセットがあり、それぞれ逆合成タスクと順反応予測タスクを学習するために使用されます

図 1: BiG2S の全体的なフレームワーク図

デュアルタスクに基づくエンドツーエンドのテンプレート不要の応答予測モデル

デュアルタスクトレーニングフレームワークが必要

逆合成と順反応予測は 2 つの関連タスクです。逆合成タスクは生成物を入力として使用し、反応物をターゲット出力として使用しますが、順反応予測タスクはその逆を行います。これら 2 つのタスクは、逆合成タスクの入力とターゲット出力を交換することで順反応予測タスクに変換できるため、密接な関係があります。

したがって、SMILES に基づく一部のテンプレートフリーモデルには、逆合成と正反応予測を訓練目標として化学反応の理解を高める試みを行い、一定の成果をあげた。この考えに基づいて、著者はさらに、グラフからシーケンスへのモデルにデュアルタスクトレーニングを導入しようとしました。

具体的には、著者は、以前に他の手法で使用されていたパラメータ共有戦略に基づいて、正規化層でデコーダと 2 セットのタスク固有パラメータが最後の線形層内に構築されます。他のモジュールでは、2 種類のタスクは一連のパラメーターを共有します。同時に、追加のデュアルタスクラベルが入力分子グラフノードとデコーダーの最初の入力シーケンスに追加されます。このようにして、モデル全体のサイズを制御しながらも、モデルは 2 種類のタスクを区別し、それらの異なるデータ分布を学習することができます。

トレーニングと推論の最適化が必要です

著者はトレーニングプロセス中にモデルに反映された 2 種類の問題をさらに記録して分析しました。

最初に、著者は USPTO-50k のさまざまな SMILES 文字の出現頻度を記録しました。予測精度とトレーニング中の対応する予測精度を図 2 に示します。トレーニングプロセス中、トレーニングセット内でそれぞれ 0.4% と 0.3% を占める S と Br について、全体的な予測精度の絶対差は 8% に達しました。これは、異なる分子構造/フラグメント間で予測の難しさに明らかな違いがあることを最初に示しています。そのため、著者は不平衡損失関数 (焦点損失など) を導入することでそのような問題を軽減し、モデルがより多くの注意を払うことができるようにします。低分子フラグメント

デュアルタスクに基づくエンドツーエンドのテンプレート不要の応答予測モデル

図 2: USPTO-50k トレーニングセットにおける、さまざまな SMILES キャラクターの出現頻度とトレーニング中の全体的な予測精度

さらに、図 3 に示すように、著者はトレーニング中に検証セット上でモデルの予測結果の品質の変化も記録しました。著者は、USPTO-50k データセットの中期および後期のトレーニング段階で、検証セット上のモデルのトップ 1 の精度は依然として向上しているが、トップ 3、トップの予測品質が低下していることを発見しました。 -5、およびトップ 10 の大幅な減少

モデルのトップ 10 の反応物生成結果の全体的な品質を維持しながら、モデルのトップ 1 の予測品質を向上させるために、一種のモデル統合を追加で構築しました。カスタム評価指標に基づいた戦略。具体的には、モデルを保存するためのキューを構築し、事前定義された評価指標 (Top-1 精度、加重 Top-k 精度など) に従って保存されたモデルを並べ替えます。トレーニングプロセス全体を通じて、候補モデルを動的に保存し、キュー内の上位 3 ～ 5 に基づいてアンサンブルモデルを自動的に生成することで、最高の予測品質を持つ上位 k モデルを保持します。推論段階では、モデル Top-k

デュアルタスクに基づくエンドツーエンドのテンプレート不要の応答予測モデル

によって生成される結果の全体的な品質を向上させるために、検索範囲にさらに焦点を当てた新しいフレームワークに基づいてビーム検索戦略も再構築しました。

図 3: USPTO-50k データセットでのトレーニング中のモデルの検証セットに対する Top-k 一致率の変化曲線と、USPTO-50k データセットでのトレーニング中に生成された Top-k の無効な分子の割合

デュアルタスク実験にはベンチマークデータセットが必要です

著者は、50,000、 500,000 および 100 万の化学反応データ。USPTO に準拠。実験では、デュアルタスクモデルとシングルタスクモデルの性能を比較しました。図 4 のテスト結果によると、

小規模データセットでは、BiG2S はデュアルタスクトレーニングに基づく逆合成タスクで最高の予測精度を達成し、同時に高い順反応予測精度も維持しました。 , 順方向応答予測に偏った USPTO-MIT データセットと大規模データセット USPTO-full では、モデル全体のパラメーター量の制限により、デュアルタスクトレーニング後のモデルのパフォーマンスが低下します。減少しました。それにもかかわらず、逆合成タスクと順反応予測タスクを同時に処理する能力は、ほぼ同じ数のパラメーターと応答予測能力のわずかな低下を伴うデュアルタスクモデルから得られました（Top-k 精度の絶対差は約機能の観点から見ると、BiG2S モデルは期待された目標を達成しました

デュアルタスクに基づくエンドツーエンドのテンプレート不要の応答予測モデル

図 4: BiG2S のデュアルタスクモデルとシングルタスクモデルの 3 つの実験ベンチマークデータセットの結果。上付き文字 b は、シングルタスクモデルが 2 種類のタスクをそれぞれ完了するために使用されることを示します。

アブレーション実験の再分析

著者は、アブレーション実験を通じて不均衡損失を使用した後、さまざまなデータセットで予測する際の、新しいビーム検索アルゴリズムと BiG2S の最適温度ハイパーパラメーターをさらに検証しました。ここでの温度ハイパーパラメータは、出力確率分布を制御するために Softmax で使用される温度パラメータ T を指します。実験結果を図 5 と図 6 に示します。

ビーム探索アルゴリズムの実験では、OpenNMT は探索幅を 3 倍に拡大したが、探索時間は 1.74 倍にしか拡大しなかったことがわかります。新しいビーム探索アルゴリズムの上位 1 位の精度が OpenNMT と一致する場合、全体の探索時間は 1 ～ 2 倍増加しますが、上位 10 位の予測結果の品質に関しては、新しいビーム探索アルゴリズムはOpenNMT と比較して少なくとも 3% の向上絶対精度の利点と有効分子比率の利点 2% 新しいビーム探索アルゴリズムにより、モデルの全体的な Top-k 探索結果の品質が大幅に向上したと言えます。検索時間のコスト。

温度について研究者らは、ハイパーパラメーターの実験を行った際、小規模のデータセットでより大きな温度パラメーターを使用すると、全体的な Top-k 予測精度が大幅に向上する可能性があることを発見しました。大きなデータセットでは、BiG2S モデルサイズがすべての反応データに完全に適応できないため、この時点でより小さい温度パラメーターを選択すると、多くの場合モデル検索に役立ちます

デュアルタスクに基づくエンドツーエンドのテンプレート不要の応答予測モデル

図 5: 間の比較BiG2S で使用されるビーム検索アルゴリズムと、検索結果の品質と検索時間の観点から、以前のテンプレートフリー逆合成モデルで一般的に使用されている OpenNMT ベースのビーム検索アルゴリズム

デュアルタスクに基づくエンドツーエンドのテンプレート不要の応答予測モデル

図 6 : 異なるデータセットで検索するために異なる温度ハイパーパラメータ (T) を使用した不均衡損失後の BiG2S を使用したトップ k の予測精度

研究の結論は次のとおりです...

この記事では、著者は、逆合成タスクと順反応予測タスクの両方を処理できる、BiG2S と呼ばれるテンプレートフリーの反応予測モデルを提案します。適切なパラメーター共有戦略と追加のデュアルタスクラベルを採用することで、BiG2S は、異なるサイズのデータセットに対して、より少ないパラメーターで逆合成タスクと反応予測タスクを完了することができ、その全体的な予測能力は主流モデルに匹敵します

さまざまなSMILESキャラクターの不均一な予測難易度およびモデルトレーニングにおけるTop-k予測精度の変動の問題を解決するために、著者は、不均衡損失、カスタム評価指標に基づく自動モデル統合戦略、および新しいフレームワークに基づくビーム探索アルゴリズムを導入しました。これらの問題を軽減するために、

BiG2S は、サイズの異なる 3 つの主流データセットで優れたデュアルタスク予測機能を示し、さらなるアブレーション実験では、追加で導入されたトレーニングおよび推論戦略の有効性も証明しました。

以上がデュアルタスクに基づくエンドツーエンドのテンプレート不要の応答予測モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。