分子100%有效，從頭設計配體，湖南大學提出以片段為基礎的分子表徵框架-人工智慧-PHP中文網

分子100%有效，從頭設計配體，湖南大學提出以片段為基礎的分子表徵框架

編輯 | KX

分子描述符的應用與挑戰

分子描述符廣泛應用於分子建模。然而，在 AI 輔助分子發現領域，缺乏自然適用、完整且原始的分子表徵，影響模型性能和可解釋性。

t-SMILES 框架的提出

基於片段的多尺度分子表徵框架 t-SMILES 解決分子表徵問題。此框架使用 SMILES 類型的字串描述分子，支援序列模型作為生成模型。

t-SMILES 的程式碼演算法

t-SMILES 有三種程式碼演算法：TSSA、TSDY 和 TSID。

實驗結果

實驗表明，t-SMILES 模型生成分子具有 100% 理論有效性和高新穎性，優於基於 SOTA SMILES 的模型。

此外，t-SMILES 模型避免過擬合，在標記的低資源資料集上保持相似性，同時實現更高新穎性。

發表訊息

研究以「t-SMILES: a fragment-based molecular representation framework for de novo ligand design」為題，於 6 月 11 日發表在《》上。

分子100%有效，從頭設計配體，湖南大學提出以片段為基礎的分子表徵框架論文連結：https://www.nature.com/articles/s41467-024-49388-6

基於 SMILES 的分子表徵法研究

分子的有效表徵是影響人工智慧模型效能的關鍵因素。

圖神經網路（GNN）因其能產生 100% 有效的分子而流行，但其表達能力受限。

簡化分子線性輸入規範（SMILES）作為一種線性表示法，易產生化學無效字串。 DeepSMILES 和 SELFIES 作為替代方案雖有所改進，但仍有問題。

此外，研究表明語言模型 (LM) 在學習大型複雜分子方面可能優於大多數 GNN。最近，基於 Transformers 的 LM 已經展示了它們生成與人類書寫極為相似的文本的能力。

受這些想法啟發，研究者選擇SMILES 作為片段描述的起始選擇，並結合先進的自然語言處理技術來處理基於片段的分子建模任務，這可以融合圖模型更注重分子拓撲結構和LM 的強大學習能力的優勢。

產生 100% 有效的新分子，優於 SOTA

因此，湖南大學團隊提出了一種基於碎片化分子的新型分子描述框架 t-SMILES（基於樹的 SMILES）。該框架包含三種 t-SMILES 編碼演算法：TSSA（具有共享原子的 t-SMILES），TSDY（具有虛擬原子但不具有 ID 的 t-SMILES）和 TSID（具有 ID 和虛擬原子的 t-SMILES）。

分子100%有效，從頭設計配體，湖南大學提出以片段為基礎的分子表徵框架

圖示：t-SMILES 演算法概述（資料來源：論文）

新提出的 t-SMILES 框架

將 AMT 轉換為全二元樹（FBT）。
對 FBT 進行廣度優先遍歷得到 t-SMILES 字串。

與 SMILES 相比

t-SMILES 僅引入了兩個新符號“&”和“^”，編碼多尺度和分層的分子拓撲。

t-SMILES 演算法

提供了一個可擴展且適應性強的框架，理論上能夠支持廣泛的子結構方案。

基於 t-SMILES 的模型

能夠在處理詳細子結構資訊的同時學習高階拓撲結構資訊。

多程式碼系統

t-SMILES 演算法可以建立一個用於分子描述的多程式碼系統，其中：

多個描述可以協作以提高綜合性能。
圖示：TSSA 代碼、SMILES 和 SELFIES 的 tokens 分佈。（資料來源：論文）

首先，研究人員透過深入研究其獨特的特徵來系統化評估 t-SMILES。隨後，使用 TSSA 和 TSDY 對兩個標記的低資源資料集 JNK332 和 AID170633 進行了實驗。

研究重點是 t-SMILES 及其替代品的局限性，這些局限性是透過利用標準、資料增強和預訓練微調模型來實現的。使用 TSDY、TSSA 和 TSID 並行評估了 ChEMBL 上的 20 個目標導向任務。也對 ChEMBL、Zinc 和 QM9 進行了徹底的實驗，透過使用類似的設定來比較 t-SMILES 及其替代品。此外，比較了各種基於片段的基線模型和 SOTA GNN 模型。

最後，進行了消融研究，以確認基於帶重建的 SMILES 的生成模型的有效性。為了評估 t-SMILES 演算法的適應性和靈活性，使用了四種先前發表的碎片演算法來分解分子，包括 JTVAE、BRICS、MMPA 和 Scaffold。不同實驗採用了三種指標：分佈學習基準、目標導向基準和物理化學性質的 Wasserstein 距離指標。

詳細的對比實驗表明，t-SMILES 模型產生的新分子 100% 理論有效，優於基於 SOTA SMILES 的模型。與 SMILES、DSMILES 和 SELFIES 相比，t-SMILES 的整體解決方案可以避免過擬合問題，並顯著提高低資源資料集上的平衡性能，無論是使用資料增強還是預訓練然後微調的模型。

分子100%有效，從頭設計配體，湖南大學提出以片段為基礎的分子表徵框架

圖示：使用 GPT 在 ZINC 上進行的分佈學習基準測試的結果。（資料來源：論文）

此外，t-SMILES 模型能夠熟練地捕捉分子的物理化學性質，確保產生的分子與訓練分子分佈保持相似性。與現有的基於片段和基於圖的基線模型相比，這顯著提高了效能。特別是，具有目標導向重建演算法的 t-SMILES 模型在目標導向的任務中比 SMILES、DSMILES、SELFIES 和 SOTA CReM 表現出明顯的優勢。

局限性和有待改進之處

LLM 可以理解格式良好的英語語法。因此，是否可以學習 t-SMILES 的樹狀結構，以及 LM 如何超越表面的統計相關性來學習分子的化學知識仍有待深入探索。
該研究專注於將碎片分子編碼為序列，因此僅使用已發布的碎片演算法作為範例來創建「化學詞」。未來的研究可以利用 t-SMILES 來探索其他碎片演算法，更深入地解讀化學句子和意義，這實際上比 NLP 更具挑戰性。
雖然 t-SMILES 旨在提高分子描述的性能並規避 SMILES 的局限性，但該研究並未對更複雜的分子進行實驗。這將是未來研究的主題。
最後，這是將碎片分子編碼為 SMILES 類型字串的一個有希望的開端。進一步的研究可以探索分子重建和最佳化的高階演算法、改進的生成模型和演化技術。此外，研究可以集中在屬性、逆合成和反應預測任務。

註：封面來自網路

以上是分子100%有效，從頭設計配體，湖南大學提出以片段為基礎的分子表徵框架的詳細內容。更多資訊請關注PHP中文網其他相關文章！