上交大洪亮課題組&上海AI實驗室團隊發布FSFP，基於語言模型的蛋白質功能小樣本預測方法，登Nature子刊-人工智慧-PHP中文網

上交大洪亮課題組&上海AI實驗室團隊發布FSFP，基於語言模型的蛋白質功能小樣本預測方法，登Nature子刊

王林

發布： 2024-07-11 20:10:28

原創

849 人瀏覽過

上交大洪亮課題組&上海AI實驗室團隊發布FSFP，基於語言模型的蛋白質功能小樣本預測方法，登Nature子刊

編輯| ScienceAI

近日，上海交通大學自然科學研究院/物理天文學院/張江高研院/藥學院洪亮教授課題組，聯合上海人工智慧實驗室青年研究員談攀，在蛋白質突變-性質預測上取得重要突破。

這項工作採用全新的訓練策略，在使用極少濕實驗數據的情況下，大大提高了傳統蛋白質預訓練大模型在突變-性質預測的效果。

此研究成果以《Enhancing the efficiency of protein language models with minimal wet-lab data through few-shot learning》為題，於 2024 年 7 月 2 日發表在《Nature Communications》上。

上交大洪亮課題組&上海AI實驗室團隊發布FSFP，基於語言模型的蛋白質功能小樣本預測方法，登Nature子刊

論文連結：

https://www.nature.com/articles/s41467-024-49798-6

酶酶篩選，酶獲得更優的蛋白質產品。傳統濕實驗方法需要反覆進行實驗迭代，耗時耗力。

深度學習方法可以加速蛋白質突變改造，但需要大量蛋白質突變資料訓練模型。取得高品質突變數據又受傳統濕實驗限制。

亟需一種無需大量濕實驗數據即可準確預測蛋白質突變-功能的方法。

研究方法

本研究提出FSFP 方法，結合元學習、排序學習和參數高效微調，在僅利用幾十個濕實驗數據的情況下訓練蛋白質預訓練模型，大幅提高突變-性質預測效果。

FSFP 方法：

利用蛋白質預訓練模型評估目標蛋白質與ProteinGym中蛋白質的相似度。

利用GEMME對目標蛋白質的評分資料作為第三個輔助任務。
利用排序學習損失函數和Lora訓練方法，在少量濕實驗數據上訓練蛋白質預訓練模型。
測試結果表明，即使原始預測相關性低於 0.1，FSFP 方法在僅利用 20 個濕實驗資料訓練模型後，也能使相關性提升至 0.5 以上。

圖示：FSFP 概述。（資料來源：論文）

上交大洪亮課題組&上海AI實驗室團隊發布FSFP，基於語言模型的蛋白質功能小樣本預測方法，登Nature子刊研究結果

同時，為了研究 FSFP 的有效性。我們在一個特定的蛋白質Phi29 改造案例中進行了濕實驗驗證，FSFP 在只使用20 個濕實驗數據訓練模型的情況下，能夠將原始蛋白質預訓練模型ESM-1v 的top-20 的單點突變預測陽性率提高25%，並且能找到將近10 個全新的陽性單點突變。

圖示：使用 FSFP 工程化 Phi29。（資料來源：論文）

上交大洪亮課題組&上海AI實驗室團隊發布FSFP，基於語言模型的蛋白質功能小樣本預測方法，登Nature子刊

總結

本工作中，作者提出了一個基於蛋白質預訓練模型的全新的微調訓練方法 FSFP。

FSFP 綜合利用元學習、排序學習以及高效參數微調技術，能在只利用 20 個隨機濕實驗數據的情況下，高效訓練蛋白質預訓練模型，且能大幅提高模型的單點突變預測陽性率。

上述結果表明，FSFP 方法對解決現在蛋白質工程的高實驗週期，降低實驗成本具有重要意義。

作者資訊

自然科學研究院/物理與天文學院/張江高等研究院洪亮教授，和上海人工智慧實驗室青年研究員談攀為通訊作者。

上海交大物理天文學院博士後周子宜，碩士生張良，博士生餘元璽，以及生命科學技術學院博士生吳邦昊為共同第一作者。

以上是上交大洪亮課題組&上海AI實驗室團隊發布FSFP，基於語言模型的蛋白質功能小樣本預測方法，登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章！