近日,上海交通大學自然科學研究院/物理天文學院/張江高研院/藥學院洪亮教授課題組,聯合上海人工智慧實驗室青年研究員談攀,在蛋白質突變-性質預測上取得重要突破。
這項工作採用全新的訓練策略,在使用極少濕實驗數據的情況下,大大提高了傳統蛋白質預訓練大模型在突變-性質預測的效果。
此研究成果以《Enhancing the efficiency of protein language models with minimal wet-lab data through few-shot learning》為題,於 2024 年 7 月 2 日發表在《Nature Communications》上。
論文連結:酶酶篩選,酶獲得更優的蛋白質產品。傳統濕實驗方法需要反覆進行實驗迭代,耗時耗力。
深度學習方法可以加速蛋白質突變改造,但需要大量蛋白質突變資料訓練模型。取得高品質突變數據又受傳統濕實驗限制。 亟需一種無需大量濕實驗數據即可準確預測蛋白質突變-功能的方法。研究方法
本研究提出FSFP 方法,結合元學習、排序學習和參數高效微調,在僅利用幾十個濕實驗數據的情況下訓練蛋白質預訓練模型,大幅提高突變-性質預測效果。
FSFP 方法:利用蛋白質預訓練模型評估目標蛋白質與ProteinGym中蛋白質的相似度。
圖示:FSFP 概述。 (資料來源:論文)
研究結果
同時,為了研究 FSFP 的有效性。我們在一個特定的蛋白質Phi29 改造案例中進行了濕實驗驗證,FSFP 在只使用20 個濕實驗數據訓練模型的情況下,能夠將原始蛋白質預訓練模型ESM-1v 的top-20 的單點突變預測陽性率提高25%,並且能找到將近10 個全新的陽性單點突變。
圖示:使用 FSFP 工程化 Phi29。 (資料來源:論文)
本工作中,作者提出了一個基於蛋白質預訓練模型的全新的微調訓練方法 FSFP。
FSFP 綜合利用元學習、排序學習以及高效參數微調技術,能在只利用 20 個隨機濕實驗數據的情況下,高效訓練蛋白質預訓練模型,且能大幅提高模型的單點突變預測陽性率。 上述結果表明,FSFP 方法對解決現在蛋白質工程的高實驗週期,降低實驗成本具有重要意義。作者資訊
自然科學研究院/物理與天文學院/張江高等研究院洪亮教授,和上海人工智慧實驗室青年研究員談攀為通訊作者。
上海交大物理天文學院博士後周子宜,碩士生張良,博士生餘元璽,以及生命科學技術學院博士生吳邦昊為共同第一作者。以上是上交大洪亮課題組&上海AI實驗室團隊發布FSFP,基於語言模型的蛋白質功能小樣本預測方法,登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!