目錄
作為藥物發現的關鍵階段,預測蛋白質-配體結合親和力,長期以來得到了廣泛的研究,這對於高效、準確的藥物篩選至關重要。
在此,研究人員提出了一種新穎的多模態特徵提取(MFE) 框架,該框架首次結合了來自蛋白質表面、3D 結構和序列的信息。
表 1 展示了 MFE 和其他基線模型在蛋白質-配體結合親和力預測任務上的結果。所有模型都使用相同的訓練集和驗證集劃分方法,並在 PDBbind 核心集(版本 2016)上進行測試。可以發現,與所有基準相比,MFE 方法實現了 SOTA 效能。
為了進一步證明不同模態特徵和特徵比對的有效性和必要性,研究人員進行了以下消融研究:W/O 蛋白質表面資訊、W/O 蛋白質結構資訊、W/O 蛋白質序列資訊和無特徵比對。結果如表 2 及圖 2 所示。
超參數分析
特徵對齊分析與可視化
首頁 科技週邊 人工智慧 SOTA性能,廈大多模態蛋白質-配體親和力預測AI方法,首次結合分子表面訊息

SOTA性能,廈大多模態蛋白質-配體親和力預測AI方法,首次結合分子表面訊息

Jul 17, 2024 pm 06:37 PM
人工智慧 蛋白質 理論 藥物 生物學 多模態學習

SOTA性能,廈大多模態蛋白質-配體親和力預測AI方法,首次結合分子表面訊息

編輯 | KX

在藥物研發領域,準確有效地預測蛋白質與配體的結合親和力對於藥物篩選和優化至關重要。然而,目前的研究並沒有考慮到分子表面訊息在蛋白質-配體相互作用中的重要作用。

基於此,來自廈門大學的研究人員提出了一種新穎的多模態特徵提取(MFE)框架,該框架首次結合了蛋白質表面、3D 結構和序列的信息,並使用交叉注意機制進行不同模態之間的特徵對齊。

實驗結果表明,該方法在預測蛋白質-配體結合親和力方面取得了最先進的性能。此外,消融研究證明了該框架內蛋白質表面資訊和多模態特徵對齊的有效性和必要性。

相關研究以「Surface-based multimodal protein–ligand binding affinity prediction」為題,於 6 月 21 日發佈在《Bioinformatics》上。

SOTA性能,廈大多模態蛋白質-配體親和力預測AI方法,首次結合分子表面訊息

論文連結:https://academic.oup.com/bioinformatics/article/40/7/btae413/7697100
gitHubHub 網址:wingubn/SM 蛋白質-配體結合親和力預測研究

作為藥物發現的關鍵階段,預測蛋白質-配體結合親和力,長期以來得到了廣泛的研究,這對於高效、準確的藥物篩選至關重要。

傳統的電腦輔助藥物發現工具使用評分函數(SF)粗略估計蛋白質-配體結合親和力,但準確性較低。分子動力學模擬方法可以提供更準確的結合親和力估計,但通常成本高且耗時。

隨著計算技術的發展和大規模生物數據的日益豐富,基於深度學習的方法在蛋白質-配體結合親和力預測領域顯示出巨大的潛力。

然而,目前的研究主要利用基於序列或結構的表示來預測蛋白質-配體的結合親和力,對蛋白質-配體相互作用至關重要的蛋白質表面資訊的研究相對較少。

分子表面是蛋白質結構的高級表示,它表現出化學和幾何特徵模式,可作為蛋白質與其他生物分子相互作用模式的指紋。因此,一些研究開始使用蛋白質表面資訊來預測蛋白質-配體結合親和力。

但現有的方法主要關注單模態數據,忽略了蛋白質的多模態資訊。此外,在處理蛋白質的多模態訊息時,傳統方法通常以直接的方式連接來自不同模態的特徵,而不考慮它們之間的異質性,這導致無法有效利用模態之間的互補性。

新穎的多模態特徵提取框架

在此,研究人員提出了一種新穎的多模態特徵提取(MFE) 框架,該框架首次結合了來自蛋白質表面、3D 結構和序列的信息。

圖 1:MFE 框架。 (資料來源:論文)SOTA性能,廈大多模態蛋白質-配體親和力預測AI方法,首次結合分子表面訊息

具體來說,研究設計了兩個主要組件:蛋白質特徵提取模組和多模態特徵比對模組。
蛋白質特徵提取模組用於從蛋白質表面、結構和序列資訊中提取初始嵌入。

在多模態特徵比對模組中,使用交叉注意機制實現蛋白質結構、序列嵌入和表面嵌入之間的特徵比對,以獲得統一且資訊豐富的特徵嵌入。

與目前最先進的方法相比,所提出的框架在蛋白質-配體結合親和力預測任務上取得了最佳效果。

SOTA 表現

表 1 展示了 MFE 和其他基線模型在蛋白質-配體結合親和力預測任務上的結果。所有模型都使用相同的訓練集和驗證集劃分方法,並在 PDBbind 核心集(版本 2016)上進行測試。可以發現,與所有基準相比,MFE 方法實現了 SOTA 效能。

SOTA性能,廈大多模態蛋白質-配體親和力預測AI方法,首次結合分子表面訊息消融研究

為了進一步證明不同模態特徵和特徵比對的有效性和必要性,研究人員進行了以下消融研究:W/O 蛋白質表面資訊、W/O 蛋白質結構資訊、W/O 蛋白質序列資訊和無特徵比對。結果如表 2 及圖 2 所示。

SOTA性能,廈大多模態蛋白質-配體親和力預測AI方法,首次結合分子表面訊息

圖 2:消融研究結果。 (來源:論文)

結果表明,當去除表面資訊時,性能會明顯下降,這表明表面資訊在模型中起著至關重要的作用。同樣,排除結構或序列資訊都會導致效能下降,而序列資訊的消除會導致更明顯的下降。這是因為序列資訊包含了蛋白質的全局訊息,這對於模型對蛋白質的全面理解至關重要。

此外,在沒有特徵比對的情況下,模型的表現會下降。這強調了特徵比對在處理多模態資料中的重要性,因為它有助於減少不同模態特徵之間的異質性,從而提高模型有效整合不同模態特徵的能力。

SOTA性能,廈大多模態蛋白質-配體親和力預測AI方法,首次結合分子表面訊息

超參數分析

為了研究不同超參數對模型性能的影響,研究人員進行了以下三個實驗:(i)MFE-A-6:僅使用6 種基本原子類型來表示表面的化學特性,包括氫、碳、氮、氧、磷、硫;(ii)MFE-P-256:僅選擇最靠近配體中心的256 個表面點作為蛋白質口袋表面;(iii)MFE-P -1024:選擇最靠近配體中心的1024 個表麵點作為蛋白質口袋表面。

圖 3 為三種不同的超參數選擇方法在蛋白質-配體結合親和力預測任務上的結果。

SOTA性能,廈大多模態蛋白質-配體親和力預測AI方法,首次結合分子表面訊息

圖 3:超參數分析。 (資料來源:論文)

特徵對齊分析與可視化

為了深入研究特徵對齊對模型性能的影響,研究人員使用主成分分析(PCA) 對測試集中的蛋白質表面、結構和序列特徵進行降維和可視化分析。此方法旨在確定特徵對齊是否可以減輕多模態嵌入之間的異質性。

SOTA性能,廈大多模態蛋白質-配體親和力預測AI方法,首次結合分子表面訊息

圖 4:特徵比對前(a)和特徵比對後(b)的蛋白質表面、結構和序列嵌入降維可視化結果。 (資料來源:論文)

研究發現,特徵對齊顯著增強了蛋白質表面、結構和序列嵌入之間的一致性。這是由於透過注意力機制優化了 Transformer 中的多模態特徵交互,該機制計算了不同特徵之間的注意力權重。這增強了模型捕獲關鍵資訊的能力,使來自不同模態的數據在特徵空間中更緊密地聚集,從而減少了模型識別蛋白質-配體相互作用時的噪音和錯誤。

最後,研究人員總結道,「總之,透過研究蛋白質的表面,我們可以更深入地了解蛋白質如何與其他生物分子相互作用。在未來的工作中,我們將更徹底地探索蛋白質表面,以揭示它們在生物資訊學中的更廣泛應用。

以上是SOTA性能,廈大多模態蛋白質-配體親和力預測AI方法,首次結合分子表面訊息的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

位元組跳動剪映推出 SVIP 超級會員:連續包年 499 元,提供多種 AI 功能 位元組跳動剪映推出 SVIP 超級會員:連續包年 499 元,提供多種 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

突破傳統缺陷檢測的界限,\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。 突破傳統缺陷檢測的界限,\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。 Jul 26, 2024 pm 05:38 PM

在現代製造業中,精準的缺陷檢測不僅是確保產品品質的關鍵,更是提升生產效率的核心。然而,現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性,導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題,由香港科技大學廣州和思謀科技組成的頂尖研究團隊,創新地開發了「DefectSpectrum」資料集,為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示,相較於其他工業資料集,「DefectSpectrum」資料集提供了最多的缺陷標註(5438張缺陷樣本),最細緻的缺陷分類(125個缺陷類別

英偉達對話模式ChatQA進化到2.0版本,上下文長度提到128K 英偉達對話模式ChatQA進化到2.0版本,上下文長度提到128K Jul 26, 2024 am 08:40 AM

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發出來,例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI登Science 數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI登Science Aug 08, 2024 pm 09:22 PM

編輯|KX時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法PhAI,利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡,可以產生準確的電子密度圖。研究表明,這種基於深度學習的從頭算結構解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當於原子分辨率可用數據的10%到20%,而傳統的從頭算方

GoogleAI拿下IMO奧數銀牌,數學推理模型AlphaProof面世,強化學習 is so back GoogleAI拿下IMO奧數銀牌,數學推理模型AlphaProof面世,強化學習 is so back Jul 26, 2024 pm 02:40 PM

對AI來說,奧數不再是問題了。本週四,GoogleDeepMind的人工智慧完成了一項壯舉:用AI做出了今年國際數學奧林匹克競賽IMO的真題,並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題,涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道,獲得28分,達到了銀牌水準。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽(AIMO進步獎),沒想到7月還沒過,AI的做題水平就進步到了這種水平。 IMO上同步做題,做對了最難題IMO是歷史最悠久、規模最大、最負

Nature觀點,人工智慧在醫學上的測試一片混亂,該怎麼做? Nature觀點,人工智慧在醫學上的測試一片混亂,該怎麼做? Aug 22, 2024 pm 04:37 PM

編輯|ScienceAI基於有限的臨床數據,數百種醫療演算法已被批准。科學家們正在討論由誰來測試這些工具,以及如何最好地進行測試。 DevinSingh在急診室目睹了一名兒科患者因長時間等待救治而心臟驟停,這促使他探索AI在縮短等待時間中的應用。 Singh利用了SickKids急診室的分診數據,與同事們建立了一系列AI模型,用於提供潛在診斷和推薦測試。一項研究表明,這些模型可以加快22.3%的就診速度,將每位需要進行醫學檢查的患者的結果處理速度加快近3小時。然而,人工智慧演算法在研究中的成功只是驗證此

為大模型提供全新科學複雜問答基準與評估體系,UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 為大模型提供全新科學複雜問答基準與評估體系,UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

PRO | 為什麼基於 MoE 的大模型更值得關注? PRO | 為什麼基於 MoE 的大模型更值得關注? Aug 07, 2024 pm 07:08 PM

2023年,幾乎AI的每個領域都在以前所未有的速度進化,同時,AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer作為AI大模型主流架構的局面是否會撼動?為何探索基於MoE(專家混合)架構的大模型成為業界新趨勢?大型視覺模型(LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

See all articles