DNA 甲基化 在各種生物過程中起著重要作用,包括細胞分化、老化和癌症發展。哺乳動物中最重要的甲基化是 5-甲基胞嘧啶,主要發生在 CpG 二核苷酸的背景下。
全基因組亞硫酸鹽定序 等定序方法可以成功檢測 5-甲基胞嘧啶 DNA 修飾。然而,它們存在讀取長度短的嚴重缺陷,可能會引入擴增偏差。
新加坡A*STAR 的研究人員開發了一種深度學習演算法Rockfish,該演算法透過使用奈米孔定序(Oxford Nanopore Sequencing,ONT) 顯著提高了讀取級5-甲基胞嘧啶檢測能力。
研究以「Rockfish: A transformer-based model for accurate 5-methylcytosine prediction from nanopore sequencing」為題,於 2024 年 7 月 3 日發佈在《Nature Communications》。
考慮到需要一種高精度的讀取級預測方法,研究人員著手使用現代架構 Transformers 開發一種新的、最先進的深度學習方法。他們的方法 Rockfish 依賴原始奈米孔訊號、核鹼基序列和比對資訊來檢測 5mC 修飾。 圖示:Rockfish 架構概述。 (資料來源:論文)研究人員使用高品質的人類和小鼠資料集訓練模型,並在多個R9.4.1 和R10.4.1 資料集上進行測試,包括:
對Rockfish 模型進行了廣泛的評估,並與以下工具進行了比較:
R9.4.1 資料集的Megalodon Remora、Megalodon Rerio 和Nanopolish
位點級預測
與WGBS 的位點級相關性儘管如此,Rockfish 目前尚無法區分 5mC 和 5hmC 甲基化,這是由於缺乏高品質的其他類型修飾的對照資料集。模型在運算效率上仍有提升空間,未來可望透過架構和工程最佳化提高效率。
Rockfish 證明了從 ONT 原始訊號中提取甲基化資訊的能力,其小型模型在所有資料集上表現更優,運行時間更短,展示了額外資料和知識蒸餾的優勢。
5mC 修飾與多種生物學現象相關,如轉錄調控、疾病、衰老等,因此透過單一鹼基分辨率的檢測深入理解DNA 甲基化的作用至關重要,可能有助於疾病的早期診斷和治療策略選擇。 Rockfish 的架構使其易於擴展到檢測各種類型的 DNA 和 RNA 修飾。論文連結:https://www.nature.com/articles/s41467-024-49847-0
以上是基於Transformer的新方法,可從奈米孔定序中準確預測DNA甲基化的詳細內容。更多資訊請關注PHP中文網其他相關文章!