DNA 메틸화는 세포 분화, 노화, 암 발생 등 다양한 생물학적 과정에서 중요한 역할을 합니다. 포유동물에서 가장 중요한 메틸화는 5-메틸시토신이며, 이는 주로 CpG 디뉴클레오티드와 관련하여 발생합니다.
Whole-genome bisulfite sequencing과 같은 시퀀싱 방법을 사용하면 5-메틸시토신 DNA 변형을 성공적으로 감지할 수 있습니다. 그러나 판독 길이가 짧아 증폭 편향이 발생할 수 있다는 심각한 단점이 있습니다.
싱가포르 A*STAR의 연구원들은Oxford Nanopore Sequencing(ONT)피리미딘 검출 기능을 사용하여 읽기 수준 5-메틸시토신을 크게 향상시키는 딥 러닝 알고리즘Rockfish을 개발했습니다.
이 연구의 제목은 "Rockfish: 나노기공 시퀀싱을 통한 정확한 5-메틸시토신 예측을 위한 변환기 기반 모델"이며 2024년 7월 3일 "Nature Communications"에 게재되었습니다.
매우 정확한 읽기 수준 예측 방법의 필요성을 고려하여 연구원들은 최신 아키텍처 Transformer를 사용하여 새로운 최첨단 딥 러닝 방법을 개발하기 시작했습니다. 그들의 방법인 Rockfish는 원시 나노기공 신호, 핵염기 서열 및 정렬 정보를 사용하여 5mC 변형을 감지합니다. 그림: Rockfish 아키텍처 개요. (출처: 논문)연구원들은 고품질 인간 및 마우스 데이터 세트를 사용하여 모델을 훈련하고 다음을 포함한 여러 R9.4.1 및 R10.4.1 데이터 세트에서 테스트했습니다.
R9.4.1과 R10.4.1이 모두 고려됨 NA12878과 신생아 마우스 데이터 세트가 평가에 사용되었으며, 연구자들은 이를 구별하기 위해 웰 버전을 지적했습니다. 나머지 데이터 세트는 R9.4.1 웰 버전만을 사용하여 시퀀싱되었습니다.
R9.4.1 데이터 세트에 대한 Megalodon Remora, Megalodon Rerio 및 Nanopolish
R10.4.1 데이터 세트에 대한 Remora
그림: 읽기 수준 평가. (출처: 논문)
그럼에도 불구하고 Rockfish는 다른 유형의 변형에 대한 고품질 제어 데이터 세트가 부족하여 현재 5mC와 5hmC 메틸화를 구별할 수 없습니다. 모델의 계산 효율성은 아직 개선의 여지가 있으며, 향후 아키텍처 및 엔지니어링 최적화를 통해 효율성이 향상될 것으로 예상됩니다.
Rockfish는 ONT 원시 신호에서 메틸화 정보를 추출하는 능력을 시연했으며, 작은 모델의 성능이 더 좋고 모든 데이터 세트에서 실행 시간이 더 짧아져 추가 데이터 및 지식 증류의 이점을 입증했습니다.
5mC 변형은 전사 조절, 질병, 노화 등 다양한 생물학적 현상과 관련되어 있습니다. 따라서 단일 염기 분해능 검출을 통해 DNA 메틸화의 역할을 깊이 이해하는 것이 중요합니다. 질병의 예방, 조기 진단 및 치료 전략 선택. Rockfish의 아키텍처는 다양한 유형의 DNA 및 RNA 변형을 감지하기 위해 쉽게 확장 가능합니다.
논문 링크: https://www.nature.com/articles/s41467-024-49847-0
위 내용은 새로운 Transformer 기반 방법은 나노기공 시퀀싱에서 DNA 메틸화를 정확하게 예측합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!