Meta AI membuka 600 juta+ peta struktur protein metagenomik, dan 15 bilion model bahasa telah disiapkan dalam masa dua minggu-AI-php.cn

Tahun ini, DeepMind menerbitkan struktur ramalan kira-kira 220 juta protein, yang meliputi hampir semua protein organisma yang diketahui dalam pangkalan data DNA. Kini satu lagi gergasi teknologi, Meta, sedang mengisi kekosongan lain, iaitu mikrob.

Ringkasnya, Meta menggunakan teknologi AI untuk meramalkan struktur kira-kira 600 juta protein daripada bakteria dan mikroorganisma lain yang belum dicirikan. Ketua pasukan Alexander Rives berkata: "Protein ini adalah struktur yang paling kurang kita ketahui, dan ia adalah protein yang sangat misteri. Saya rasa penemuan ini memberikan potensi untuk pemahaman yang lebih mendalam tentang biologi."

Lazimnya, model bahasa dilatih pada jumlah teks yang banyak. Meta Untuk menggunakan model bahasa pada protein, Rives dan rakan sekerja mengambil urutan protein yang diketahui sebagai input, yang terdiri daripada 20 asid amino yang diwakili oleh huruf yang berbeza. Rangkaian kemudian belajar untuk melengkapkan protein secara automatik sambil menutup bahagian tertentu asid amino.

Meta menamakan rangkaian ini ESMFold. Walaupun ketepatan ramalan ESMFold tidak sebaik AlphaFold, ia adalah kira-kira 60 kali lebih pantas daripada AlphaFold dalam meramalkan struktur. Kelajuan ini bermakna ramalan struktur protein boleh ditingkatkan kepada pangkalan data yang lebih besar.

Meta AI membuka 600 juta+ peta struktur protein metagenomik, dan 15 bilion model bahasa telah disiapkan dalam masa dua minggu

Alamat kertas: https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2
Alamat projek: https://github.com/facebookresearch/esm

Sekarang, Sebagai ujian, Meta memutuskan untuk menggunakan model mereka pada pangkalan data DNA metagenomik, semuanya diperoleh daripada alam sekitar, termasuk tanah, air laut, usus manusia, kulit dan habitat mikrob lain. Meta AI mengumumkan pelancaran ESM Metagenomic Atlas yang mengandungi lebih daripada 600 juta protein, yang merupakan pandangan komprehensif pertama tentang "jirim gelap" alam semesta protein . Ia juga merupakan pangkalan data terbesar bagi struktur ramalan resolusi tinggi, 3 kali lebih besar daripada mana-mana pangkalan data struktur protein sedia ada, dan yang pertama menyediakan liputan komprehensif, berskala besar bagi protein metagenomik.

Meta AI membuka 600 juta+ peta struktur protein metagenomik, dan 15 bilion model bahasa telah disiapkan dalam masa dua minggu

Secara keseluruhan, pasukan Meta meramalkan lebih daripada 617 juta struktur protein dalam masa dua minggu sahaja. Rives berkata ramalan itu percuma dan tersedia kepada sesiapa sahaja, sama seperti kod asas model itu.

Meta AI membuka 600 juta+ peta struktur protein metagenomik, dan 15 bilion model bahasa telah disiapkan dalam masa dua minggu

Alamat versi interaktif: https://esmatlas.com/explore?at=1%2C1%2C21.999999344348925

Sebagai contoh, gambar di bawah menunjukkan ramalan enzim PET oleh ESMFold.

Meta AI membuka 600 juta+ peta struktur protein metagenomik, dan 15 bilion model bahasa telah disiapkan dalam masa dua minggu

Pengenalan

Seperti yang kita sedia maklum, protein adalah molekul kompleks dan dinamik yang dikodkan oleh gen dan bertanggungjawab terutamanya untuk proses asas kehidupan. Protein mempunyai peranan yang menakjubkan dalam biologi. Sebagai contoh, batang dan kon dalam mata manusia boleh merasakan cahaya, jadi kita boleh melihat dunia luar yang membentuk asas pendengaran dan sentuhan dalam tumbuhan yang menukar tenaga cahaya kepada molekul; yang mendorong mikroorganisma dan "motor" yang membuat otot manusia bergerak;

Pada tahun 1998, Jo Handelsman dari Jabatan Patologi Tumbuhan di Universiti Wisconsin mula-mula mencadangkan konsep metagenomik pada tahap tertentu, ia boleh dianggap sebagai idea penyelidikan dan analisis genom tunggal, dan nama Inggeris makro ialah meta-, yang juga diterjemahkan sebagai meta.

Metagenomics mendedahkan berbilion-bilion jujukan protein yang baru kepada sains dan dikatalogkan buat pertama kali oleh NCBI, Institut Bioinformatik Eropah dan dalam pangkalan data besar yang disusun oleh projek awam seperti Institut Genom Bersama .

Kaedah lipatan protein baharu yang dibangunkan oleh Meta AI yang memanfaatkan model bahasa yang besar untuk mencipta pandangan komprehensif pertama struktur protein dalam pangkalan data metagenomik (dengan ratusan juta protein). Meta mendapati bahawa model bahasa boleh meramalkan struktur tiga dimensi tahap atom protein 60 kali lebih cepat daripada kaedah ramalan struktur protein SOTA sedia ada. Kemajuan ini akan membantu mempercepatkan era baharu pemahaman struktur protein, yang membolehkan buat kali pertama memahami struktur berbilion-bilion protein yang dikatalogkan oleh teknologi penjujukan genetik.

Membuka dunia tersembunyi alam semula jadi: pandangan komprehensif pertama ruang struktur metagenomik

Kami tahu bahawa kemajuan dalam penjujukan genetik telah membolehkan analisis berbilion-bilion jujukan protein metagenomik Pengkatalogan menjadi mungkin. Tetapi secara eksperimen menentukan struktur 3D berbilion-bilion protein melangkaui skop teknik makmal intensif masa seperti kristalografi sinar-X, yang boleh mengambil masa beberapa minggu atau bahkan bertahun-tahun untuk mengesan satu protein. Pendekatan pengiraan boleh memberikan pandangan tentang protein metagenomik yang tidak mungkin menggunakan teknik eksperimen.

Pemetaan metagenomik ESM akan membolehkan saintis mencari dan menganalisis struktur protein metagenomik pada skala ratusan juta protein. Ini boleh membantu mengenal pasti struktur yang tidak dicirikan sebelum ini, mencari hubungan evolusi yang jauh dan menemui protein baharu yang boleh digunakan dalam perubatan dan aplikasi lain.

Berikut ialah peta yang mengandungi puluhan ribu ramalan berkeyakinan tinggi, menunjukkan persamaan dengan protein dengan struktur yang diketahui pada masa ini. Dan, buat pertama kalinya, imej itu menunjukkan kawasan ruang struktur protein yang lebih besar yang tidak diketahui sepenuhnya.

Meta AI membuka 600 juta+ peta struktur protein metagenomik, dan 15 bilion model bahasa telah disiapkan dalam masa dua minggu

Belajar membaca bahasa biologi

Seperti yang ditunjukkan dalam rajah di bawah, model bahasa ESM-2 telah dilatih untuk meramal proses evolusi Asid amino bertopeng mengikut urutan. Meta AI mendapati bahawa, sebagai hasil latihan, maklumat tentang struktur protein muncul dalam keadaan dalaman model. Ini mengejutkan kerana model itu hanya dilatih mengikut urutan.

Meta AI membuka 600 juta+ peta struktur protein metagenomik, dan 15 bilion model bahasa telah disiapkan dalam masa dua minggu

Sama seperti teks kertas atau surat, protein boleh ditulis sebagai jujukan aksara. Setiap watak sepadan dengan satu daripada 20 unsur kimia piawai (asid amino), masing-masing mempunyai sifat yang berbeza dan yang merupakan blok binaan protein. Blok binaan ini boleh disatukan dengan cara yang berbeza secara astronomi, contohnya untuk protein yang terdiri daripada 200 asid amino, terdapat 20^200 urutan yang mungkin, iaitu lebih daripada bilangan atom dalam alam semesta yang boleh dilihat. Setiap jujukan dilipat menjadi bentuk 3D (tetapi tidak semua jujukan dilipat menjadi struktur yang koheren, banyak yang dilipat menjadi bentuk tidak teratur), dan bentuk inilah yang menentukan sebahagian besar fungsi biologi protein.

Belajar membaca bahasa biologi memberikan cabaran yang hebat. Walaupun kedua-dua urutan protein dan petikan teks boleh ditulis sebagai aksara, terdapat perbezaan yang mendalam dan asas di antara mereka. Urutan protein menerangkan struktur kimia molekul yang dilipat menjadi bentuk 3D yang kompleks mengikut undang-undang fizik.

Jujukan protein mengandungi corak statistik yang menyampaikan maklumat tentang struktur lipatan protein. Sebagai contoh, jika dua kedudukan dalam protein berkembang bersama, atau dalam erti kata lain, jika asid amino tertentu berlaku pada satu kedudukan yang biasanya berpasangan dengan asid amino tertentu pada kedudukan yang lain, ini mungkin bermakna kedua-dua kedudukan berada dalam interaksi struktur terlipat. Ini serupa dengan dua keping teka-teki jigsaw, di mana evolusi mesti memilih asid amino yang sesuai bersama dalam struktur terlipat. Ini pula bermakna bahawa kita sering boleh membuat kesimpulan struktur protein dengan memerhati corak dalam urutannya.

ESM menggunakan AI untuk belajar membaca corak ini. Pada 2019, Meta AI memberikan bukti bahawa model bahasa mempelajari sifat protein, seperti struktur dan fungsinya. Melalui satu bentuk pembelajaran penyeliaan sendiri yang dipanggil pemodelan bahasa bertopeng, Meta AI melatih model bahasa mengenai jujukan berjuta-juta protein semula jadi. Menggunakan kaedah ini, model mesti mengisi celah dalam perenggan teks dengan betul, seperti "Ke _ atau tidak kepada , itu adalah _____".

Selepas itu, Meta AI melatih model bahasa untuk mengisi jurang dalam jujukan protein. Mereka mendapati bahawa maklumat tentang struktur dan fungsi protein muncul semasa latihan ini. Pada tahun 2020, Meta mengeluarkan model bahasa protein SOTA, ESM1b, untuk pelbagai aplikasi, termasuk membantu saintis meramalkan evolusi COVID-19 dan menemui punca genetik penyakit itu.

Kini, Meta AI telah memperluaskan pendekatan ini untuk mencipta model bahasa protein generasi seterusnya ESM-2, yang pada 15 bilion parameter merupakan model bahasa protein terbesar setakat ini. Mereka mendapati bahawa apabila parameter model ditingkatkan daripada 8 juta kepada 15 bilion, maklumat muncul dalam perwakilan dalaman, membolehkan ramalan struktur 3D pada resolusi atom.

Mencapai tertib pecutan magnitud dalam lipatan protein

Dalam rajah di bawah, apabila model diperbesarkan, struktur protein resolusi tinggi muncul. Pada masa yang sama, apabila model berskala, butiran baharu muncul dalam imej resolusi atom struktur protein.

Meta AI membuka 600 juta+ peta struktur protein metagenomik, dan 15 bilion model bahasa telah disiapkan dalam masa dua minggu

Menggunakan alat pengiraan SOTA semasa, meramalkan struktur ratusan juta jujukan protein dalam rangka masa yang realistik akan mengambil masa bertahun-tahun, walaupun menggunakan penyelidikan utama institusi Begitu juga dengan sumber. Oleh itu, untuk membuat ramalan pada skala metagenomik, satu kejayaan dalam kelajuan ramalan adalah penting.

Meta AI mendapati bahawa menggunakan model bahasa bagi jujukan protein dengan ketara mempercepatkan ramalan struktur, sehingga 60 kali ganda. Ini mencukupi untuk membuat ramalan pada keseluruhan pangkalan data metagenomik dalam beberapa minggu sahaja dan boleh diskalakan kepada pangkalan data yang lebih besar daripada pangkalan data kami yang diterbitkan sekarang. Malah, keupayaan ramalan struktur baharu ini dapat meramalkan jujukan lebih daripada 600 juta protein metagenom dalam masa dua minggu sahaja pada kelompok kira-kira 2,000 GPU.

Selain itu, kaedah ramalan struktur SOTA semasa memerlukan pencarian pangkalan data protein yang besar untuk mengenal pasti jujukan yang berkaitan. Kaedah ini sebenarnya memerlukan keseluruhan set jujukan berkaitan evolusi sebagai input supaya ia boleh mengekstrak corak berkaitan struktur. Model bahasa ESM-2 Meta AI mempelajari corak evolusi ini semasa latihannya tentang jujukan protein, membolehkan ramalan resolusi tinggi struktur 3D terus daripada jujukan protein.

Rajah di bawah menunjukkan lipatan protein menggunakan model bahasa ESM-2. Anak panah dari kiri ke kanan menunjukkan aliran maklumat dalam rangkaian daripada model bahasa ke batang lipat ke modul struktur, dan akhirnya mengeluarkan koordinat dan keyakinan 3D.

Meta AI membuka 600 juta+ peta struktur protein metagenomik, dan 15 bilion model bahasa telah disiapkan dalam masa dua minggu

Sila rujuk artikel asal untuk butiran lanjut.

Pautan blog: https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/

Atas ialah kandungan terperinci Meta AI membuka 600 juta+ peta struktur protein metagenomik, dan 15 bilion model bahasa telah disiapkan dalam masa dua minggu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!