Editor |. Kulit Lobak
Dalam tempoh **panjang** tiga bilion tahun evolusi semula jadi, **bentuk** protein **sedia ada telah terbentuk dan melalui proses pemilihan semula jadi yang panjang. Evolusi adalah seperti eksperimen selari yang dijalankan pada skala masa geologi, melalui mutasi rawak dan mekanisme pemilihan, menapis mengikut urutan, struktur dan fungsi protein.
, Di sini, penyelidik di EvolutionaryScale menunjukkan bahawa model bahasa yang dilatih pada penanda yang dihasilkan oleh evolusi boleh berfungsi sebagai simulator evolusi untuk menjana kefungsian yang berbeza daripada jujukan protein **protein yang diketahui.
, Penyelidik mencadangkan **termaju** ESM3, model bahasa generatif berbilang mod **maju** yang boleh membuat alasan tentang urutan, struktur dan fungsi protein. ESM3 boleh menggabungkan modalitinya untuk mengikuti isyarat kompleks dan sangat sensitif terhadap penjajaran biologi.
Penyelidik menggunakan ESM3 untuk menjana protein pendarfluor **prestasi tinggi**. Salah satu protein pendarfluor yang paling **cekap** mempunyai urutan yang sangat berbeza (58% homologi) daripada protein pendarfluor yang diketahui.
Artikel pracetak penyelidikan ini "Simulating 500 juta tahun evolusi dengan model bahasa" akan dikeluarkan pada platform pracetakbioRxivdalam masa terdekat.
Bagaimanakah evolusi semula jadi mengukir kepelbagaian semasa protein dalam alam semula jadi selama lebih tiga bilion tahun?
Proses ini melibatkan **banyak** mutasi rawak dan peristiwa pemilihan semula jadi Setiap pautan adalah ujian **ketat** bagi urutan, struktur dan fungsi biologi protein Hanya persekitaran yang paling **sesuai** protein yang diubah boleh dikekalkan.
Oleh itu, maklumat jujukan protein sedia ada pada asasnya mengandungi kesan pembolehubah biologi pada laluan evolusi yang panjang berbilion tahun.
Pasukan EvolutionaryScale telah mencadangkan kaedah inovatif yang boleh mensimulasikan proses evolusi besar ini menggunakan model bahasa generatif multimodal yang dipanggil ESM3.
ESM3 bukan sahaja dapat memahami dan menjana jujukan protein, tetapi juga mempertimbangkan secara menyeluruh struktur dan fungsi protein, menjadi alat simulasi evolusi yang berkuasa. Model ini direka bentuk dengan mekanisme perhatian geometri unik yang boleh memproses maklumat struktur tiga dimensi protein dengan cekap, yang penting untuk memahami dan meramalkan tingkah laku protein.
Model bahasa beroperasi pada unit atau token diskret. Untuk mencipta model yang mampu membuat penaakulan tentang tiga sifat biologi asas protein—jujukan, struktur dan fungsi—penyelidik terpaksa menukar struktur dan fungsi tiga dimensi kepada abjad diskret dan membina cara untuk menulis setiap struktur tiga dimensi sebagai kaedah urutan huruf.
Ini membolehkan ESM3 dilatih secara berskala, membuka kunci keupayaan generatif yang muncul. Perbendaharaan kata ESM3 menyepadukan urutan, struktur dan fungsi ke dalam model bahasa yang sama.
Ilustrasi: ESM3 mereka bentuk perancah untuk tapak aktif PETase melalui isyarat jujukan, struktur dan fungsi berbilang mod. (Sumber: kertas)
Matlamat latihan ESM3 adalah mudah. Bagi setiap protein, urutan, struktur, dan fungsinya telah diekstrak, dilabel, dan sebahagiannya bertopeng. ESM3 ditugaskan untuk meramalkan lokasi masking menggunakan objektif pemodelan bahasa masking yang diilhamkan oleh model pemprosesan bahasa semula jadi.
Untuk melaksanakan tugas ini, ESM3 mesti belajar memahami dengan mendalam perkaitan antara jujukan, struktur dan fungsi dalam data skala evolusi. ESM3 belajar untuk mensimulasikan evolusi apabila menskalakan kepada berbilion protein dan berbilion parameter.
ESM3 mampu menjana protein berfungsi yang berbeza daripada urutan protein sedia ada yang diketahui. Model ini dicirikan oleh keupayaannya untuk memahami dan bertindak balas kepada isyarat multimodal yang kompleks sambil sangat sensitif terhadap penjajaran biologi.
ESM3 sangat sensitif terhadap penjajaran biologi, bermakna ia boleh mengenal pasti dan mengikut corak yang berkaitan dengan evolusi dan fungsi biologi dengan tepat. Melalui penjajaran ini, model boleh lebih memahami bagaimana protein berkembang berdasarkan peranan biologi dan permintaan alam sekitar mereka, dengan itu lebih tepat mencerminkan logik biologi alam semula jadi dan kekangan evolusi semasa mereka bentuk protein baharu.
Ia boleh menjana protein baharu mengikut arahan. Keupayaan inferens pelbagai mod ESM3 membolehkan saintis menghasilkan protein baharu dengan tahap kawalan yang belum pernah berlaku sebelum ini. Sebagai contoh, model boleh digesa untuk menggabungkan struktur, urutan dan fungsi untuk mencadangkan perancah yang berpotensi untuk tapak aktif PETase, enzim yang merendahkan polietilena tereftalat (PET), seorang jurutera protein yang memecahkan matlamat penyelidikan sisa plastik.
Menyelesaikan masalah penjanaan yang lebih sukar
Ilustrasi: Model ESM3 dinilai pada tugas menjana protein yang memenuhi isyarat koordinasi atom. (Sumber: Kertas)
Keupayaan ESM3 untuk menyelesaikan tugas reka bentuk protein yang mencabar menjadi jelas apabila skala protein meningkat. Satu tugas tersebut ialah penyelarasan atom, reka bentuk protein berdasarkan isyarat yang menentukan kedudukan atom asid amino yang jauh dalam urutan tetapi lebih dekat dalam struktur.
Ini mengukur keupayaan model untuk mencapai ketepatan tahap atom dalam penjanaan struktur, yang penting untuk mereka bentuk protein berfungsi. Keupayaan ESM3 untuk menyelesaikan tugasan ini meningkat mengikut skala, iaitu, ESM3 menyelesaikan masalah penjanaan yang lebih sukar sebagai fungsi skala.
ESM3 dipertingkatkan lagi dengan maklum balas dengan menggunakan kaedah penjajaran yang serupa dengan Pembelajaran Pengukuhan dengan Maklum Balas Manusia (RLHF) yang diterapkan dalam LLM. Daripada menerima maklum balas daripada manusia, ESM3 boleh memperbaiki dirinya sendiri, memberikan maklum balas tentang kualiti generasinya sendiri. Maklum balas daripada eksperimen makmal basah atau data eksperimen sedia ada juga boleh digunakan untuk menyelaraskan penjanaan ESM3 dengan biologi.
Menjangkau 500 juta tahun jarak evolusi semula jadi
Penyelidik menggunakan ESM3 untuk mereka bentuk protein pendarfluor baharu yang dipanggil esmGFP, yang hanya mempunyai 58% homologi jujukan dengan protein pendarfluor yang paling serupa yang diketahui, iaitu Ia sangat jarang berlaku dalam tiruan sebelumnya. reka bentuk.
Dengan mengarahkan ESM3 untuk memfokuskan pada jujukan dan ciri struktur yang diperlukan untuk pembentukan protein pendarfluor dan memangkinkan tindak balas kromosom, model itu direka bentuk melalui satu siri lelaran, akhirnya menghasilkan esmGFP dengan kesan pendarfluor yang terang.
Protein ini bukan sahaja berbeza secara ketara daripada protein yang diketahui dalam urutan, tetapi juga mempamerkan keamatan pendarfluor yang serupa dengan protein pendarfluor biasa dalam eksperimen. Ini bersamaan dengan jarak evolusi semula jadi yang menjangkau lebih daripada 500 juta tahun.
EvolutionaryScale ialah syarikat bukan untung. Misi mereka adalah untuk membangunkan kecerdasan buatan untuk memahami biologi untuk memberi manfaat kepada kesihatan manusia dan masyarakat melalui kerjasama dengan komuniti saintifik dan penyelidikan terbuka, selamat dan bertanggungjawab. Sejak penubuhannya, projek ESM telah komited untuk membuka sains melalui keluaran kod dan model, dan pasukan komited untuk terus berbuat demikian.
Syarikat itu diasaskan pada Julai 2023 dan telah menyelesaikan pusingan pembiayaan awal AS$142 juta dan telah mencapai kerjasama dengan Amazon dan NVIDIA.
Atas ialah kandungan terperinci Mensimulasikan 500 juta tahun maklumat evolusi, ia merupakan model biologi berskala besar pertama yang secara serentak menyimpulkan urutan, struktur dan fungsi protein.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!