Editor |. ScienceAI
Baru-baru ini, pasukan penyelidik yang diketuai oleh Zhang Haicang dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo untuk mereka bentuk bersama struktur dan urutan tulang belakang secara hujung ke hujung.
Penyelidikan ini diterbitkan pada persidangan pembelajaran mesin ICML 2024 di bawah tajuk "CarbonNovo: Reka Bentuk Bersama Struktur dan Urutan Protein Menggunakan Model Berasaskan Tenaga Bersatu".
Pengenalan latar belakang
Protein ialah makromolekul penting untuk fungsi biologi. Reka bentuk protein de novo bertujuan untuk mencipta protein baharu sepenuhnya dan mempunyai aplikasi yang luas dalam pembangunan ubat dan kejuruteraan enzim.
Dalam beberapa tahun kebelakangan ini, reka bentuk protein de novo berasaskan AI telah berkembang pesat dan telah berjaya digunakan dalam bidang seperti reka bentuk antibodi dan reka bentuk ubat protein kecil Berbanding dengan kaedah reka bentuk tradisional, ia telah meningkatkan kadar kejayaan dan kecekapan reka bentuk dengan ketara.
Reka bentuk protein AI telah mendapat manfaat daripada dua penemuan teknologi utama dalam beberapa tahun kebelakangan ini:
Yang pertama ialah model AlphaFold2 dalam bidang ramalan struktur protein, yang menyediakan seni bina model rangkaian saraf asas dan jujukan protein untuk bidang pengkomputeran protein, termasuk reka bentuk protein dan kaedah perwakilan struktur, serta strategi latihan lanjutan (latihan penyulingan, latihan hujung ke hujung) dan teknologi lain
Kedua, perkembangan pesat AIGC dalam bidang teks, imej dan video; generasi menyediakan model penjanaan matang untuk reka bentuk protein Contohnya, DDPM, SDE, Flow Matching, Bayesian Flow Network, dsb. Idea utama model reka bentuk protein perwakilan, seperti RFDiffusion dan Chroma, adalah untuk mengintegrasikan kedua-dua teknologi ini dan membenamkan jujukan protein dan rangkaian perwakilan struktur ke dalam rangka kerja model generatif berasaskan AI.
Reka bentuk protein de novo terutamanya merangkumi dua langkah, reka bentuk struktur tulang belakang protein dan reka bentuk jujukan (Rajah 1). Sehubungan itu, model arus perdana biasanya menggunakan rangka kerja "dua peringkat": semasa proses latihan, modul reka bentuk struktur dan modul reka bentuk jujukan dilatih secara berasingan semasa proses inferens, struktur rantai utama mula-mula dihasilkan, dan kemudian yang optimum; struktur rantai utama dihasilkan. Secara perwakilan, kedua-dua perisian RFDiffusion dan ProteinMPNN digunakan dalam bidang untuk menjana struktur dan jujukan rantai utama secara bergilir-gilir.
Rangka kerja "dua peringkat" untuk reka bentuk protein de novo mempunyai batasan yang wujud:
CarbonNovo melaksanakan reka bentuk sendi hujung ke hujung struktur dan jujukan
Sebagai tindak balas kepada batasan rangka kerja "dua peringkat" untuk reka bentuk protein, sebuah pasukan penyelidik yang diketuai oleh Zhang Haicang dari Institut Teknologi Pengkomputeran, Akademi Sains China mencadangkan CarbonNovo untuk mereka bentuk struktur rantai utama protein secara bersama-sama dan urutan. Kertas itu baru-baru ini diterbitkan pada persidangan pembelajaran mesin ICML 2024.
Rajah 2: CarbonNovo menjana struktur protein dan jujukan hujung ke hujung. (Sumber: kertas)
Sumbangan utama CarbonNovo diringkaskan seperti berikut:
Model tenaga bersama bagi struktur-jujukan protein
Di bawah model fizikal klasik, konformasi protein semulajadi mempunyai tenaga bebas yang agak rendah, yang juga merupakan andaian umum untuk ramalan dan reka bentuk struktur protein. Berdasarkan ini, CarbonNovo menubuhkan model tenaga bersama struktur dan jujukan protein:
Rajah 2 menunjukkan proses penjanaan khusus CarbonNovo:
Penilaian prestasi CarbonNovo untuk menjana urutan struktur protein
Kertas ini menggunakan pelbagai penunjuk untuk menilai sepenuhnya prestasi CarbonNovo dalam reka bentuk protein de novo (Rajah 3, contohnya, kebolehlipatan, kepelbagaian dan kebaharuan adalah penunjuk penilaian yang biasa digunakan dalam lapangan). Selain itu, kertas kerja ini juga menggunakan tenaga Rosetta dan kebarangkalian kemungkinan (Sequence plausibility) di bawah model bahasa sebagai penunjuk penilaian.
CarbonNovo dibandingkan dengan model reka bentuk "dua peringkat" arus perdana semasa, seperti RFdiffusion, Chroma, Genie, FrameDiff dan FrameFlow. CarbonNovo dengan ketara melebihi semua kaedah garis dasar dalam penunjuk kebolehlipatan paling kritikal, dan juga dengan ketara melebihi atau bersamaan dengan kaedah garis dasar dalam penunjuk lain.
Untuk menunjukkan kelebihan CarbonNovo dalam mereka bentuk bersama urutan dan struktur, penulis juga membandingkan hasil penjanaan jujukan menggunakan ProteinMPNN (Rajah 3 a-c). Dapat diperhatikan bahawa model reka bentuk sendi boleh mereka bentuk struktur dan urutan tulang belakang protein yang lebih sepadan.
Pengarang menilai lagi prestasi CarbonNovo pada reka bentuk protein dengan panjang yang berbeza (Rajah 4). Apabila mereka bentuk protein yang lebih pendek (cth., panjang 100), model berprestasi sama baik. Apabila panjang protein bertambah, prestasi reka bentuk CarbonNovo jauh lebih baik daripada model reka bentuk "dua peringkat".
Eksperimen Ablasi
Pengarang melatih pelbagai model ablasi untuk menilai sumbangan relatif komponen utama kepada prestasi CarbonNovo (Rajah 5). Model bahasa, modul reka bentuk jujukan, dan kehilangan latihan tambahan semuanya menyumbang kepada prestasi CarbonNovo. Antaranya, pengenalan model bahasa menunjukkan sumbangan yang paling ketara. Di samping itu, menggunakan modul reka bentuk jujukan berasaskan tenaga boleh meningkatkan prestasi reka bentuk jujukan dengan ketara berbanding model autoregresif.
Kajian kes: "interpolasi" struktur protein
Dalam bidang penjanaan imej, interpolasi/kecerunan imej muka ialah aplikasi klasik model generatif. Penulis juga cuba menggunakan CarbonNovo untuk interpolasi struktur protein.
Rajah 5 menunjukkan contoh yang representatif Memandangkan berat semua vektor struktur heliks alfa secara beransur-ansur meningkat dalam ruang terpendam, struktur semua helaian beta yang dijana akan beransur-ansur beralih kepada semua struktur heliks alfa.
Ini adalah percubaan interpolasi pertama mengenai struktur protein di lapangan, dan ia juga mencerminkan bahawa ruang tersembunyi protein yang dipelajari oleh CarbonNovo adalah agak padat.
Kesimpulan
Akhirnya, penulis menegaskan bahawa walaupun CarbonNovo terutamanya memberi tumpuan kepada reka bentuk monomer protein, ia juga boleh dengan mudah diperluaskan kepada kompleks protein Reka bentuk bahan dan reka bentuk keadaan, seperti reka bentuk peptida, reka bentuk antibodi, dsb.
Pasukan pengarang sedang bekerjasama dengan pasukan eksperimen biologi untuk mengesahkan protein yang direka oleh CarbonNovo melalui eksperimen basah.
Pasukan CarbonMatrix tempat pengarang bekerja telah lama komited terhadap reka bentuk protein AI dan reka bentuk ubat AI, dan sedang mewujudkan model penjanaan bersatu untuk reka bentuk dan ramalan struktur makromolekul biologi.
Hasil penyelidikannya telah diterbitkan dalam persidangan pembelajaran mesin terkemuka seperti ICML dan NeurIPS dan jurnal akademik terkemuka seperti Nature Machine Intelligence dan Nature Communications Beliau juga sedang bekerjasama dengan makmal biologi untuk mempromosikan aplikasi secara aktif model AI dalam Pelaksanaan perindustrian dalam bidang reka bentuk ubat.
Atas ialah kandungan terperinci Pasukan dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo, reka bentuk de novo hujung-ke-hujung berasaskan AI bagi struktur dan jujukan protein.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!