Kumpulan penyelidikan Da Hongliang di Universiti Jiao Tong Shanghai & pasukan Makmal AI Shanghai mengeluarkan FSFP, kaedah ramalan sampel kecil untuk fungsi protein berdasarkan model bahasa, yang diterbitkan dalam sub-jurnal Nature-AI-php.cn

Kumpulan penyelidikan Da Hongliang di Universiti Jiao Tong Shanghai & pasukan Makmal AI Shanghai mengeluarkan FSFP, kaedah ramalan sampel kecil untuk fungsi protein berdasarkan model bahasa, yang diterbitkan dalam sub-jurnal Nature

王林

Lepaskan： 2024-07-11 20:10:28

asal

910 orang telah melayarinya

Editor |. ScienceAI

Baru-baru ini, kumpulan penyelidik Profesor Hong Liang dari Institut Sains Semula Jadi/Sekolah Fizik dan Astronomi/Institut Penyelidikan Lanjutan Zhangjiang/Sekolah Farmasi Shanghai Jiao Tong University, dan penyelidik muda dari Makmal Kepintaran Buatan Shanghai bercakap tentang mutasi protein - Penemuan penting telah dibuat dalam ramalan harta benda.

Kerja ini mengguna pakai strategi latihan baharu, yang meningkatkan prestasi model besar pra-latihan protein tradisional dalam ramalan sifat mutasi menggunakan data eksperimen basah yang sangat sedikit.

Hasil penyelidikan bertajuk "Meningkatkan kecekapan model bahasa protein dengan data makmal basah yang minimum melalui pembelajaran beberapa pukulan" dan diterbitkan dalam "Komunikasi Alam Semulajadi" pada 2 Julai 2024.

Pautan kertas:

https://www.nature.com/articles/s41467-024-49798-6

Latar belakang penyelidikan memerlukan kejuruteraan

kejuruteraan untuk saya produk protein yang lebih baik. Kaedah eksperimen basah tradisional memerlukan lelaran percubaan berulang, yang memakan masa dan intensif buruh.

Kaedah pembelajaran mendalam boleh mempercepatkan transformasi mutasi protein, tetapi memerlukan sejumlah besar data mutasi protein untuk melatih model. Mendapatkan data mutasi berkualiti tinggi dihadkan oleh eksperimen basah tradisional.

Terdapat keperluan mendesak untuk kaedah yang boleh meramalkan fungsi mutasi protein dengan tepat tanpa sejumlah besar data eksperimen basah.

Kaedah Penyelidikan

Kajian ini mencadangkan kaedah FSFP, yang menggabungkan meta-pembelajaran, pembelajaran ranking dan penalaan halus parameter yang cekap untuk melatih model pra-latihan protein menggunakan hanya berpuluh-puluh data eksperimen basah, meningkatkan mutasi dengan sangat baik. -kesan ramalan harta .

Kaedah FSFP:

Gunakan model pra-latihan protein untuk menilai persamaan antara protein sasaran dan protein dalam ProteinGym.
Pilih dua set data ProteinGym yang paling hampir dengan protein sasaran sebagai tugas bantu meta-pembelajaran.
Gunakan data pemarkahan GEMME bagi protein sasaran sebagai tugas tambahan ketiga.
Gunakan fungsi kehilangan pembelajaran ranking dan kaedah latihan Lora untuk melatih model pra-latihan protein pada sejumlah kecil data eksperimen basah.

Keputusan ujian menunjukkan bahawa walaupun korelasi ramalan asal adalah lebih rendah daripada 0.1, kaedah FSFP boleh meningkatkan korelasi ke atas 0.5 selepas melatih model menggunakan hanya 20 data eksperimen basah.

Ilustrasi: Gambaran keseluruhan FSFP. (Sumber: kertas)

Hasil penyelidikan
Pada masa yang sama, untuk mengkaji keberkesanan FSFP. Kami menjalankan eksperimen basah dalam kes tertentu pengubahsuaian protein Phi29 dapat meramalkan mutasi titik tunggal 20 teratas model pra-latihan protein asal ESM-1v apabila hanya 20 data eksperimen basah digunakan untuk melatih model. Kadar kepositifan meningkat sebanyak 25%, dan hampir 10 mutasi titik tunggal positif baharu boleh ditemui.

Ilustrasi: Kejuruteraan Phi29 menggunakan FSFP. (Sumber: Kertas)

Ringkasan

Dalam karya ini, penulis mencadangkan kaedah latihan penalaan halus baharu FSFP berdasarkan model pra-latihan protein.

FSFP secara menyeluruh menggunakan meta-pembelajaran, pembelajaran ranking dan teknologi penalaan halus parameter yang cekap untuk melatih model pra-latihan protein dengan cekap menggunakan hanya 20 data percubaan basah rawak, dan boleh meningkatkan kadar positif ramalan mutasi titik tunggal model dengan lebih baik. .

Keputusan di atas menunjukkan bahawa kaedah FSFP adalah sangat penting dalam menyelesaikan kitaran percubaan yang tinggi dan mengurangkan kos percubaan dalam kejuruteraan protein semasa.

Maklumat pengarang

Profesor Hong Liang dari Akademi Sains Semula Jadi/Sekolah Fizik dan Astronomi/Institut Kajian Lanjutan Zhangjiang, dan Tan Peng, seorang penyelidik muda di Makmal Kepintaran Buatan Shanghai, adalah pengarang yang sepadan.

Rakan pascadoktoral Zhou Ziyi dari Sekolah Fizik dan Astronomi Universiti Jiao Tong Shanghai, pelajar sarjana Zhang Liang, pelajar kedoktoran Yu Yuanxi dan pelajar kedoktoran Wu Banghao dari Sekolah Sains dan Teknologi Hayat ialah pengarang pertama bersama.

Atas ialah kandungan terperinci Kumpulan penyelidikan Da Hongliang di Universiti Jiao Tong Shanghai & pasukan Makmal AI Shanghai mengeluarkan FSFP, kaedah ramalan sampel kecil untuk fungsi protein berdasarkan model bahasa, yang diterbitkan dalam sub-jurnal Nature. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!