Menewaskan 25 algoritma reka bentuk molekul, Georgia Tech, University of Toronto, dan Cornell mencadangkan model bahasa besar MOLLEO-AI-php.cn

Menewaskan 25 algoritma reka bentuk molekul, Georgia Tech, University of Toronto, dan Cornell mencadangkan model bahasa besar MOLLEO

Pengarang |. Wang Haorui, Institut Teknologi Georgia

Editor |. Algoritma evolusi (EA) biasanya digunakan untuk mengoptimumkan sasaran kotak hitam dalam penemuan molekul dengan merentasi ruang kimia melalui mutasi rawak dan silang, tetapi ini menghasilkan penilaian sasaran yang meluas dan mahal.

Dalam kerja ini, penyelidik dari Institut Teknologi Georgia, Universiti Toronto dan Universiti Cornell bekerjasama untuk mencadangkan Pengoptimuman Evolusi Dipertingkatkan Bahasa Molekul (MOLLEO), yang mengintegrasikan model bahasa besar (LLM) yang telah dilatih dengan pengetahuan kimia ke dalam evolusi. pengoptimuman Dalam algoritma, keupayaan pengoptimuman molekul algoritma evolusi telah dipertingkatkan dengan ketara.

Kajian itu, bertajuk "

Pencarian Evolusi yang Cekap Di Ruang Kimia dengan Model Bahasa Besar

", telah diterbitkan pada platform pracetak arXix pada 23 Jun.

Menewaskan 25 algoritma reka bentuk molekul, Georgia Tech, University of Toronto, dan Cornell mencadangkan model bahasa besar MOLLEO Pautan kertas:

https://arxiv.org/abs/2406.16976

Cabaran pengiraan besar penemuan molekul

melibatkan proses evaluasi berulang dan sintesis molekul yang kompleks penambahbaikan mempunyai pelbagai aplikasi dunia nyata, termasuk reka bentuk ubat, reka bentuk bahan, menambah baik tenaga, masalah penyakit, dsb. Proses ini selalunya lambat dan susah payah, malah penilaian pengiraan anggaran memerlukan sumber yang ketara disebabkan oleh keadaan reka bentuk yang kompleks dan penilaian sifat molekul yang sering memerlukan penilaian yang mahal (seperti eksperimen basah, bioassay dan simulasi pengiraan).

Oleh itu, membangunkan algoritma carian, ramalan dan penjanaan molekul yang cekap telah menjadi tumpuan penyelidikan dalam bidang kimia untuk mempercepatkan proses penemuan. Khususnya, kaedah didorong pembelajaran mesin telah memainkan peranan penting dalam mengenal pasti dan mencadangkan calon molekul yang menjanjikan dengan pantas.

Disebabkan kepentingan masalah tersebut, pengoptimuman molekul telah mendapat perhatian yang besar, termasuk lebih daripada 20 algoritma reka bentuk molekul yang telah dibangunkan dan diuji (antaranya, kaedah pengoptimuman gabungan seperti algoritma genetik dan pembelajaran pengukuhan adalah mendahului model generatif yang lain. dan algoritma pengoptimuman berterusan ),

Sila rujuk artikel ulasan terbaru

sub-jurnal Nature untuk butiran. Salah satu kaedah yang paling berkesan ialah algoritma evolusi (EAs) Ciri-ciri algoritma ini ialah ia tidak memerlukan penilaian kecerunan, jadi ia sangat sesuai untuk pengoptimuman objektif kotak hitam dalam penemuan molekul. Walau bagaimanapun, kelemahan utama algoritma ini ialah ia menjana struktur calon secara rawak tanpa mengeksploitasi maklumat khusus tugas, menyebabkan keperluan untuk penilaian fungsi objektif yang meluas. Oleh kerana menilai atribut adalah mahal, pengoptimuman molekul bukan sahaja mencari struktur molekul dengan sifat terbaik yang dijangkakan, tetapi juga meminimumkan bilangan penilaian fungsi objektif (yang juga bersamaan dengan meningkatkan kecekapan carian).

Baru-baru ini, LLM telah menunjukkan beberapa keupayaan asas dalam pelbagai tugas berkaitan kimia, seperti meramalkan sifat molekul, mendapatkan semula molekul optimum, mengautomasikan eksperimen kimia dan menjana molekul dengan sifat sasaran. Memandangkan LLM dilatih pada korpora teks berskala besar yang meliputi pelbagai tugas, mereka menunjukkan keupayaan pemahaman bahasa umum dan pengetahuan kimia asas, menjadikannya alat yang menarik untuk tugas penemuan kimia.

Walau bagaimanapun, banyak kaedah berasaskan LLM bergantung pada pembelajaran dalam konteks dan kejuruteraan kiu, yang boleh menjadi masalah apabila mereka bentuk molekul dengan matlamat berangka yang ketat, kerana LLM boleh menghadapi kesukaran untuk memenuhi kekangan berangka yang tepat atau mengoptimumkan sasaran berangka tertentu. Tambahan pula, kaedah yang bergantung semata-mata pada pembayang LLM mungkin menjana molekul dengan asas fizikal yang lemah atau menjana rentetan SMILES yang tidak sah yang tidak boleh dinyahkodkan kepada struktur kimia.

Pengoptimuman Evolusi Dipertingkatkan Bahasa Molekul

Dalam kajian ini, kami mencadangkan Pengoptimuman Evolusi Dipertingkatkan Bahasa Molekul (MOLLEO), yang menyepadukan LLM ke dalam EA untuk meningkatkan kualiti calon yang dihasilkan dan mempercepatkan proses pengoptimuman. MOLLEO menggunakan LLM sebagai pengendali genetik untuk menjana calon baharu melalui persilangan atau mutasi. Kami menunjukkan buat kali pertama bagaimana LLM boleh disepadukan ke dalam rangka kerja EA untuk penjanaan molekul.

Dalam kajian ini, kami mempertimbangkan tiga model bahasa dengan keupayaan berbeza: GPT-4, BioT5 dan MoleculeSTM. Kami menyepadukan setiap LLM ke dalam prosedur crossover dan mutasi yang berbeza dan menunjukkan pilihan reka bentuk kami melalui kajian ablasi.

Kami telah membuktikan prestasi unggul MOLLEO melalui percubaan pada berbilang tugas pengoptimuman kotak hitam, termasuk pengoptimuman satu objektif dan berbilang objektif. Untuk semua tugas, termasuk dok ligan protein yang lebih mencabar, MOLLEO mengatasi EA garis dasar dan 25 kaedah garis dasar yang kuat yang lain. Selain itu, kami menunjukkan keupayaan MOLLEO untuk mengoptimumkan lagi molekul perencat JNK3 terbaik dalam pangkalan data ZINC 250K.

Rangka kerja MOLLEO kami adalah berdasarkan algoritma evolusi yang mudah, algoritma Graph-GA, dan meningkatkan kefungsiannya dengan menyepadukan LLM yang sedar kimia dalam operasi genetik.

Kami mula-mula menggariskan pernyataan masalah, menekankan keperluan untuk meminimumkan penilaian objektif yang mahal dalam pengoptimuman kotak hitam. MOLLEO menggunakan LLM seperti GPT-4, BioT5 dan MoleculeSTM untuk menjana molekul calon baharu berpandukan penerangan sasaran.

Secara khusus, dalam langkah silang, bukannya menggabungkan dua molekul induk secara rawak, kami menggunakan LLM untuk menjana molekul yang memaksimumkan fungsi kecergasan sasaran. Dalam langkah mutasi, pengendali memutasi ahli paling cergas bagi populasi semasa mengikut perihalan sasaran. Walau bagaimanapun, kami mendapati bahawa LLM tidak selalu menjana calon dengan kecergasan yang lebih tinggi daripada molekul input, jadi kami membina tekanan pemilihan untuk menapis molekul yang diedit berdasarkan persamaan struktur.

Hasil eksperimen

Kami menilai MOLLEO pada 18 tugasan. Tugasan dipilih daripada penanda aras dan pangkalan data PMO dan TDC dan boleh dibahagikan kepada kategori berikut:

Pengoptimuman berasaskan struktur: Optimumkan molekul mengikut struktur sasaran, termasuk penjanaan isomer berdasarkan formula molekul sasaran (isomer_c9pf2cl2o) dan Dua tugas berdasarkan padanan atau mengelakkan motif perancah dan substruktur (deco_hop, scaffold_hop).
Pengoptimuman berasaskan nama: Termasuk mencari sebatian yang serupa dengan ubat-ubatan yang diketahui (mestranol_similarity, thiothixene_rediscovery) dan tiga tugas pengoptimuman berbilang atribut (MPO) yang menemui semula ubat sambil menemui semula mereka (cth. Perindopril, Sitagolazine) seperti sifat-sifat lain seperti Optimizer, Sitagolazine hidrofobisiti (LogP) dan kebolehtelapan (TPSA). Walaupun tugas-tugas ini terutamanya melibatkan penemuan semula ubat-ubatan sedia ada dan bukannya reka bentuk molekul baharu, mereka menunjukkan keupayaan pengoptimuman kimia asas LLM.
Pengoptimuman Harta: Termasuk tugas pengoptimuman harta mudah QED, yang mengukur persamaan molekul molekul. Kami kemudian memberi tumpuan kepada tiga tugas dalam PMO, mengukur aktiviti molekul terhadap protein berikut: DRD2 (reseptor dopamin D2), GSK3β (glikogen synthase kinase-3β), dan JNK3 (c-Jun N-terminal kinase-3). Selain itu, kami menyertakan tiga tugas dok ligan protein dalam TDC (reka bentuk ubat struktur) yang lebih dekat dengan reka bentuk ubat dunia sebenar daripada sifat fizikokimia yang mudah.

Untuk menilai kaedah kami, kami mengikuti kaedah penanda aras PMO, dengan mengambil kira nilai sasaran dan belanjawan pengiraan, dan melaporkan kawasan di bawah lengkung (AUC top-k) bagi nilai atribut purata k teratas dan nombor daripada panggilan fungsi sasaran.

Sebagai penanda aras perbandingan, kami menggunakan model teratas dalam penanda aras PMO, termasuk REINVENT berdasarkan pembelajaran pengukuhan, algoritma evolusi asas Graph-GA dan proses Gaussian Bayesian optimization GP BO.

Menewaskan 25 algoritma reka bentuk molekul, Georgia Tech, University of Toronto, dan Cornell mencadangkan model bahasa besar MOLLEO

Ilustrasi: 10 AUC teratas bagi tugasan sasaran tunggal. (Sumber: kertas)

Kami menjalankan eksperimen pengoptimuman objektif tunggal pada 12 tugasan PMO Keputusan ditunjukkan dalam jadual di atas Kami melaporkan skor 10 teratas AUC bagi setiap tugas dan kedudukan keseluruhan setiap model. Hasilnya menunjukkan bahawa menggunakan mana-mana model bahasa besar (LLM) sebagai pengendali genetik boleh meningkatkan prestasi melebihi Graph-GA lalai dan semua model garis dasar lain.

GPT-4 mengatasi semua model dalam 9 daripada 12 tugasan, menunjukkan keberkesanan dan prospeknya sebagai model bahasa besar umum dalam penjanaan molekul. BioT5 mencapai keputusan kedua terbaik antara semua model ujian, dengan jumlah skor hampir dengan GPT-4, menunjukkan bahawa model kecil yang dilatih dan diperhalusi tentang pengetahuan domain juga mempunyai prospek aplikasi yang baik dalam MOLLEO.

MOLSTM ialah model kecil berdasarkan model CLIP yang diperhalusi pada perihalan bahasa semula jadi molekul dan formula kimia molekul Kami menggunakan algoritma penurunan kecerunan dalam algoritma evolusi untuk menghasilkan molekul baharu yang berbeza pada penerangan bahasa semula jadi yang sama, dan prestasinya juga mengatasi kaedah asas yang lain.

Menewaskan 25 algoritma reka bentuk molekul, Georgia Tech, University of Toronto, dan Cornell mencadangkan model bahasa besar MOLLEO

Ilustrasi: JNK3 menghalang kecergasan populasi yang berlaku apabila bilangan lelaran meningkat. (Sumber: kertas)

Untuk mengesahkan keberkesanan penyepaduan LLM ke dalam rangka kerja EA, kami menunjukkan taburan skor kumpulan molekul rawak awal pada tugas JNK3. Selepas itu, kami melakukan satu pusingan penyuntingan pada semua molekul dalam kolam dan memplotkan taburan skor JNK3 bagi molekul yang diedit.

Hasilnya menunjukkan bahawa pengedaran yang diedit oleh LLM semuanya beralih sedikit ke arah skor yang lebih tinggi, menunjukkan bahawa LLM memang menyediakan pengubahsuaian yang berguna. Walau bagaimanapun, skor sasaran keseluruhan masih rendah, jadi penyuntingan satu langkah tidak mencukupi dan pengoptimuman berulang menggunakan algoritma evolusi diperlukan di sini.

Menewaskan 25 algoritma reka bentuk molekul, Georgia Tech, University of Toronto, dan Cornell mencadangkan model bahasa besar MOLLEO

Ilustrasi: Purata skor dok 10 molekul teratas apabila didok dengan protein reseptor DRD3, EGFR atau adenosin A2A. (Sumber: kertas)

Sebagai tambahan kepada 12 tugas pengoptimuman objektif tunggal dalam PMO, kami juga menguji MOLLEO pada tugas dok ligan protein yang lebih mencabar, yang lebih dekat dengan senario penjanaan molekul dunia sebenar berbanding tugas objektif tunggal. Angka di atas ialah plot purata skor dok bagi sepuluh molekul terbaik MOLLEO dan Graph-GA berbanding bilangan panggilan fungsi sasaran.

Hasilnya menunjukkan bahawa dalam ketiga-tiga protein, skor dok molekul yang dihasilkan oleh kaedah kami hampir semuanya lebih baik daripada model garis dasar dan kelajuan penumpuan adalah lebih cepat. Antara tiga model bahasa yang kami gunakan, BioT5 menunjukkan prestasi terbaik. Pada hakikatnya, skor dok yang lebih baik dan penumpuan yang lebih pantas boleh mengurangkan bilangan bioassay yang diperlukan untuk menyaring molekul, menjadikan proses itu lebih menjimatkan kos dan masa.

Menewaskan 25 algoritma reka bentuk molekul, Georgia Tech, University of Toronto, dan Cornell mencadangkan model bahasa besar MOLLEO

Ilustrasi: Jumlah dan pecahan hipervolum untuk tugasan berbilang objektif. (Sumber: kertas)

Menewaskan 25 algoritma reka bentuk molekul, Georgia Tech, University of Toronto, dan Cornell mencadangkan model bahasa besar MOLLEO

Ilustrasi: Pareto visualisasi optimum Graf-GA dan MOLLEO pada tugasan berbilang objektif. (Sumber: Kertas)

Untuk pengoptimuman berbilang objektif, kami mempertimbangkan dua metrik: AUC top-10 daripada jumlah markah semua objektif pengoptimuman dan hipervolume set optimum Pareto. Kami membentangkan hasil pengoptimuman berbilang objektif pada tiga tugas. Tugasan 1 dan 2 diilhamkan oleh matlamat penemuan dadah dan bertujuan untuk mengoptimumkan tiga matlamat serentak: memaksimumkan QED molekul, meminimumkan skor kebolehcapaian sintetik (SA) (bermaksud lebih mudah untuk disintesis), dan memaksimumkan sumbangannya kepada JNK3 (Tugas 1) atau GSK3β (Tugas 2) mengikat markah. Tugasan 3 adalah lebih mencabar kerana ia memerlukan pengoptimuman serentak lima objektif: memaksimumkan skor pengikatan QED dan JNK3, dan meminimumkan skor pengikatan GSK3β, markah pengikatan DRD2 dan skor SA.

Kami mendapati bahawa MOLLEO (GPT-4) secara konsisten mengatasi prestasi Graf-GA garis dasar dalam kedua-dua hipervolume dan penjumlahan merentas ketiga-tiga tugasan. Dalam rajah, kami menggambarkan set optimum Pareto (dalam ruang objektif) kaedah kami dan Graf-GA dalam Tugasan 1 dan Tugasan 2. Prestasi model bahasa sumber terbuka berkurangan apabila berbilang sasaran diperkenalkan. Kami membuat spekulasi bahawa kemerosotan prestasi ini mungkin berpunca daripada ketidakupayaan mereka untuk menangkap sejumlah besar konteks padat maklumat.

Menewaskan 25 algoritma reka bentuk molekul, Georgia Tech, University of Toronto, dan Cornell mencadangkan model bahasa besar MOLLEO

Ilustrasi: Memulakan MOLLEO menggunakan molekul terbaik dalam ZINC 250K. (Sumber: kertas)

Matlamat utama algoritma evolusi adalah untuk memperbaiki sifat kumpulan molekul awal dan menemui molekul baharu Untuk meneroka keupayaan MOLLEO meneroka molekul baharu, kami memulakan kumpulan molekul dengan yang terbaik. molekul dalam ZINC 250K, dan kemudian gunakan MOLLEO dan Graph-GA untuk pengoptimuman. Keputusan percubaan pada tugas JNK3 menunjukkan bahawa algoritma kami secara konsisten mengatasi model garis dasar Graph-GA dan dapat menambah baik pada molekul terbaik yang terdapat dalam set data sedia ada.

Selain itu, kami juga menyedari bahawa set latihan BioT5 ialah pangkalan data ZINC20 (mengandungi 1.4 bilion sebatian), dan set latihan MoleculeSTM ialah pangkalan data PubChem (kira-kira 250,000 molekul). Kami menyemak sama ada molekul akhir yang dihasilkan oleh setiap model dalam tugas JNK3 muncul dalam dataset yang sepadan. Didapati bahawa molekul yang dihasilkan tidak bertindih dengan yang terdapat dalam set data. Ini menunjukkan model tersebut mampu menghasilkan molekul baru yang tidak terdapat dalam set latihan.

Boleh digunakan untuk penemuan ubat, bahan, reka bentuk biomolekul

Penemuan dan reka bentuk molekul ialah bidang yang kaya dengan banyak aplikasi praktikal, banyak di luar skop kajian semasa tetapi masih relevan dengan rangka kerja yang dicadangkan. MOLLEO menggabungkan LLM dengan algoritma EA untuk menyediakan rangka kerja algoritma yang fleksibel melalui teks tulen Pada masa hadapan, MOLLEO boleh digunakan untuk senario seperti penemuan dadah, simulasi komputer yang mahal dan reka bentuk bahan atau biomolekul besar.

Kerja masa hadapan Kami akan terus menumpukan pada cara meningkatkan kualiti molekul yang dihasilkan, termasuk nilai sasaran dan kelajuan penemuannya. Memandangkan LLM terus maju, kami menjangkakan bahawa prestasi rangka kerja MOLLEO juga akan terus bertambah baik, menjadikannya alat yang menjanjikan dalam aplikasi kimia generatif.

Atas ialah kandungan terperinci Menewaskan 25 algoritma reka bentuk molekul, Georgia Tech, University of Toronto, dan Cornell mencadangkan model bahasa besar MOLLEO. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!