Disesuaikan khusus untuk lima bidang saintifik utama, NASA dan IBM bekerjasama untuk membangunkan model bahasa besar INDUS

WBOY

Lepaskan： 2024-06-27 20:28:32

asal

839 orang telah melayarinya

Disesuaikan khusus untuk lima bidang saintifik utama, NASA dan IBM bekerjasama untuk membangunkan model bahasa besar INDUS

INDUS, dinamakan sempena buruj selatan, ialah set komprehensif model bahasa berskala besar yang menyokong lima bidang saintifik. (Sumber: NASA)

Editor |. Kebanyakan LLM popular dilatih menggunakan korpora am seperti Wikipedia, tetapi perubahan pengedaran dalam perbendaharaan kata membawa kepada prestasi yang lemah dalam domain tertentu.

Diinspirasikan oleh ini, NASA bekerjasama dengan IBM untuk membangunkan INDUS, satu set komprehensif LLM yang disesuaikan dan digunakan dalam bidang sains Bumi, biologi, fizik, heliofizik, sains planet dan astrofizik Melatih korpora saintifik yang dipilih susun daripada sumber data yang berbeza.

INDUS mengandungi dua jenis model: pengekod dan pengubah ayat. Pengekod menukar teks bahasa semula jadi kepada pengekodan berangka yang boleh diproses oleh LLM. Pengekod INDUS dilatih pada korpus 60 bilion token yang mengandungi data astrofizik, sains planet, sains bumi, heliofizik, biologi dan sains fizikal.

Penyelidikan berkaitan bertajuk "

INDUS: Model Bahasa Berkesan dan Cekap untuk Aplikasi Saintifik

" telah diterbitkan pada platform pracetak arXiv.

Disesuaikan khusus untuk lima bidang saintifik utama, NASA dan IBM bekerjasama untuk membangunkan model bahasa besar INDUS Pautan kertas:

https://arxiv.org/abs/2405.10725

LLM yang dilatih pada korpus domain am berfungsi dengan baik pada tugasan pemprosesan bahasa semula jadi (NLP). Walau bagaimanapun, kajian terdahulu telah menunjukkan bahawa LLM yang dilatih menggunakan korpora khusus domain berprestasi lebih baik pada tugas khusus.

Sebagai contoh, beberapa penyelidik telah membangunkan LLM dalam beberapa bidang tertentu, seperti SCIBERT, BIOBERT, MATBERT, BATTERYBERT dan SCOLARBERT, dengan tujuan untuk meningkatkan ketepatan tugas NLP di lapangan.

INDUS: Satu Set Komprehensif LLM

Dalam kajian ini, penyelidik memberi tumpuan khusus kepada bidang antara disiplin seperti fizik, sains bumi, astrofizik, fizik Suria, sains planet dan biologi.

Disesuaikan khusus untuk lima bidang saintifik utama, NASA dan IBM bekerjasama untuk membangunkan model bahasa besar INDUS Ilustrasi: Gambaran keseluruhan model INDUS. (Sumber: kertas)

INDUS ialah satu set LLM berasaskan pengekod yang memfokuskan pada bidang minat ini, dilatih dengan korpora yang disusun rapi daripada pelbagai sumber. Lebih separuh daripada 50,000 perkataan yang disertakan dalam INDUS adalah unik untuk bidang saintifik khusus yang digunakan untuk latihan. Model INDUS Encoder memperhalusi model Sentence Transformer pada kira-kira 268 juta pasangan teks, termasuk tajuk/ringkasan dan soalan/jawapan.

Khususnya:

1. Tokenizer tersuai INDUSBPE telah dibina daripada korpus saintifik terpilih menggunakan algoritma pengekodan pasangan bait.

2. LLM berbilang pengekod sahaja yang telah dilatih menggunakan korpora saintifik terpilih dan penanda INDUSBPE. Kami selanjutnya mencipta model benam ayat dengan memperhalusi model pengekod sahaja dengan objektif pembelajaran kontrastif untuk mempelajari benam ayat "universal". Versi yang lebih kecil dan lebih cekap bagi model ini telah dilatih menggunakan teknik pengekstrakan pengetahuan.

3. Mencipta tiga set data penanda aras saintifik baharu, CLIMATE-CHANGE NER (tugas pengecaman entiti), NASA-QA (tugas menjawab soalan pengekstrakan) dan NASA-IR (tugas mendapatkan semula) untuk mempercepatkan lagi Penyelidikan bidang pelbagai disiplin ini.

4 Melalui hasil percubaan, kami menunjukkan prestasi cemerlang model pada tugas penanda aras ini serta penanda aras khusus domain sedia ada, mengatasi model umum seperti RoBERTa dan pengekod domain saintifik seperti SCIBERT.

Berprestasi lebih baik daripada LLM bukan domain khusus

Dengan menyediakan INDUS dengan perbendaharaan kata khusus domain, pasukan penyelidik mengatasi LLM terbuka, bukan domain khusus pada tanda aras tugas bioperubatan, tanda aras menjawab soalan saintifik dan entiti sains bumi ujian pengiktirafan lebih baik.

Berbanding model INDUS dengan model sumber terbuka bersaiz serupa RoBERTaBASE, SCIBERT, MINILM dan TINYBERT.

Dalam tugas pemahaman bahasa semula jadi, antara model asas, INDUSBASE dengan ketara mengatasi model umum RoBERTa pada purata mikro/makro, sambil turut mencapai prestasi kompetitif dalam model sepadan khusus domain biologi SCIBERT.

Jadual: keputusan penilaian BLURB. (Sumber: kertas)

BLURB dengan ketara mengatasi model garis dasar yang sepadan mengenai tugas NER perubahan iklim, menunjukkan keberkesanan latihan pada data khusus domain yang besar.

Jadual: Keputusan penanda aras NER perubahan iklim. (Sumber: kertas)

Dalam NASA-QA (tugas menjawab soalan pengekstrakan), memperhalusi set latihan tambahan menggunakan SQuAD yang berkaitan. Semua model telah diperhalusi selama 15 zaman, dan diperhatikan bahawa INDUSBASE mengatasi semua model bersaiz serupa, manakala INDUSSMALL menunjukkan prestasi yang agak kuat.

Jadual: Keputusan penanda aras NASA-QA. (Sumber: Kertas)

Dalam tugas mendapatkan semula, model INDUS dinilai pada dataset NASA-IR dan penanda aras BEIR, yang terdiri daripada 12 tugas mendapatkan semula meliputi pelbagai domain.

Seperti yang ditunjukkan dalam jadual di bawah, kedua-dua model pembenaman ayat berprestasi jauh lebih baik daripada garis dasar pada tugas NASA-IR, sambil masih mengekalkan prestasi yang baik pada beberapa tugas BEIR.

Jadual: Keputusan penilaian NASA-IR dan BEIR. (Sumber: Kertas)

Para penyelidik juga mengukur purata masa perolehan untuk setiap 4,202 pertanyaan ujian mengenai masalah semula jadi BEIR yang ditetapkan pada GPU A100 tunggal. Masa ini termasuk masa untuk mengodkan pertanyaan, korpus dan masa untuk mendapatkan semula dokumen yang berkaitan. Terutama, INDUS-RETRIEVERSMALL mengatasi prestasi INDUS-RETRIEVERBASE pada kedua-dua NASA-IR dan BEIR, manakala kira-kira 4.6 kali lebih pantas.

Penyelidik IBM Bishwaranjan Bhattacharjee mengulas mengenai pendekatan keseluruhan: "Kami bukan sahaja mempunyai perbendaharaan kata tersuai, tetapi kami juga mempunyai korpus profesional yang besar untuk melatih model pengekod dan strategi latihan yang baik, yang membawa kepada prestasi cemerlang. Untuk , versi yang lebih pantas, kami menggunakan carian seni bina saraf untuk mendapatkan seni bina model dan menggunakan penyulingan pengetahuan untuk melatihnya sambil menyelia model yang lebih besar."

Dr. Sylvain Costes, Bahagian Sains Biologi dan Fizikal (BPS) NASA, dibincangkan. Faedah mengintegrasikan INDUS : “Menyepadukan INDUS dengan antara muka pengaturcaraan aplikasi (API) Open Science Data Repository (OSDR) membolehkan kami membangunkan dan merintis bot sembang yang menyediakan keupayaan carian yang lebih intuitif untuk menyemak imbas set data individu Kami sedang meneroka Kaedah untuk menambah baik sistem data kuratorial dalaman OSDR. menggunakan INDUS untuk meningkatkan kecekapan pasukan kuratorial dan mengurangkan jumlah kerja manual yang diperlukan setiap hari.”

Kandungan rujukan:https://techxplore.com/news/2024-06 -nasa-ibm-collaboration-indus -besar.html

Atas ialah kandungan terperinci Disesuaikan khusus untuk lima bidang saintifik utama, NASA dan IBM bekerjasama untuk membangunkan model bahasa besar INDUS. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!