Editor |. Kebanyakan LLM popular dilatih menggunakan korpora am seperti Wikipedia, tetapi perubahan pengedaran dalam perbendaharaan kata membawa kepada prestasi yang lemah dalam domain tertentu.
Diinspirasikan oleh ini, NASA bekerjasama dengan IBM untuk membangunkan INDUS, satu set komprehensif LLM yang disesuaikan dan digunakan dalam bidang sains Bumi, biologi, fizik, heliofizik, sains planet dan astrofizik Melatih korpora saintifik yang dipilih susun daripada sumber data yang berbeza.
INDUS mengandungi dua jenis model: pengekod dan pengubah ayat. Pengekod menukar teks bahasa semula jadi kepada pengekodan berangka yang boleh diproses oleh LLM. Pengekod INDUS dilatih pada korpus 60 bilion token yang mengandungi data astrofizik, sains planet, sains bumi, heliofizik, biologi dan sains fizikal.
Penyelidikan berkaitan bertajuk "
INDUS: Model Bahasa Berkesan dan Cekap untuk Aplikasi Saintifik" telah diterbitkan pada platform pracetak arXiv.
Pautan kertas:
https://arxiv.org/abs/2405.10725Sebagai contoh, beberapa penyelidik telah membangunkan LLM dalam beberapa bidang tertentu, seperti SCIBERT, BIOBERT, MATBERT, BATTERYBERT dan SCOLARBERT, dengan tujuan untuk meningkatkan ketepatan tugas NLP di lapangan.
INDUS: Satu Set Komprehensif LLMIlustrasi: Gambaran keseluruhan model INDUS. (Sumber: kertas)
1. Tokenizer tersuai INDUSBPE telah dibina daripada korpus saintifik terpilih menggunakan algoritma pengekodan pasangan bait.
2. LLM berbilang pengekod sahaja yang telah dilatih menggunakan korpora saintifik terpilih dan penanda INDUSBPE. Kami selanjutnya mencipta model benam ayat dengan memperhalusi model pengekod sahaja dengan objektif pembelajaran kontrastif untuk mempelajari benam ayat "universal". Versi yang lebih kecil dan lebih cekap bagi model ini telah dilatih menggunakan teknik pengekstrakan pengetahuan.
3. Mencipta tiga set data penanda aras saintifik baharu, CLIMATE-CHANGE NER (tugas pengecaman entiti), NASA-QA (tugas menjawab soalan pengekstrakan) dan NASA-IR (tugas mendapatkan semula) untuk mempercepatkan lagi Penyelidikan bidang pelbagai disiplin ini.
4 Melalui hasil percubaan, kami menunjukkan prestasi cemerlang model pada tugas penanda aras ini serta penanda aras khusus domain sedia ada, mengatasi model umum seperti RoBERTa dan pengekod domain saintifik seperti SCIBERT.
Berprestasi lebih baik daripada LLM bukan domain khususBerbanding model INDUS dengan model sumber terbuka bersaiz serupa RoBERTaBASE, SCIBERT, MINILM dan TINYBERT.
Dalam tugas pemahaman bahasa semula jadi, antara model asas, INDUSBASE dengan ketara mengatasi model umum RoBERTa pada purata mikro/makro, sambil turut mencapai prestasi kompetitif dalam model sepadan khusus domain biologi SCIBERT.
Jadual: keputusan penilaian BLURB. (Sumber: kertas)
Jadual: Keputusan penanda aras NER perubahan iklim. (Sumber: kertas)
Dalam NASA-QA (tugas menjawab soalan pengekstrakan), memperhalusi set latihan tambahan menggunakan SQuAD yang berkaitan. Semua model telah diperhalusi selama 15 zaman, dan diperhatikan bahawa INDUSBASE mengatasi semua model bersaiz serupa, manakala INDUSSMALL menunjukkan prestasi yang agak kuat.
Jadual: Keputusan penanda aras NASA-QA. (Sumber: Kertas)
Dalam tugas mendapatkan semula, model INDUS dinilai pada dataset NASA-IR dan penanda aras BEIR, yang terdiri daripada 12 tugas mendapatkan semula meliputi pelbagai domain.
Seperti yang ditunjukkan dalam jadual di bawah, kedua-dua model pembenaman ayat berprestasi jauh lebih baik daripada garis dasar pada tugas NASA-IR, sambil masih mengekalkan prestasi yang baik pada beberapa tugas BEIR.
Jadual: Keputusan penilaian NASA-IR dan BEIR. (Sumber: Kertas)
Para penyelidik juga mengukur purata masa perolehan untuk setiap 4,202 pertanyaan ujian mengenai masalah semula jadi BEIR yang ditetapkan pada GPU A100 tunggal. Masa ini termasuk masa untuk mengodkan pertanyaan, korpus dan masa untuk mendapatkan semula dokumen yang berkaitan. Terutama, INDUS-RETRIEVERSMALL mengatasi prestasi INDUS-RETRIEVERBASE pada kedua-dua NASA-IR dan BEIR, manakala kira-kira 4.6 kali lebih pantas.
Penyelidik IBM Bishwaranjan Bhattacharjee mengulas mengenai pendekatan keseluruhan: "Kami bukan sahaja mempunyai perbendaharaan kata tersuai, tetapi kami juga mempunyai korpus profesional yang besar untuk melatih model pengekod dan strategi latihan yang baik, yang membawa kepada prestasi cemerlang. Untuk , versi yang lebih pantas, kami menggunakan carian seni bina saraf untuk mendapatkan seni bina model dan menggunakan penyulingan pengetahuan untuk melatihnya sambil menyelia model yang lebih besar."
Dr. Sylvain Costes, Bahagian Sains Biologi dan Fizikal (BPS) NASA, dibincangkan. Faedah mengintegrasikan INDUS : “Menyepadukan INDUS dengan antara muka pengaturcaraan aplikasi (API) Open Science Data Repository (OSDR) membolehkan kami membangunkan dan merintis bot sembang yang menyediakan keupayaan carian yang lebih intuitif untuk menyemak imbas set data individu Kami sedang meneroka Kaedah untuk menambah baik sistem data kuratorial dalaman OSDR. menggunakan INDUS untuk meningkatkan kecekapan pasukan kuratorial dan mengurangkan jumlah kerja manual yang diperlukan setiap hari.”
Kandungan rujukan:https://techxplore.com/news/2024-06 -nasa-ibm-collaboration-indus -besar.html
Atas ialah kandungan terperinci Disesuaikan khusus untuk lima bidang saintifik utama, NASA dan IBM bekerjasama untuk membangunkan model bahasa besar INDUS. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!