Rumah > Peranti teknologi > AI > Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT

Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT

王林
Lepaskan: 2023-11-27 17:13:46
ke hadapan
1222 orang telah melayarinya

Perkembangan pesat model bahasa besar tahun ini telah menyebabkan model seperti BERT kini dipanggil model "kecil". Dalam pertandingan peperiksaan sains LLM Kaggle, pemain yang menggunakan deberta mencapai tempat keempat, yang merupakan keputusan yang cemerlang. Oleh itu, dalam domain atau keperluan tertentu, model bahasa yang besar tidak semestinya diperlukan sebagai penyelesaian terbaik, dan model kecil juga mempunyai tempatnya. Oleh itu, apa yang akan kami perkenalkan hari ini ialah PubMedBERT, sebuah kertas kerja yang diterbitkan oleh Microsoft Research di ACM pada 2022. Model ini melatih BERT dari awal dengan menggunakan korpora khusus domain

Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT

Berikut adalah Perkara utama kertas kerja:

Untuk domain tertentu dengan jumlah teks tidak berlabel yang banyak, seperti medan bioperubatan, model bahasa pralatihan dari awal adalah lebih berkesan daripada pralatihan model bahasa domain am secara berterusan. Untuk tujuan ini, kami mencadangkan Penanda Aras Pemahaman dan Penaakulan Bahasa Bioperubatan (BLURB) untuk pralatihan khusus domain

PubMedBERT

1, rancangan Prapencarian khusus domain

bermula dari awal

Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT

Domain -pra-latihan khusus dengan ketara mengatasi prestasi pra-latihan berterusan model bahasa tujuan umum, menunjukkan bahawa andaian lazim yang menyokong pra-latihan domain campuran tidak selalu digunakan.

2 set

Menurut penulis, BIRU [45] adalah percubaan pertama untuk mencipta penanda aras NLP dalam bidang bioperubatan. Tetapi liputan BLUE adalah terhad. Untuk aplikasi bioperubatan berdasarkan pubmed, penulis mencadangkan Penanda Aras Pemahaman dan Penaakulan Bahasa Bioperubatan (BLURB).

Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT

PubMedBERT menggunakan korpus khusus domain yang lebih besar (21GB).

Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT

Paparan hasil

Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT

PubMedBERT secara konsisten mengatasi semua model BERT lain dalam kebanyakan tugas pemprosesan bahasa semula jadi (NLP) bioperubatan

, selalunya dengan kelebihan yang jelas

Atas ialah kandungan terperinci Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan