Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT-AI-php.cn

Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT

王林

Lepaskan： 2023-11-27 17:13:46

ke hadapan

1222 orang telah melayarinya

Perkembangan pesat model bahasa besar tahun ini telah menyebabkan model seperti BERT kini dipanggil model "kecil". Dalam pertandingan peperiksaan sains LLM Kaggle, pemain yang menggunakan deberta mencapai tempat keempat, yang merupakan keputusan yang cemerlang. Oleh itu, dalam domain atau keperluan tertentu, model bahasa yang besar tidak semestinya diperlukan sebagai penyelesaian terbaik, dan model kecil juga mempunyai tempatnya. Oleh itu, apa yang akan kami perkenalkan hari ini ialah PubMedBERT, sebuah kertas kerja yang diterbitkan oleh Microsoft Research di ACM pada 2022. Model ini melatih BERT dari awal dengan menggunakan korpora khusus domain

Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT

Berikut adalah Perkara utama kertas kerja:

Untuk domain tertentu dengan jumlah teks tidak berlabel yang banyak, seperti medan bioperubatan, model bahasa pralatihan dari awal adalah lebih berkesan daripada pralatihan model bahasa domain am secara berterusan. Untuk tujuan ini, kami mencadangkan Penanda Aras Pemahaman dan Penaakulan Bahasa Bioperubatan (BLURB) untuk pralatihan khusus domain

PubMedBERT

1, rancangan Prapencarian khusus domain

bermula dari awal

Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT

Domain -pra-latihan khusus dengan ketara mengatasi prestasi pra-latihan berterusan model bahasa tujuan umum, menunjukkan bahawa andaian lazim yang menyokong pra-latihan domain campuran tidak selalu digunakan.

2 set

Menurut penulis, BIRU [45] adalah percubaan pertama untuk mencipta penanda aras NLP dalam bidang bioperubatan. Tetapi liputan BLUE adalah terhad. Untuk aplikasi bioperubatan berdasarkan pubmed, penulis mencadangkan Penanda Aras Pemahaman dan Penaakulan Bahasa Bioperubatan (BLURB).

Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT

PubMedBERT menggunakan korpus khusus domain yang lebih besar (21GB).

Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT

Paparan hasil

Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT

PubMedBERT secara konsisten mengatasi semua model BERT lain dalam kebanyakan tugas pemprosesan bahasa semula jadi (NLP) bioperubatan

, selalunya dengan kelebihan yang jelas

Atas ialah kandungan terperinci Model pra-latihan khusus untuk domain NLP bioperubatan: PubMedBERT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!