生物医学 NLP ドメインの特定の事前トレーニング済みモデル: PubMedBERT-AI-php.cn

生物医学 NLP ドメインの特定の事前トレーニング済みモデル: PubMedBERT

王林

リリース： 2023-11-27 17:13:46

転載

1226 人が閲覧しました

今年の大規模言語モデルの急速な開発により、BERT のようなモデルは「小規模」モデルと呼ばれるようになりました。 Kaggle の LLM 科学試験コンテストでは、deberta を使用しているプレイヤーが 4 位に入賞するという素晴らしい成績を収めました。したがって、特定のドメインまたはニーズでは、必ずしも大規模な言語モデルが最適なソリューションとして必要なわけではなく、小規模なモデルにも適した場所があります。したがって、今日紹介するのは、2022 年の ACM で Microsoft Research によって発表された論文、PubMedBERT です。このモデルは、ドメイン固有のコーパス

## を使用して、BERT を最初から事前学習します。生物医学 NLP ドメインの特定の事前トレーニング済みモデル: PubMedBERT

#論文の主な要点は次のとおりです:

生物医学ドメインなど、ラベルのないテキストが大量に含まれる特定のドメインの場合は、事前トレーニングが必要です。スクラッチからの言語モデルは、一般的なドメイン言語モデルの継続的な事前トレーニングよりも効果的です。この目的を達成するために、私たちはドメイン固有の事前トレーニングのために生物医学的言語理解と推論ベンチマーク (BLURB) を提案します

PubMedBERT

1 、ドメイン固有の事前トレーニング

生物医学 NLP ドメインの特定の事前トレーニング済みモデル: PubMedBERT

# 研究によると、ゼロからのドメイン固有の事前トレーニングは、一般的な言語モデルの継続的な事前トレーニングよりも大幅に優れており、ハイブリッドのサポートが実証されています。ドメインの事前トレーニングに関する一般的な仮定が常に適用されるわけではありません。

2. モデル

マスクされた言語モデル (MLM) の場合、BERT モデルを使用し、単語全体のマスキング (WWM) の要件を満たします。は必要です単語全体をマスクします

#3. BLURB データセット

生物医学 NLP ドメインの特定の事前トレーニング済みモデル: PubMedBERT

著者によると、BLUE [45] は、生物医学分野で NLP ベンチマークを作成する最初の試みです。しかし、BLUEのカバー範囲は限られています。 pubmed に基づく生物医学アプリケーションについて、著者は Biomedical Language Understanding and Reasoning Benchmark (BLURB) を提案しています。

生物医学 NLP ドメインの特定の事前トレーニング済みモデル: PubMedBERT