5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発

WBOY

リリース： 2024-06-27 20:28:32

オリジナル

838 人が閲覧しました

5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発

INDUS は、南の星座にちなんで名付けられ、5 つの科学分野をサポートする大規模な言語モデルの包括的なセットです。 (出典: NASA)

Editor | KX

大量のデータでトレーニングされた大規模言語モデル (LLM) は、自然言語の理解と生成のタスクで優れたパフォーマンスを発揮します。最も一般的な LLM は、Wikipedia などの一般的なコーパスを使用してトレーニングされますが、語彙の分布変化により、特定のドメインでのパフォーマンスの低下につながります。

これに触発されて、NASA は IBM と協力して、地球科学、生物学、物理学、太陽物理学、惑星科学、天体物理学の分野に合わせて使用される包括的な LLM セットである INDUS を開発しました。さまざまなデータソースから厳選された科学コーパスをトレーニングします。

INDUS には、エンコーダーとセンテンストランスフォーマーの 2 種類のモデルが含まれています。エンコーダーは、自然言語テキストを、LLM が処理できる数値エンコードに変換します。 INDUS エンコーダーは、天体物理学、惑星科学、地球科学、太陽物理学、生物および物理科学のデータを含む 600 億トークンのコーパスでトレーニングされています。

「INDUS: 科学アプリケーションのための効果的かつ効率的な言語モデル」というタイトルの関連研究が、arXiv プレプリントプラットフォームで公開されました。

5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発

論文リンク: https://arxiv.org/abs/2405.10725

一般的なドメインコーパスでトレーニングされた LLM は、自然言語処理 (NLP) タスクで良好に実行します。ただし、これまでの研究では、ドメイン固有のコーパスを使用してトレーニングされた LLM は、特殊なタスクでより優れたパフォーマンスを発揮することが示されています。

たとえば、一部の研究者は、現場での NLP タスクの精度を向上させることを目的として、SCIBERT、BIOBERT、MATBERT、BATTERYBERT、SCHOLARBERT など、いくつかの特定の分野で LLM を開発しました。

INDUS: LLM の包括的なセット

この研究では、研究者たちは、物理学、地球科学、天体物理学、太陽物理学、惑星科学、生物学などの学際的な分野に特に焦点を当てました。

5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発

図: INDUS モデルの概要。 (出典: 論文)

INDUS は、これらの関心領域に焦点を当てたエンコーダーベースの LLM のセットであり、さまざまなソースから慎重に厳選されたコーパスを使用してトレーニングされています。 INDUS に含まれる 50,000 語のうち半分以上は、トレーニングに使用される特定の科学分野に固有の単語です。 INDUS Encoder モデルは、タイトル/概要、質問/回答を含む約 2 億 6,800 万のテキストペアに対して Sentence Transformer モデルを微調整します。

具体的には:

1. カスタムトークナイザー INDUSBPE は、バイトペアエンコーディングアルゴリズムを使用して厳選された科学コーパスから構築されました。

2. 選択された科学コーパスと INDUSBPE タガーを使用して、複数のエンコーダー専用 LLM を事前トレーニングしました。さらに、「普遍的な」文埋め込みを学習するという対照的な学習目標を使用してエンコーダのみのモデルを微調整することにより、文埋め込みモデルを作成します。これらのモデルのより小規模で効率的なバージョンは、知識抽出技術を使用してトレーニングされました。

3. この学際的な分野の研究をさらに加速するために、CLIMATE-CHANGE NER (エンティティ認識タスク)、NASA-QA (抽出質問応答タスク)、NASA-IR (検索タスク) という 3 つの新しい科学ベンチマークデータセットを作成しました。

4. 実験結果を通じて、これらのベンチマークタスクおよび既存のドメイン固有のベンチマークでモデルの優れたパフォーマンスが証明され、RoBERTa などの一般的なモデルや SCIBERT などの科学ドメインエンコーダーを上回ります。

ドメイン固有でない LLM よりも優れたパフォーマンスを発揮

INDUS にドメイン固有の語彙を提供することにより、研究チームは生物医学的タスクのベンチマーク、科学的質問応答ベンチマーク、および地球科学エンティティにおいて、オープンな非ドメイン固有の LLM を上回りました。認識テストの精度が向上します。

INDUS モデルを、同様のサイズのオープンソースモデル RoBERTaBASE、SCIBERT、MINIMLM、TINYBERT と比較しました。

自然言語理解タスクでは、基本モデルの中で、INDUSBASE はミクロ/マクロ平均で一般的な RoBERTa モデルを大幅に上回り、生物学的ドメイン固有の対応モデル SCIBERT でも競合するパフォーマンスを達成しました。

表: BLURB の評価結果。 (出典: 論文)

BLURB は、気候変動 NER タスクにおいて対応するベースラインモデルを大幅に上回り、大規模なドメイン固有データに対するトレーニングの有効性を示しています。

表: 気候変動NERベンチマーク結果。 (出典: 論文)

NASA-QA (抽出質問応答タスク) では、関連する SQuAD を使用して拡張トレーニングセットを微調整します。すべてのモデルは 15 エポックにわたって微調整され、INDUSSMALL が比較的強力なパフォーマンスを示したのに対し、INDUSBASE は同様のサイズのすべてのモデルよりも優れたパフォーマンスを示したことが観察されました。

表: NASA-QA ベンチマーク結果。 (出典: 論文)

検索タスクでは、NASA-IR データセットと BEIR ベンチマークで INDUS モデルが評価されます。これは、さまざまなドメインをカバーする 12 の検索タスクで構成されます。

以下の表に示すように、どちらの文埋め込みモデルも、NASA-IR タスクではベースラインよりも大幅に優れたパフォーマンスを示し、同時にいくつかの BEIR タスクでは良好なパフォーマンスを維持しています。

表: NASA-IR と BEIR の評価結果。 (出典: 論文)

研究者らはまた、単一の A100 GPU 上で BEIR 自然問題セットに対する 4,202 のテストクエリのそれぞれの平均取得時間を測定しました。この時間には、クエリ、コーパスをコーディングする時間、および関連ドキュメントを取得する時間が含まれます。特に、INDUS-RETRIEVERSMALL は、NASA-IR と BEIR の両方で INDUS-RETRIEVERBASE よりも優れたパフォーマンスを示し、約 4.6 倍高速です。

IBM 研究者の Bishwaranjan Bhattacharjee 氏は全体的なアプローチについて次のようにコメントしました:「カスタム語彙を持っているだけでなく、エンコーダーモデルをトレーニングするための大規模な専門的コーパスと優れたトレーニング戦略もあり、それが優れたパフォーマンスにつながります。小規模の場合、より高速なバージョンでは、ニューラルアーキテクチャ検索を使用してモデルアーキテクチャを取得し、より大きなモデルを監視しながら知識の蒸留を使用してそれをトレーニングします。」

NASA 生物物理科学 (BPS) 部門のシルヴァン・コステス博士が説明しました。 : 「INDUS を Open Science Data Repository (OSDR) アプリケーションプログラミングインターフェイス (API) と統合することで、個々のデータセットを閲覧するためのより直感的な検索機能を提供するチャットボットを開発および試験的に使用できるようになります。現在、OSDR の内部キュレーションデータシステムを改善する方法を検討しています。 INDUS を使用してキュレーションチームの効率を高め、毎日必要な手作業の量を削減します。」

参考コンテンツ:https://techxplore.com/news/2024-06. -nasa-ibm-collaboration-indus-ラージ.html

以上が5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。