LLaMA や Mistral などの大規模言語モデルの成功を受けて、多くの企業が独自の大規模言語モデルを作成し始めています。ただし、新しいモデルを最初からトレーニングするには費用がかかり、機能が冗長になる可能性があります。
最近、中山大学と Tencent AI Lab の研究者は、「複数の異種大規模モデルを融合する」ために使用される FuseLLM を提案しました。
従来のモデル統合や重み付けマージ方法とは異なり、FuseLLM は、複数の異種大規模言語モデルの知識を融合する新しい方法を提供します。複数の大規模な言語モデルを同時にデプロイしたり、モデルの結果を結合したりする代わりに、FuseLLM は軽量の継続的トレーニング方法を使用して、個々のモデルの知識と機能を融合された大規模な言語モデルに転送します。このアプローチのユニークな点は、推論時に複数の異種大規模言語モデルを使用し、その知識を融合モデルに外部化できることです。このようにして、FuseLLM はモデルのパフォーマンスと効率を効果的に向上させます。
この論文は arXiv で公開されたばかりで、多くの注目を集め、ネチズンから転送されています。
誰かが別の言語でモデルをトレーニングするのは面白いだろうと考えていて、私はそれについて考えてきました。それ。
#この論文は ICLR 2024 に受理されました。
複数の異種大規模言語モデルのトークナイザーと語彙リストの違いを考慮して、複数の表現を融合する場合、単語の分割結果をどのように揃えるのですか? Aメジャー キー: トークン レベルでの正確な一致に加えて、FuseLLM は最小編集距離に基づいて語彙レベルのアラインメントをさらに設計し、表現内の利用可能な情報を最大限に保持します。
それぞれの強みを維持しながら、複数の大規模な言語モデルの集合的な知識を結合するには、融合モデルで生成された表現の戦略を慎重に設計する必要があります。具体的には、FuseLLM は、生成された表現とラベル テキストの間のクロス エントロピーを計算することで、さまざまな大規模言語モデルがこのテキストをどの程度理解しているかを評価し、クロス エントロピーに基づいて 2 つの融合関数を導入します。
#MinCE: 複数の大規模モデルを入力して現在のテキストの表現を生成し、最小のクロス エントロピーで表現を出力します;
実験部分では、著者は、ソース モデルが Have である、一般的だが困難な大規模言語モデルの融合シナリオを検討します。構造や機能における小さな共通点。具体的には、7B規模で実験を実施し、融合する大規模モデルとしてLlama-2、OpenLLaMA、MPTの代表的な3つのオープンソースモデルを選定した。
著者は、一般推論、常識推論、コード生成、テキスト生成、命令追従などのシナリオで FuseLLM を評価し、すべてのソース モデルと比較して大幅なパフォーマンスの向上を達成し、ベースライン モデルを継続的にトレーニングしていることがわかりました。
#一般的な推論と常識的な推論
#一般的な推論能力をテストするビッグベンチ ハード ベンチマークでは、継続トレーニング後の Llama-2 CLM は、Llama-2 と比較して 27 のタスクで平均 1.86% の向上を達成しましたが、FuseLLM は Llama-2 と比較して平均 1.86% の向上を達成しました。 5.16% の改善が達成され、これは Llama-2 CLM よりも大幅に優れており、FuseLLM が複数の大規模言語モデルの利点を組み合わせてパフォーマンスの向上を達成できることを示しています。常識的な推論能力をテストする Common Sense Benchmark では、FuseLLM はすべてのソース モデルとベースライン モデルを上回り、すべてのタスクで最高のパフォーマンスを達成しました。
#コード生成とテキスト生成
# オンコード生成機能をテストする MultiPL-E ベンチマークでは、FuseLLM は 10 タスク中 9 タスクで Llama-2 を上回り、平均 6.36% のパフォーマンス向上を達成しました。 FuseLLM が MPT および OpenLLaMA を超えない理由は、ターゲットの大規模言語モデルとして Llama-2 を使用しているためである可能性があります。Llama-2 は、コード生成機能が弱く、継続学習コーパス内のコード データの割合が低く、約7.59%。
知識質問回答 (TrivialQA)、読解力 (DROP)、内容分析 (LAMBADA)、機械翻訳 (IWSLT2017)、定理適用 (SciBench) を測定する複数のテキスト生成ベンチマーク、FuseLLMまた、すべてのタスクですべてのソース モデルを上回り、タスクの 80% で Llama-2 CLM を上回ります。
# ディレクティブは
## に従います。FuseLLM のみなので、融合のために複数のソース モデルの表現を抽出し、ターゲット モデルを継続的にトレーニングする必要があるため、大規模な言語モデルを微調整する命令の融合にも適用できます。命令追従能力を評価する Vicuna Benchmark でも、FuseLLM はすべてのソース モデルと CLM を上回る優れたパフォーマンスを達成しました。
FuseLLM と知識の蒸留、モデルの統合、重み付けのマージ
知識の蒸留は、大規模な言語モデルのパフォーマンスを向上させるための表現を使用する方法でもあることを考慮して、著者は FuseLLM と Llama-2 13B で蒸留された Llama-2 KD を比較しました。結果は、FuseLLM が、異なるアーキテクチャを持つ 3 つの 7B モデルを融合することにより、単一の 13B モデルからの蒸留よりも優れたパフォーマンスを発揮することを示しています。
FuseLLM を既存の融合手法 (モデル アンサンブルや重みマージなど) と比較するために、著者は同じ構造ベース モデルから複数のソース モデルをシミュレートしました。しかし、さまざまなコーパスで継続的にトレーニングし、さまざまなテストベンチマークでさまざまな方法の複雑さをテストしました。すべての融合手法は複数のソース モデルの利点を組み合わせることができますが、FuseLLM は最も低い平均パープレキシティを達成できることがわかります。これは、FuseLLM がモデル アンサンブルおよび重みマージ手法よりも効果的にソース モデルの集合的な知識を組み合わせる可能性があることを示しています。
最後に、コミュニティは大規模モデルの融合に注目していますが、現在の実践は主に重みのマージに基づいており、異なる構造やサイズのモデル融合シナリオに拡張することはできません。 FuseLLM は異種モデルの融合に関する予備研究にすぎませんが、技術コミュニティには現在、さまざまな構造やサイズの言語、視覚、音声、およびマルチモーダルの大きなモデルが多数存在することを考慮すると、これらの異種モデルの融合はどのようなものになるでしょうか。未来に爆発?驚異のパフォーマンス?様子を見てみましょう!
以上が複数の異種大規模モデルの融合が驚くべき結果をもたらすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。