スタンフォード大学の70億パラメータ「アルパカ」の欠点を補うために、中国語に堪能な大規模モデルがオープンソース化されている-AI-php.cn

BELLE は Stanford Alpaca に基づいており、中国語用に最適化されています。モデルのチューニングには ChatGPT によって生成されたデータのみが使用されます (他のデータは含まれません)。

ChatGPT の最初のリリースからほぼ 4 か月が経過しました。 GPT-4 が先週リリースされると、ChatGPT はすぐに新しいバージョンをリリースしました。しかし、よく知られている秘密は、ChatGPT も GPT-4 もオープンソースになる可能性が低いということです。コンピューティング能力と膨大なトレーニングデータへの巨額の投資と相まって、研究コミュニティがその実装プロセスを再現するには多くのハードルがあります。

ChatGPT などの大規模モデルの猛攻撃に直面している場合、オープンソースの置き換えは良い選択です。今月初め、Meta は、パラメーターサイズが 70 億から 650 億の範囲にある新しい大規模モデルシリーズ、LLaMA (Large Language Model Meta AI) を「オープンソース」しました。 130 億パラメータの LLaMA モデルは、「ほとんどのベンチマークで」1750 億パラメータの GPT-3 を上回り、単一の V100 GPU で実行できます。

数日後、スタンフォード大学は、LLaMA 7B に基づいて 70 億のパラメーターを備えた新しいモデル Alpaca を微調整しました。彼らは、Self-Instruct 論文で紹介されたテクノロジーを使用して 52K の命令データを生成し、いくつかの修正を加えました。 , 人間による予備評価では、Alpaca 7B モデルは Self-Instruct 命令の評価において text-davinci-003 (GPT-3.5) モデルと同様のパフォーマンスを示しました。

残念ながら、Alpaca のシードタスクはすべて英語であり、収集されるデータも英語であるため、トレーニング済みモデルは中国語用に最適化されていません。中国語での対話モデルの有効性を向上させるために、より良い方法はあるでしょうか?心配しないでください。次に紹介するプロジェクトはこの問題をうまく解決します。

オープンソースの中国語対話大規模モデルBELLE(Bloom-Enhanced Large Language Model Engine) は 70 億のパラメータを備えています。これは Stanford の Alpaca をベースにしていますが、中国語の最適化と、生成されたコードにいくつかの変更が加えられており、それだけでなく、モデルのチューニングには ChatGPT によって生成されたデータのみが使用されます (他のデータは含まれません)。

データに関しては、プロジェクトは Alpaca に基づくデータ収集コードをオープンソース化しました。このコードに基づいて、約 100 万個の中国語データが生成されました。Alpaca の 50,000 個の英語データと組み合わせると、 BLOOMZ-7BモデルでトレーニングしたチェックポイントをHugging Faceにアップロードします。

Hugging Face アドレス: https://huggingface.co/BelleGroup

プロジェクト作成者は次のように述べています: このプロジェクトは、中国語対話の大規模モデルオープンソースコミュニティの開発を促進することを目的としています。

スタンフォード大学の70億パラメータ「アルパカ」の欠点を補うために、中国語に堪能な大規模モデルがオープンソース化されている

プロジェクトアドレス: https://github.com/LianjiaTech/BELLE

プロジェクト紹介

プロジェクトには主に以下の 4 つが含まれますパーツコンテンツ:

175 中国シードタスク
データを生成するコード
0.5M 生成されたデータ
BLOOMZ-7B1-mt 最適化に基づく最終モデル

データリリース

1. zh_seed_tasks.jsonl: 175 個のシードタスクが含まれます。サンプルは次のとおりです。

{" id ": "seed_task_20", "name": "horror_movie_opening", "instruction": "ホラー映画のクリエイティブなオープニングシーンを書く必要があります。", "instances": [{"input": "","output ":" 夕日が沈み、暗い街が残った。誰もいない通りにそよ風が吹き抜け、外に出る者はみな寒気を感じた。風に吹かれて葉が擦れるわずかな音だけが響いた。音。突然、静寂を突き破る血の凍るような叫び声と、ガラスの割れる音が続いた家々に明かりが灯り、街の中心に向かって走っていく人影が見えたその時>その人影はますます大きくなっていったさらに近づいてみると、それは全身に血を流した若い女性であることがはっきりとわかりました。"}],"is_classification": false}

2.prompt_cn.txt:

# の生成に使用されるプロンプト##3. 0.5M の生成データ

データ生成

Alpaca の方法に従います:

pip install -rrequirements.txt

export OPENAI_API_KEY =YOUR_API_KEY
pythongenerate_instruction.pygenerate_instruction_following_data
デフォルトで Completion API を使用します (モデル text-davinci-003)。 Chat API を使用して gpt-3.5-turbo モデルを使用する場合は、パラメータを通じて制御できます:

pythongenerate_instruction.pygenerate_instruction_following_data

--api=chat --model_name=gpt- 3.5-turbo
出力ファイルは Belle.train.json にあり、使用前に手動でフィルタリングできます。

モデルチューニング

このプロジェクトは、BLOOMZ-7B1-mt モデルと Belle.train.json トレーニングモデルに基づいており、特定のパラメーターは次のとおりです。

スタンフォード大学の70億パラメータ「アルパカ」の欠点を補うために、中国語に堪能な大規模モデルがオープンソース化されている ## さらに、このプロジェクトでは、モデルのトレーニングにさまざまなサイズ (200,000、600,000、100 万、200 万サンプル) の命令学習データセットとさまざまなモデルバージョンも使用します。以下の通り：＃＃＃

スタンフォード大学の70億パラメータ「アルパカ」の欠点を補うために、中国語に堪能な大規模モデルがオープンソース化されている

#モデルの使用例

スタンフォード大学の70億パラメータ「アルパカ」の欠点を補うために、中国語に堪能な大規模モデルがオープンソース化されている

##制限事項と使用上の制限

# #現在のデータと基本モデルに基づいて学習された SFT モデルには、効果の点で次のような問題がまだあります。

#事実を伴う指示は、事実に反する誤った答えを生成する可能性があります。

推論やコーディングなどを含む一部のシナリオでは、モデルの機能をまだ改善する必要があります。
上記のモデルの制限に基づいて、このプロジェクトでは、開発者は、このプロジェクトによって生成されたオープンソースコード、データ、モデル、およびその後の派生製品を研究目的でのみ使用する必要があり、ビジネスまたはその他の目的で使用してはなりません。社会に害を及ぼすもの、有害な使用。

以上がスタンフォード大学の70億パラメータ「アルパカ」の欠点を補うために、中国語に堪能な大規模モデルがオープンソース化されているの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。