最強モデルLlama 3.1 405Bが正式リリース、ザッカーバーグ氏：オープンソースが新時代をリード-AI-php.cn

たった今、待望の Llama 3.1 が正式にリリースされました!

メタは「オープンソースが新しい時代を導く」という声を公式に発表しました。

公式ブログの中で、Meta 氏は次のように述べています。「今日まで、オープンソースの大規模言語モデルは、機能とパフォーマンスの点でクローズドモデルに比べてほとんど遅れをとっていました。今、私たちはオープンソースが主導する新しい時代の到来を告げています。 Meta Llama 3.1 405B を一般公開しますが、私たちはこれが世界最大かつ最も強力なオープンソースの基本モデルであると信じており、これまでにすべての Llama バージョンで 3 億回以上ダウンロードされており、私たちはまだ始まったばかりです。」 Meta の創設者である CEO のザッカーバーグ氏も、個人的に「オープンソース AI が前進への道」という長い記事を書き、オープンソースがすべての開発者、Meta、そして世界にとって良いことである理由を説明しました。

このリリースのハイライトは次のとおりです:

最新のモデルシリーズでは、コンテキストの長さが 128K に拡張され、8 つの言語のサポートが追加され、最上位のオープンソースモデル Llama 3.1 405B が含まれています。 Llama 3.1 405B は独自のレベルにあり、Meta は公式に最高のクローズドソースモデルに匹敵すると述べています

このリリースでは、Llama を1 つのシステム:
ユーザーは WhatsApp と meta.ai を通じて Llama 3.1 405B を体験できます。

ダウンロードして試すことができます。

Llama 3.1 の概要

Llama 3.1 405B は、常識、操作性、数学、ツールの使用法、多言語翻訳の点でトップ AI モデルに匹敵する初の公開モデルです。

メタ氏は、最新世代の Llama は、合成データ生成を活用して小規模なモデルを強化およびトレーニングすることや、モデルの蒸留など、新しいアプリケーションとモデリングのパラダイムを刺激するだろうと述べています。これは、オープンソース領域ではこれまでに見たことのないアプローチです。達成するために。

同時に、Meta は、128K のコンテキスト長と強力な推論機能を備えた、複数の言語をサポートする 8B および 70B モデルのアップグレードバージョンも発売しました。最新モデルは、長文テキストの要約、多言語会話エージェント、コーディングアシスタントなどの高度なユースケースをサポートしています。

たとえば、Llama 3.1 はストーリーをスペイン語に翻訳できます:

ユーザーが「シャツ 3 枚、ショーツ 5 足、ドレス 1 枚があります。10 日間旅行したいとします。服は十分ですか？「モデルは迅速に推論を実行できます。

長い文脈: アップロードされたドキュメントの場合、Llama 3.1 は最大 8,000 トークンまでの大きなドキュメントを分析して要約することができます。

最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

コーディングアシスタント、ユーザーの要件に応じて、コードをすばやく作成できます:

最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

さらに、Llama 3.1 405Bの開発者も「スポイラー」とツイートし、GPT-4oのような音声とビジュアル機能を統合したモデルの開発はまだ開発中であると述べた。

Meta は、開発者が Llama モデル (405B を含む) の出力を使用して他のモデルを改善できるように、オープンソースライセンスにも変更を加えました。さらに、オープンソースへの取り組みに従って、Meta は本日より、これらのモデルをコミュニティが llama.meta.com および Hugging Face でダウンロードできるようにします。

ダウンロードアドレス:

https://huggingface.co/meta-llama
https://llama.meta.com/

モデルの評価

メタは 150 以上のベンチマークデータセットで評価され、さらに広範な人間による評価も行われます。

実験結果は、フラッグシップモデル Llama 3.1 405B が、さまざまなタスクにわたって GPT-4、GPT-4o、Claude 3.5 Sonnet などの主要なベースモデルと競合できることを示しています。さらに、8B および 70B の小型モデルは、同様の数のパラメータを持つクローズドソースモデルやオープンソースモデルと競合します。

モデルアーキテクチャ

Metaのこれまでで最大のモデルとして、15兆を超えるトークンを使用してLlama 3.1 405Bをトレーニングすることは大きな課題です。この規模でのトレーニングを可能にするために、Meta はトレーニングスタック全体を最適化し、16,000 を超える H100 GPU でトレーニングしました。これにより、このモデルがこの規模でトレーニングされる最初の Llama モデルになりました。

この問題を解決するために、Meta はモデル開発プロセスをスケーラブルかつシンプルに保つことに重点を置き、次の設計上の選択を行いました。

トレーニングの安定性を最大化するために、ハイブリッドエキスパートモデルの代わりに、わずかな調整のみを備えた標準デコーダー Transformer モデルアーキテクチャが選択されました。
各ラウンドで教師あり微調整と直接優先最適化を使用して、反復的なポストトレーニング手順を採用します。これにより、Meta はラウンドごとに最高品質の合成データを作成し、すべての機能のパフォーマンスを向上させることができます。

Llama の以前のバージョンと比較して、Meta は、トレーニング前データとトレーニング前データのより慎重な前処理と管理パイプラインの開発など、トレーニング前とトレーニング後に使用されるデータの量と品質を向上させました。トレーニング後のデータをより厳格な品質保証およびフィルタリング方法を開発します。

言語モデルのスケーリングの法則から予想されるように、Meta の新しいフラッグシップモデルは、同じ手順を使用してトレーニングされた小規模なモデルよりも優れたパフォーマンスを発揮します。 Meta はまた、405B パラメーターモデルを使用して、より小さなモデルのトレーニング後の品質を向上させます。

405B モデルの大規模な推論出力をサポートするために、Meta はモデルを 16 ビット (BF16) から 8 ビット (FP8) に量子化し、必要なコンピューティング要件を効果的に削減し、モデルを単一サーバーノード。

コマンドとチャットの調整

Llama 3.1 405B は、高レベルのセキュリティを確保しながら、ユーザーの指示に応答する際のモデルの有用性、品質、詳細な指示の追従性を向上させるよう努めています。

ポストトレーニングフェーズでは、研究チームは、事前トレーニングされたモデルに基づいて数ラウンドの調整を実行することにより、最終的なチャットモデルを構築しました。各ラウンドには、教師あり微調整 (SFT)、拒否サンプリング (RS)、および直接優先最適化 (DPO) が含まれます。

研究チームは、合成データ生成を使用して SFT サンプルの大部分を生成し、複数回反復して、すべての特徴にわたってますます高品質な合成データを生成します。さらに、研究チームは複数のデータ処理技術を採用して、これらの合成データを最高品質にフィルタリングし、機能のスケーラビリティ全体にわたってデータ量を微調整しました。

Llama System

Llama モデルは常に AI システムの一部として存在しており、外部ツールの呼び出しを含む複数のコンポーネントを調整できます。 Meta は、基本モデルを超えて、開発者が自分たちのビジョンに合ったカスタム製品を柔軟に設計および作成できるように設計されています。

モデル層を超えて AI を責任を持って開発するために、Meta は、複数のサンプルアプリケーションに加え、Llama Guard 3、多言語セキュリティモデル、Prompt Guard (プロンプトインジェクションフィルター) などの新しいコンポーネントを含む完全なリファレンスシステムをリリースしました。。これらのサンプルアプリケーションはオープンソースであり、オープンソースコミュニティによって構築できます。

業界、新興企業、オープンソースコミュニティとより広範に連携して、コンポーネントのインターフェイスをより適切に定義できるようにするために、Meta は GitHub で「Llama Stack」に対するコメントリクエストを公開しました。 Llama Stack は、正規のツールチェーンコンポーネント (微調整、合成データ生成) およびエージェントアプリケーションを構築するための標準化されたインターフェイスのセットです。これにより、相互運用性をより簡単に実現できます。

クローズドモデルとは異なり、Llama モデルのウェイトはダウンロードできます。開発者は、ニーズやアプリケーションに合わせてモデルを完全にカスタマイズし、新しいデータセットでトレーニングし、追加の微調整を実行できます。

Llama 3.1 405Bを使用して開発

一般の開発者にとって、405Bのような大規模なモデルをデプロイすることは間違いなく困難であり、多くのコンピューティングリソースと専門的なスキルが必要です。開発者コミュニティとのコミュニケーションの中で、Meta 氏は、生成 AI の開発が単にモデルに入力プロンプトを与えるだけではないことに気づきました。彼らは、すべての開発者が次の分野で Llama 3.1 405B の可能性を最大限に活用することを期待しています:

リアルタイムおよびバッチ推論
監視付き微調整
具体的なモデルのパフォーマンスのテストと評価アプリケーション
継続的事前トレーニング
検索拡張生成(RAG)
関数呼び出し
合成データ生成

今後リリース、L lama 3.1 40 すべての高度な機能の 5B モデルは公開され、開発者はすぐに開始できます。開発者は、モデルの蒸留に基づく合成データの生成など、高次のワークフローを検討することもできます。このアップグレードでは、Meta はパートナーの AWS、NVIDIA、Databricks が提供するソリューションもシームレスに統合し、より効率的な取得拡張生成 (RAG) を実現します。さらに、Groq はクラウドにモデルをデプロイするための低遅延推論用に最適化されており、ローカルシステムでも同様のパフォーマンス向上が行われています。

今回、Meta には Llama 3.1 405B 用の「ツールギフトパッケージ」も組み込まれており、これには vLLM、TensorRT、PyTorch などの主要なプロジェクトが含まれており、モデル開発から「すぐに使える」デプロイメントまですべて 1 つで実行できます。ステップ。

^{参考リンク：https://ai.meta.com/blog/meta-llama-3-1/}

以上が最強モデルLlama 3.1 405Bが正式リリース、ザッカーバーグ氏：オープンソースが新時代をリードの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。