2 月 25 日のニュース Meta は現地時間金曜日、Microsoft と提携して、研究コミュニティ向けに人工知能 (AI) に基づく新しい大規模言語モデルを開始すると発表しました。 , ChatGPT に刺激を受けた Google やその他の企業が人工知能の競争に参加しています。
Meta の LLaMA は、「Large Language Model Meta AI」(Large Language Model Meta AI) の略称で、政府、コミュニティ、学術界の研究者および団体が非営利ライセンスに基づいて利用できます。
同社は、基礎となるコードをユーザーが利用できるようにするため、ユーザーはモデルを自分で調整して研究関連のユースケースに使用できるようになります。メタ氏は、このモデルの計算能力要件は「はるかに低い」と述べた。
レポートによると、同社は複数のパラメーター (7B、13B、33B、および 65B) を備えた LLaMA を開発中です。このうち、LLaMA 65B と LLaMA 33B は 1.4 兆トークンでトレーニングされ、最小モデルの LLaMA 7B も 1 兆トークンでトレーニングされました。
他の大規模な言語モデルと同様、LLaMA は一連の単語を「入力」として受け取り、次の単語を予測してテキストを再帰的に生成することによって機能します。このモデルのセットについて、メタは、ラテン語とキリル文字に焦点を当て、最も話されている 20 の言語からトレーニング用のテキストを選択しました。
もちろん、他のモデルと同様に、LLaMA も偏見、有害なコメント、幻覚という課題に直面しており、Meta はこのタイプの言語モデルの欠点に対処するためにさらに研究を行う必要があります。
Meta 氏は、基本モデルとしての LLaMA は、特定のタスク用に設計された微調整されたモデルではなく、汎用性があり、さまざまなユースケースに適用できるように設計されていると述べました。 LLaMA のコードをオープンソース化することで、他の研究者はこれらの問題を制限または排除する新しい方法をより簡単に見つけることができます。 Meta はこの記事で、モデルの限界を示し、この重要な分野でのさらなる研究における研究者をサポートするために、モデルのバイアスと毒性を評価するための一連のベンチマーク評価基準も提供します。
Meta が昨年 5 月に大規模言語モデル OPT-175B も発売したことは言及する価値があります。このプロジェクトは研究者も対象としており、チャットボット ブレンダーボットの新しいバージョンの基礎となります。
その後、同社はギャラクティカと呼ばれるモデルも発売し、これで科学論文を執筆し、数学的問題を解決できると発表したが、そのデモ版は「権威ある響きの」コンテンツを繰り返し生成するため、後に棚から削除された。
IT ホームと公式リンク:
以上がMeta が 650 億のパラメータを持つ大規模言語モデルである AI 言語モデル LLaMA を発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。