コミュニティ学ぶツールライブラリレジャー

日本語

ホームページ > テクノロジー周辺機器 > AI > アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

WBOY

リリース： 2023-06-28 22:06:52

転載

1775 人が閲覧しました

オープンソースアルパカラージモデル LLaMA コンテキストは GPT-4 と同等ですが、簡単な変更が 1 つだけあります。

Meta AI によって提出されたばかりのこの論文は、LLaMA コンテキストウィンドウが 2k から 32k に拡張された後、必要な微調整ステップは 1000 未満のみであることを示しています。

コストは、事前トレーニングに比べてごくわずかです。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

コンテキストウィンドウを拡大するということは、AI の「作業記憶」容量が増加することを意味します。具体的には、次のことが可能になります。

より多くの対話をサポートします。、より安定したロールプレイングなど、忘れ物を減らします。
長い文書や複数の文書を一度に処理するなど、より複雑なタスクを完了するには、より多くの情報を入力します。

さらに重要な意味問題は、LLaMA に基づくすべての大規模なアルパカモデルファミリがこの方法を低コストで採用し、集合的に進化できるかということです。

Yangtuo は現在最も包括的なオープンソースの基本モデルであり、完全にオープンソースの商用利用可能な大規模モデルや垂直産業モデルを多数派生させています。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

# この論文の責任著者である Tian Yuandong 氏も、友人の輪の中でこの新たな展開を興奮して共有しました。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

RoPE に基づく大規模モデルは

新しい方法は位置補間 (Position Interpolation) と呼ばれ、RoPE を使用する大規模モデルに適しています (回転位置エンコーディング）全モデルに適用。

RoPE は、2021 年には Zhuiyi Technology チームによって提案され、現在では大規模モデルで最も一般的な位置エンコード方式の 1 つになりました。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

しかし、このアーキテクチャ下で外挿を直接使用してコンテキストウィンドウを拡張すると、セルフアテンションメカニズムが完全に破壊されます。

具体的には、事前トレーニングされたコンテキストの長さを超える部分により、モデルの複雑さがトレーニングされていないモデルと同じレベルまで上昇します。

新しい方法は、位置インデックスを線形に減少させ、前後の位置インデックスと相対距離の範囲の調整を拡大するように変更されました。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

# 2 つの違いを表現するには、画像を使用する方が直感的です。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

実験結果は、新しい方法が 7B から 65B までの LLaMA 大型モデルに有効であることを示しています。

ロングシーケンス言語モデリング、パスキーの取得、および長いドキュメントの要約では、大幅なパフォーマンスの低下はありません。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

#実験に加えて、新しい方法の詳細な証明も論文の付録に記載されています。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

あと 3 つ

コンテキストウィンドウは、オープンソースの大規模モデルと商用の大規模モデルとの間の重要なギャップでした。

たとえば、OpenAI の GPT-3.5 は最大 16k、GPT-4 は 32k、AnthropicAI の Claude は最大 100k をサポートします。

同時に、LLaMA や Falcon などの多くの大規模なオープンソースモデルは依然として 2k で止まっています。

今、Meta AI の新しい成果は、このギャップを直接埋めました。

コンテキストウィンドウの拡張も、最近の大規模モデル研究の焦点の 1 つであり、位置補間手法に加えて、業界の注目を集めるための多くの試みが行われています。

1. 開発者 kaiokendev は、技術ブログで LLaMa コンテキストウィンドウを 8K に拡張する方法を検討しました。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

2. データセキュリティ会社 Soveren の機械学習責任者である Galina Alperovich 氏は、コンテキストウィンドウを拡張するための 6 つのヒントを記事にまとめました。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

3. Mila、IBM、およびその他の機関のチームも、論文の中で Transformer の位置エンコーディングを完全に削除しようとしました。

アルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されました

必要な友人は、下のリンクをクリックして表示できます~

メタペーパー: //m.sbmmt.com/link / 0bdf2c1f053650715e1f0c725d754b96

コンテキストの拡張は困難ですが、不可能ではありません//m.sbmmt.com/link/9659078925b57e621eb3f9ef19773ac3

背後にある Secret Sauce コンテキストウィンドウLLM で 100K //m.sbmmt.com/link/09a630e07af043e4cae879dd60db1cac

ポジションレスコーディングペーパー//m.sbmmt.com/link/fb6c84779f12283a81d739d8f088fc12

以上がアルパカファミリーの大型モデルが一斉に進化！ 32k コンテキストは GPT-4 に相当し、Tian Yuandong のチームによって作成されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル：

大型モデルアルパカの家族集団進化

ソース：51cto.com

前の記事：AI が生成したニュース Web サイトの数が急増し、狂ったように広告収入を稼いでいます次の記事：人工知能が緑の植物の世界に参入し、スマートな中庭市場が形成され始める

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

NullPointerException とは何ですか?どのように修正すればよいですか?

2024-10-22 09:46:29
初心者からプログラマーへ: 旅は C の基礎から始まります

2024-10-13 13:53:41
PHP による Web 開発のロックを解除する: 初心者ガイド

2024-10-12 12:15:51
C の謎を解く: 新人プログラマーのための明確でシンプルな道

2024-10-11 22:47:31
コーディングの可能性を解き放つ: まったくの初心者のための C プログラミング

2024-10-11 19:36:51
内なるプログラマーを解き放つ: まったくの初心者のための C

2024-10-11 15:50:41
C で生活を自動化する: 初心者向けのスクリプトとツール

2024-10-11 15:07:41
PHP を簡単に: Web 開発の最初のステップ

2024-10-11 14:21:21
Python で何でも構築: 創造性を解き放つための初心者ガイド

2024-10-11 12:59:11
コーディングの鍵: 初心者のための Python の力を解き放つ

2024-10-11 12:17:31

最新の問題

Nuxt.js で作成したダッシュボードをデプロイするには SSG を使用する必要がありますか? Nuxt.jsを使用して社内向けのダッシュボードを開発していきます。これは内部ダッシュボードであるため、ユニバーサルスキーマは必要ありません。通常、ほとんどのダッシュボードは S...

から 2024-04-06 13:17:44

0

1

493

Laravel のブートストラップモードで AWS PDF ファイルを表示する https://xxx-xx-dev.s3.ap-south-1.amazonaws.com/std_check/6557122022151745398XtquBSY.pdf のよ...

から 2024-04-04 22:16:18

0

1

1450

タグで投稿を検索投稿をタグごとに表示する必要があります。私のソリューションは次のような単一のタグで機能します: Route::get('/posts',[PostController::class...

から 2024-04-03 22:38:54

0

1

430

3. JS 3D モデルが追加されましたが、表示されません自分の Web サイトに 3D モデルを追加しようとしています。 3 つの .js を使用しています。あらゆることを試しましたが、3D モデルを表示できませんでした。開発者ツールの...

から 2024-04-03 19:06:13

0

1

264

問題: MySQL 正規表現 (リミッターが機能しない) Mod 注意: 削除しないでください/閉じないでください。以前にこの質問をしましたが、管理者は別のユーザーの質問と似ていると考えたため、質問を閉じました。彼らが私に勧めたスレッドを...

から 2024-04-02 23:35:21

0

1

263

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート