コミュニティ学ぶツールライブラリレジャー

日本語

ホームページ > テクノロジー周辺機器 > AI > MoE 大規模モデル作成ガイド: ゼロベースの手動構築方法、マスターレベルのチュートリアルが公開

MoE 大規模モデル作成ガイド: ゼロベースの手動構築方法、マスターレベルのチュートリアルが公開

WBOY

リリース： 2024-01-30 14:42:15

転載

1363 人が閲覧しました

GPT-4 の伝説的な「魔法の武器」である MoE (Mixed Expert) アーキテクチャは、自分でも使用できます。

Hugging Face には、完全な MoE システムをゼロから構築する方法を共有した機械学習の第一人者がいます。

MoE 大規模モデル作成ガイド: ゼロベースの手動構築方法、マスターレベルのチュートリアルが公開

このプロジェクトは著者によって MakeMoE と呼ばれており、アテンションの構築から完全な MoE モデルの形成までのプロセスを詳しく説明します。

著者によると、MakeMoE は OpenAI 創設メンバーである Andrej Karpathy の Makemore にインスピレーションを受け、それに基づいています。

makemore は、自然言語処理と機械学習の教育プロジェクトであり、学習者がいくつかの基本モデルを理解し、実装できるようにすることを目的としています。

同様に、MakeMoE は、学習者が段階的な構築プロセスでハイブリッドエキスパートモデルをより深く理解するのにも役立ちます。

それでは、この「手もみガイド」では具体的にどのようなことが書かれているのでしょうか?

MoE モデルをゼロから構築する

Karpathy の makemore と比較すると、MakeMoE は、孤立したフィードフォワードニューラルネットワークを専門家のまばらな混合物に置き換えると同時に、必要なゲートロジックを追加します。

同時に、プロセス内で ReLU アクティベーション関数を使用する必要があるため、makemore のデフォルトの初期化メソッドは Kaiming He メソッドに置き換えられます。

MoE 大規模モデル作成ガイド: ゼロベースの手動構築方法、マスターレベルのチュートリアルが公開

MoE モデルを作成したい場合は、まず自己注意のメカニズムを理解する必要があります。

モデルはまず、線形変換を通じて入力シーケンスをクエリ (Q)、キー (K)、および値 (V) で表されるパラメーターに変換します。

これらのパラメーターは、各トークンを生成するときにモデルがシーケンス内の各位置にどれだけの注意を払うかを決定する注意スコアを計算するために使用されます。

テキスト生成時のモデルの自己回帰特性を確実にするため、つまり、すでに生成されたトークンに基づいて次のトークンのみを予測できるようにするために、作成者は マルチヘッド因果自己注目のマシンメカニズム。

このメカニズムは、マスクを使用して未処理の位置の注意スコアを負の無限大に設定し、これらの位置の重みがゼロになるようにします。

マルチヘッド因果関係により、モデルは、各ヘッドがシーケンスの異なる部分に焦点を当てながら、このような注意計算を複数並行して実行できます。

MoE 大規模モデル作成ガイド: ゼロベースの手動構築方法、マスターレベルのチュートリアルが公開

セルフアテンションメカニズムの構成が完了したら、エキスパートモジュールを作成できます。ここでの「エキスパートモジュール」は、多層パーセプトロンです。

各エキスパートモジュールには、非線形活性化関数 (ReLU など) を介して埋め込みベクトルをより大きな次元にマッピングする線形層と、ベクトルを元の埋め込み次元にマッピングし直す別の線形層が含まれています。。

この設計により、各エキスパートは入力シーケンスのさまざまな部分の処理に集中できるようになり、ゲートネットワークを使用して各トークンの生成時にどのエキスパートをアクティブにするかを決定できます。

MoE 大規模モデル作成ガイド: ゼロベースの手動構築方法、マスターレベルのチュートリアルが公開

#したがって、次のステップは、専門家の配置と管理のためのコンポーネントであるゲート制御ネットワークの構築を開始することです。

ここでのゲートネットワークも線形層を通じて実装されており、セルフアテンション層の出力をエキスパートモジュールの数にマッピングします。

この線形層の出力はスコアベクトルであり、各スコアは現在処理されているトークンに対する対応するエキスパートモジュールの重要性を表します。

ゲートネットワークは、このスコアベクトルの上位 k の値を計算してそのインデックスを記録し、その中から上位 k の最大スコアを選択して、対応するエキスパートモジュールの出力に重みを付けます。

MoE 大規模モデル作成ガイド: ゼロベースの手動構築方法、マスターレベルのチュートリアルが公開

トレーニングプロセス中のモデルの探索性を高めるために、作成者はすべてのトークンが同じ専門家によって処理される傾向を避けるためにノイズも導入しました。

このノイズは通常、ランダムなガウスノイズを分数ベクトルに追加することによって実現されます。

MoE 大規模モデル作成ガイド: ゼロベースの手動構築方法、マスターレベルのチュートリアルが公開

結果を取得した後、モデルは最初の k 値と、対応するトークンの上位 k 人のエキスパートの出力を選択的に乗算し、それらを加算して、モデル出力を形成するための加重合計。

最後に、これらのモジュールを組み合わせて MoE モデルを作成します。

上記のプロセス全体について、作成者は対応するコードを提供しています。詳細については、元の記事で学ぶことができます。

さらに、著者は各モジュールの学習中に直接実行できるエンドツーエンドの Jupyter ノートも作成しました。

興味があるなら、すぐに学びましょう!

元のアドレス: https://huggingface.co/blog/AviSoori1x/makemoe-from-scratch
ノートバージョン (GitHub): https://github. com/AviSoori1x/makeMoE/tree/main

以上がMoE 大規模モデル作成ガイド: ゼロベースの手動構築方法、マスターレベルのチュートリアルが公開の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル：

ai データ

ソース：51cto.com

前の記事：カーネルモデルガウスプロセス (KMGP) を使用したデータモデリング次の記事：グラフィック言語: Kuaishou および Beida のマルチモーダル大型モデルは DALLE-3 に匹敵します

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

NullPointerException とは何ですか?どのように修正すればよいですか?

2024-10-22 09:46:29
初心者からプログラマーへ: 旅は C の基礎から始まります

2024-10-13 13:53:41
PHP による Web 開発のロックを解除する: 初心者ガイド

2024-10-12 12:15:51
C の謎を解く: 新人プログラマーのための明確でシンプルな道

2024-10-11 22:47:31
コーディングの可能性を解き放つ: まったくの初心者のための C プログラミング

2024-10-11 19:36:51
内なるプログラマーを解き放つ: まったくの初心者のための C

2024-10-11 15:50:41
C で生活を自動化する: 初心者向けのスクリプトとツール

2024-10-11 15:07:41
PHP を簡単に: Web 開発の最初のステップ

2024-10-11 14:21:21
Python で何でも構築: 創造性を解き放つための初心者ガイド

2024-10-11 12:59:11
コーディングの鍵: 初心者のための Python の力を解き放つ

2024-10-11 12:17:31

最新の問題

function_exists() はカスタム関数を決定できません Function test () {return true;} if (function_exists ('test')) {echo "テストは関数です";

から 2024-04-29 11:01:01

0

2

1429

URL パラメータから取得した PHP 配列が期待どおりに動作しないカテゴリ ID を含む URL パラメータがあり、それを次のような配列として扱いたいと考えています: http://example.com?cat[]=3,9,13 PHP では、...

から 2024-04-06 22:09:02

0

1

1428

戻り値の変数の形式は何ですか? 私はphpの初心者です。コードを見つけました: if($x<time()){return[false,'error'];} ロジックや変数は重要ではありませんが、[false...

から 2024-04-06 21:55:20

0

1

778

クラスのプライベートメンバーをコンストラクターパラメーターとして設定する classFoo{#one#two#three#four#five#six#seven#eight#nine#ten#eleven#twelve#thirteen#fourteen...

から 2024-04-06 21:48:47

0

1

637

単語と一致する正規表現新しいジョブ名をデータベース内の既存のジョブ名と照合しようとするスクリプトがあります。 SELECTa.titleASJobTitle,j.DescriptionASMatched...

から 2024-04-06 21:24:04

0

1

606

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート