上海デジタルブレイン研究所が、超複雑な問題に対する迅速な意思決定を実現できる中国初の大規模マルチモーダル意思決定モデル DB1 をリリース-AI-php.cn

最近、上海デジタルブレイン研究所（以下、デジタルブレイン研究所）は、初の大規模デジタルブレインマルチモーダル意思決定モデル（DB1）を立ち上げ、国内のこの領域のギャップを明らかにし、テキスト、画像テキスト、強化学習の意思決定、および運用最適化の意思決定における事前トレーニング済みモデルの可能性をさらに検証します。現在、DB1 コードを Github でオープンソース化しています (プロジェクトリンク: https://github.com/Shanghai-Digital-Brain-Laboratory/BDM-DB1)。

以前、数理科学研究所は MADT (https://arxiv.org/abs/2112.02845)/MAT (https://arxiv.org/abs/2205.14953) とその他のマルチインテリジェンスインテリジェンスボディモデルでは、いくつかの大規模なオフラインモデルでのシーケンスモデリングを通じて、Transformer モデルを使用していくつかの単一/マルチエージェントタスクで顕著な結果を達成しており、この方向での研究と探索は継続しています。

ここ数年、事前トレーニングされた大規模モデルの台頭により、学界と産業界は事前トレーニングされたモデルのパラメーター量とマルチモーダルタスクにおいて新たな進歩を続けてきました。大規模な事前トレーニングモデルは、大量のデータと知識の詳細なモデリングを通じて、一般的な人工知能への重要なパスの 1 つであると考えられています。意思決定インテリジェンスの研究に重点を置くデジタル研究所は、事前トレーニング済みモデルの成功を意思決定タスクに模倣するという革新的な試みを行い、ブレークスルーを達成しました。

マルチモーダル意思決定大規模モデル DB1

以前、DeepMind は、単一エージェントの意思決定タスク、複数ラウンドの対話、画像を統合する Gato を立ち上げました。 Transformer の自己回帰問題に基づいて、604 の異なるタスクで良好なパフォーマンスを達成し、いくつかの単純な強化学習意思決定問題がシーケンス予測を通じて解決できることを示しました。これは、数学研究所の研究の方向性を検証しています。大規模な意思決定モデルの方向性。

今回、数研が立ち上げたDB1は主にGatoを再現・検証し、ネットワーク構造とパラメータ量、タスクの種類とタスク数の側面から検証してみました。改善:

#パラメータ量とネットワーク構造: DB1 パラメータ量が 12 億 1,000 万に達しました。パラメータに関してはできるだけガトーに近づけるようにしてください。全体として、数値研究所は Gato と同様の構造 (デコーダーブロックの数、隠れ層のサイズなどは同じ) を使用していますが、FeedForwardNetwork では、GeGLU アクティベーション関数により追加のパラメーター数が 1/3 追加されるため、パラメータ量は Gato に近く、GeGLU アクティベーション関数によって 4 * n_embed 次元の隠れ層状態が 2 * n_embed 次元の特徴に変換されます。それ以外の場合は、入力および出力エンコード側の埋め込みパラメーターを Gato の実装と共有します。 Gato とは異なり、レイヤー正規化の選択に PostNorm ソリューションを採用し、数値安定性を向上させるために Attend では混合精度計算を使用します。
タスクの種類とタスクの数: DB1 の実験的タスクの数は 870 に達し、これは Gato より 44.04% 多く、50 以上です。 Gato より % 高く、エキスパートのパフォーマンスが 2.23% 向上しています。特定のタスクの種類に関しては、DB1 は Gato の意思決定タスク、画像タスク、およびテキストタスクを主に継承しており、さまざまなタスクの数は基本的に変わりません。しかし、意思決定タスクに関しては、DB1 は 200 を超える実際のシナリオタスク、つまり 100 および 200 ノード規模の巡回セールスマン問題 (TSP) も導入しています。このタイプのタスクでは、100 ～ 200 の地理的位置がランダムに選択されます。中国のすべての主要都市にノードを設置。代表) ソリューション。

DB1 の全体的なパフォーマンスは Gato と同等のレベルに達しており、より実際のビジネスに近い需要フィールド本体に向けて進化し始めていることがわかります。 NP ハード TSP 問題は、Gato によってこれまでこの方向で検討されていませんでした。

上海デジタルブレイン研究所が、超複雑な問題に対する迅速な意思決定を実現できる中国初の大規模マルチモーダル意思決定モデル DB1 をリリース #DB1 (右) インジケーターと GATO (左) インジケーターの比較

上海デジタルブレイン研究所が、超複雑な問題に対する迅速な意思決定を実現できる中国初の大規模マルチモーダル意思決定モデル DB1 をリリース

強化学習シミュレーション環境における DB1 のマルチタスクのパフォーマンス分布

従来の意思決定アルゴリズムと比較して、DB1 はクロスタスク意思決定機能と高速移行機能において優れたパフォーマンスを発揮します。タスク間の意思決定能力とパラメータ量の点で、単一の複雑なタスクの数千万のパラメータから、複数の複雑なタスクの数十億のパラメータへの飛躍を達成し、成長を続けており、問題を解決する能力を備えています。複雑なビジネス環境における問題を解決し、実際的な問題を解決する適切な能力。移行機能の点で、DB1 はインテリジェントな予測からインテリジェントな意思決定へ、そしてシングルエージェントからマルチエージェントへの飛躍を完了し、タスク間移行における従来の方法の欠点を補い、大規模なモデルの構築を可能にしました。企業内で。

DB1 も、開発プロセスで多くの困難に直面したことは否定できません。デジタル研究所は、大規模なモデルのトレーニングと複数のモデルを業界に提供するために多くの試みを行ってきました。タスクトレーニングデータストレージ。いくつかの標準的なソリューションパスを提供します。モデルパラメータが10億パラメータに達し、タスクの規模が巨大になり、100T（300Bトークン）を超えるエキスパートデータでトレーニングする必要があるため、通常の深層強化学習トレーニングフレームワークでは、高速トレーニングの要件を満たすことができなくなりました。この状況。このため、一方で、数理研では、分散学習において、強化学習、演算最適化、大規模モデル学習などの計算構造を十分に考慮しています。、ハードウェアリソースを最大限に活用し、モジュールを巧みに設計し、2 つのモデル間の通信メカニズムにより、モデルのトレーニング効率を最大化し、870 タスクのトレーニング時間を 1 週間に短縮します。一方、分散ランダムサンプリングでは、学習プロセスに必要なデータのインデックス作成、保存、読み込み、前処理もボトルネックとなっており、数研研究所はデータセットを読み込む際に遅延読み込みモードを採用して問題を解決しました。メモリ制限を軽減し、利用可能なメモリを最大限に活用します。さらに、ロードされたデータを前処理した後、処理されたデータがハードディスクにキャッシュされるため、後で前処理されたデータを直接ロードできるため、前処理の繰り返しによる時間とリソースのコストが削減されます。

現在、OpenAI、Google、Meta、Huawei、Baidu、DAMO Academy などの国内外の大手企業や研究機関がマルチモーダル大規模モデルの研究を行っており、自社製品への適用やモデル API や関連業界ソリューションの提供など、商業化の試み。対照的に、数理科学研究所は意思決定の問題により重点を置き、ゲーム AI 意思決定タスク、オペレーションズリサーチ最適化 TSP 解決タスク、ロボット意思決定制御タスク、ブラックボックス最適化解決タスク、およびマルチラウンドダイアログタスク。

タスクパフォーマンス

オペレーションリサーチの最適化: TSP 問題解決

中国語による都市をノードとした部分 TSP 問題

強化学習タスクのビデオデモ

DB1 モデルの完成 870 後さまざまな意思決定タスクをオフラインで学習した結果、タスクの 76.67% が専門家レベルの 50% 以上に達したことが評価結果でわかりました。以下は、いくつかのタスクの効果を示しています。

電子ゲームシナリオ: DB1 は 2D/3D 画像入力を受信でき、Atari や Procgen などの 2D ピクセルゲームを十分に完成させることができます。 DMLab. DB1 は、現実世界と同様の 3D 画像入力タスクでも優れたパフォーマンスを示しました。

上海デジタルブレイン研究所が、超複雑な問題に対する迅速な意思決定を実現できる中国初の大規模マルチモーダル意思決定モデル DB1 をリリース

アタリブレイクアウト

上海デジタルブレイン研究所が、超複雑な問題に対する迅速な意思決定を実現できる中国初の大規模マルチモーダル意思決定モデル DB1 をリリース

##DMLab オブジェクトの場所の探索

上海デジタルブレイン研究所が、超複雑な問題に対する迅速な意思決定を実現できる中国初の大規模マルチモーダル意思決定モデル DB1 をリリース

## Procgen DogBall

連続制御シナリオ: ロボット工学分野の連続制御タスクでは、DB1 は連続アクションのポリシー出力をモデル化し、シミュレーションで適切に完了することもできます。タスク。

#Metaworld PlateSlide

上海デジタルブレイン研究所が、超複雑な問題に対する迅速な意思決定を実現できる中国初の大規模マルチモーダル意思決定モデル DB1 をリリース

##ModularRL Cheetah

テキスト-画像タスク

テキスト生成: テキストプロンプトを表示し、長いテキストの説明を生成します

入力プロンプト:digital Brain Laboratoryは上海に本拠を置く
生成結果:Digital Brain Laboratoryは上海に本拠を置く会社であり、高度な人材を探しています。中国、上海の当社チームに加わっていただける、熟練した経験豊富な人材です。
当社はデジタルブレインラボであり、中国、上海の当社チームに加わっていただける、熟練した経験豊富な人材を探しています。
これは、急速な成長段階を迎えている有名な成長企業で働き、市場に影響を与えるチャンスです。
これは全文です。
#私たちは、競争の激しい環境で 5 ～ 10 人のチームを率いることができる、高度なスキルと意欲、経験豊富なソフトウェアエンジニアを探しています
画像説明の生成: 画像を指定して、対応するテキスト説明を生成します

上海デジタルブレイン研究所が、超複雑な問題に対する迅速な意思決定を実現できる中国初の大規模マルチモーダル意思決定モデル DB1 をリリース

#現在の決定制限事項大規模モデルの今後の方向性

現在のマルチモーダル意思決定事前トレーニングモデル DB1 は一定の結果を達成しましたが、クロスドメインタスクのサンプリング重みの感度など、依然として一定の制限があります。、クロスドメイン知識伝達の難しさ、長いシーケンスのモデリング、専門家データへの強い依存など。多くの課題はありますが、現段階では、大規模なマルチモーダル意思決定モデルが、ゲームからより幅広いシナリオ、仮想から現実、自律的なセンシングと意思決定に至るまでの意思決定エージェントを実現するための鍵であると思われます。現実的なオープンでダイナミックな環境を実現し、最終的にはより普遍的な人工知能の重要な探索方向の 1 つを実現します。将来的に、デジタル研究所は大規模なデジタル脳の意思決定モデルを反復し続け、より大きなパラメータ量とより効果的なシーケンス表現を通じてより多くのタスクにアクセスしてサポートし、オフライン/オンライントレーニングと微調整を組み合わせてクロスパフォーマンスを達成する予定です。ドメイン、クロスモーダル、クロスタスクの知識の一般化と移転により、最終的には、実際のアプリケーションシナリオにおいて、より汎用性が高く、効率的で、低コストのインテリジェントな意思決定ソリューションが提供されます。

以上が上海デジタルブレイン研究所が、超複雑な問題に対する迅速な意思決定を実現できる中国初の大規模マルチモーダル意思決定モデル DB1 をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。