Google と DeepMind による新しい研究: 帰納的バイアスはモデルのスケーリングにどのように影響しますか?-AI-php.cn

変圧器モデルのスケーリングは、近年多くの学者の研究への関心を引き起こしています。ただし、モデルアーキテクチャによって課されるさまざまな誘導バイアスのスケーリング特性についてはあまり知られていません。多くの場合、特定のスケール (計算、サイズなど) での改善は、異なるスケールや計算領域に移行できると想定されます。

ただし、アーキテクチャとスケーリングの法則の間の相互作用を理解することは非常に重要であり、さまざまなスケールで適切に動作するモデルを設計することは研究において非常に重要です。いくつかの疑問点は解明されていないままです: モデルアーキテクチャのスケールは異なりますか?もしそうなら、誘導バイアスはスケーリング性能にどのような影響を与えるのでしょうか?上流 (トレーニング前) および下流 (転送) タスクにどのような影響がありますか?

最近の論文で、Google の研究者は、言語モデルのスケーリングに対する帰納的バイアス (アーキテクチャ) の影響を理解しようと努めました。これを行うために、研究者らは、複数の計算領域とスケール (1,500 万から 400 億のパラメーター) にわたって 10 の異なるモデルアーキテクチャを事前トレーニングし、微調整しました。全体として、彼らはさまざまなアーキテクチャとサイズの 100 以上のモデルを事前トレーニングおよび微調整し、これら 10 の異なるアーキテクチャを拡張する際の洞察と課題を提示しました。

紙のリンク: https://arxiv.org/pdf/2207.10551.pdf Google と DeepMind による新しい研究: 帰納的バイアスはモデルのスケーリングにどのように影響しますか?

## また、これらのモデルのスケーリングは思ったほど単純ではないこと、つまり、スケーリングの複雑な詳細が、この記事で詳しく検討したアーキテクチャの選択と絡み合っていることにも注目しています。たとえば、Universal Transformers (および ALBERT) の機能の 1 つはパラメーターの共有です。このアーキテクチャ上の選択により、標準の Transformer と比較して、パフォーマンスの点だけでなく、FLOP、速度、パラメータ数などの計算メトリクスの点でも、スケーリング動作が大幅に歪められます。対照的に、スイッチトランスのようなモデルはまったく異なり、FLOP とパラメータ量の間に異常な関係があります。具体的には、この記事の主な貢献は次のとおりです。

さまざまな式の最初の導出帰納的バイアスとモデルアーキテクチャのスケーリング則

。研究者らは、このスケーリング係数がモデルによって大きく異なることを発見し、これがモデル開発における重要な考慮事項であると指摘しました。彼らが検討した 10 個のアーキテクチャすべての中で、コンピューティング領域ごとの絶対的な点で最高ではなかったとしても、バニラ Transformer が最高のスケーリングパフォーマンスを備えていたことが判明しました。研究者らは、ある計算スケーリング領域でうまく機能するモデルが、別の計算スケーリング領域では必ずしも最適なモデルであるとは限らないことを観察しています。さらに、一部のモデルは低計算領域では良好なパフォーマンスを発揮するものの、スケーリングが難しいことも判明しました。これは、特定の計算領域内で点ごとに比較することによってモデルのスケーラビリティの全体像を把握することが困難であることを意味します。
研究者らは、さまざまなモデルアーキテクチャのスケーリングに関しては、上流の事前トレーニングの複雑さは下流の転送にはあまり関係がない可能性があることを発見しました。したがって、下流への移行には、基礎となるアーキテクチャと誘導バイアスも重要です。
研究者らは、特定のアーキテクチャ下でのスケーリングの難しさを強調し、一部のモデルがスケーリングしない (またはマイナスの傾向でスケーリングする) ことを示しました。彼らはまた、線形時間的注意モデル (Performer など) は拡張が難しい傾向があることも発見しました。方法と実験
論文の 3 章では、研究者が全体的な実験セットアップの概要を説明し、実験で評価されたモデルを紹介します。

以下の表 1 は、トレーニング可能なパラメータの数、FLOP (シングルフォワードパス)、速度 (1 秒あたりのステップ数) など、この記事の主な結果を示しています。複雑性 (上流の事前トレーニング) と 17 の下流タスクの結果を検証します。

すべてのモデルは同じようにスケーリングされていますか?

以下の図 2 は、FLOP 数を増やしたときのすべてのモデルのスケーリング動作を示しています。すべてのモデルのスケーリング動作は非常にユニークで異なっていることがわかります。つまり、それらのほとんどは標準の Transformer とは異なります。おそらくここでの最大の発見は、ほとんどのモデル (LConv、Evolution など) が標準の Transformer と同等かそれ以上のパフォーマンスを示しているように見えますが、より高いコンピューティングバジェットでは拡張できないことです。

もう 1 つの興味深い傾向は、Performer などの「線形」トランスフォーマーがスケールしないことです。図 2i に示すように、基本スケールから大規模スケールに比べて、トレーニング前の複雑さは 2.7% しか低下しませんでした。バニラトランスフォーマーの場合、この数字は 8.4% です。