データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます-AI-php.cn

基本モデルのスケーリングとは、事前トレーニングにより多くのデータ、計算、パラメーターを使用することを指します。これは単に「スケール拡張」です。

モデルのサイズを直接拡張するのは単純で粗雑なように見えますが、実際に多くの優れたモデルを機械学習コミュニティにもたらしました。これまでの多くの研究では、神経経済モデルの規模を拡大すると、いわゆる量的変化が質的変化を引き起こすことが認識されています。この考え方は、ニューラルスケーリング則としても知られています。ただし、モデルのサイズが大きくなると、コンピューティングリソースが集中的に消費されます。これは、モデルが大きくなると、プロセッサやメモリなど、より多くのコンピューティングリソースが必要になることを意味します。これは、多くの実際のアプリケーション、特にリソースに制約のあるデバイスでは実現できません。したがって、研究者は、モデルを改善するためにコンピューティングリソースをより効率的に使用する方法に焦点を当て始めています。LLM であっても、VLM であっても、普及モデルである現在の最良のクローズドソースモデルの鍵は「データ」であると多くの人が考えています。。データ品質の重要性が認識されるにつれ、大規模なデータベースから高品質のデータをフィルタリングするか、高品質の新しいデータを生成するなど、データ品質の向上を目的とした多くの研究が行われています。しかし、これまでの拡大法は一般に「データ」を同質な存在として捉え、最近注目されている「データの品質」を考慮次元としていませんでした。

ウェブ上のデータモデルは膨大であるにもかかわらず、高品質のデータ (複数の評価指標に基づく) は限られていることがよくあります。今、画期的な研究が行われています - データフィルタリングの次元における拡張則です。これはカーネギーメロン大学とボッシュ AI センターによるもので、「大規模」と「高品質」の間の量と質のトレードオフ (QQT) に特に焦点を当てています。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

論文のタイトル: データフィルタリングのスケーリングの法則—データキュレーションはコンピューティングに依存しない

論文のアドレス: https://arxiv.org/pdf/2404.07177。 PDF
コードアドレス: https://github.com/locuslab/scaling_laws_data_filtering

図1に示すように、複数のエポックをトレーニングする場合、高品質のデータのユーティリティ(ユーティリティ) ) は大きくありません (モデルが学習を完了しているため)。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます現時点では、多くの場合、高品質のデータを再利用するよりも、低品質のデータ (最初は実用性が低い) を使用する方が役立ちます。

量と質のトレードオフ (QQT) の下で、どのような種類のデータの組み合わせがトレーニングに適しているかをどのように判断すればよいでしょうか?

この質問に答えるには、データキュレーションワークフローでは、モデルのトレーニングに使用される合計計算量を考慮する必要があります。これは、データフィルタリングに関するコミュニティの見解とは異なります。たとえば、LAION フィルタリング戦略は、一般的なクロール結果から最高品質の 10% を抽出します。

しかし、図 2 からわかるように、トレーニングが 35 エポックを超えると、完全に組織化されていないデータセットでのトレーニングの効果は、LAION 戦略を使用して組織化された高品質のデータでのトレーニングよりも優れていることは明らかです。

現在の神経拡張法則では、この質と量の間の動的なトレードオフをモデル化できません。さらに、視覚言語モデルの拡張に関する研究はさらに少なく、現在の研究のほとんどは言語モデリングの分野に限定されています。データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

今日紹介する画期的な研究は、以前のニューラル拡張の法則の 3 つの重要な制限を克服し、それを実現しました。

(1) データを拡張するときに「品質」軸を考慮する

(2) データプールの組み合わせの拡張則を推定します (組み合わせについて実際にトレーニングすることはありません)。これは、最適なデータ統合の決定に役立ちます。

(3) LLM 拡張則を調整します。これにより、対比に適します。トレーニング (CLIP など)。各バッチには平方数の比較があります。

チームは、異種かつ限られた量のネットワークデータに対する拡張則を初めて提案しました。

大規模なモデルは、さまざまな品質のデータプールの組み合わせでトレーニングされます。個々のデータプールの拡散パラメーター (図 1 (a) の A ～ F) から導出される集約データユーティリティをモデル化することにより、これらのデータプールの任意の組み合わせでモデルのパフォーマンスを直接推定することができます。

この方法では、展開則を推定するためにこれらのデータプールの組み合わせに関するトレーニングを必要とせず、各コンポーネントプールの展開パラメータに基づいて展開曲線を直接推定できることを指摘することが重要です。

過去の拡張則と比較すると、ここでの拡張則にはいくつかの重要な違いがあり、トレーニングメカニズムの繰り返しをモデル化して比較し、O (n²) の比較を実現できます。たとえば、トレーニングプールのサイズが 2 倍になると、モデルの損失に寄与する比較の数は 4 倍になります。

これらは、異なるプールのデータがどのように相互作用するかを数学的に記述し、データの異なる組み合わせの下でモデルのパフォーマンスを推定できるようにします。これにより、現在利用可能な計算に適したデータ編成戦略が得られます。

この研究からの重要なメッセージは次のとおりです: データの編集は計算なしでは行えません。

図 1 の低い計算量での積極的なフィルタリング (E) の最高のパフォーマンスに示されているように、計算予算が小さい (繰り返しが少ない) 場合、QQT のトレードオフの下で品質が優先されます。

一方で、使用する学習データをはるかに超える計算規模になると、限られた良質なデータの有用性が低下するため、それを補う工夫が必要になります。これにより、フィルタリング戦略があまり積極的ではなくなり、データ量が増えてもパフォーマンスが向上します。

チームは、異種ネットワークデータに対するこの新しいスケーリング則が、DataComp の中規模プール (1 億 2,800 万サンプル) 最適フィルタリング戦略を使用して、3,200 万から 6 億 4,000 万のさまざまなコンピューティング予算の下でパレートを予測できることを示す実験デモンストレーションを実施しました。

特定のコンピューティング予算の下でのデータフィルタリング

チームは、実験を通じて、さまざまなコンピューティング予算の下でのデータフィルタリングの効果を研究しました。

彼らは、大規模な初期データプールを使用して VLM をトレーニングしました。フィルタリングされていない基本データプールには、最近のデータコンパイルベンチマークである Datacomp の「中規模」バージョンを選択しました。データプールには 1 億 2,800 万のサンプルが含まれています。彼らは 18 の異なるダウンストリームタスクを使用して、モデルのゼロショットパフォーマンスを評価しました。

彼らはまず、LAION データセットを取得するために使用される LAION フィルタリング戦略を研究しました。その結果を図 2 に示します。彼らは次の結果を観察しました:

1. 計算予算が低い場合は、高品質のデータを使用する方が良いです。

2. コンピューティング予算が高い場合、データフィルタリングが障害を引き起こす可能性があります。

なぜですか？

LAION フィルタリングはデータの約 10% を保持するため、計算予算は約 4 億 5000 万で、フィルタリングされた LAION プールの各サンプルは約 32 回使用されます。ここで重要な洞察は、トレーニング中に同じサンプルが複数回見られる場合、そのたびに効用が減少するということです。

チームはその後、他の 2 つのデータフィルタリング方法を研究しました:

(1) CLIP L/14 モデルを使用した CLIP スコアフィルタリング

(2) マスキング後の T-MARS データはランク付けされます。画像内のテキスト特徴後の CLIP スコア (OCR) に基づきます。データフィルタリング手法ごとに、4 つのフィルタリングレベルとさまざまな合計計算量を使用しました。

図 3 は、計算規模が 32M、128M、および 640M の場合の上位 10 ～ 20%、上位 30%、および上位 40% の CLIP フィルタリングの結果の比較を示しています。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

3,200 万のコンピューティングスケールでは、非常に積極的なフィルタリング戦略 (CLIP スコアに基づいて上位 10 ～ 20% のみを保持) が最良の結果をもたらしましたが、上位 40% を保持する最も積極的でないフィルタリング方法では、最高の違い。しかし、計算規模が6億4000万まで拡大すると、この傾向は完全に逆転します。 T-MARS スコア指標を使用しても同様の傾向が観察されます。

データフィルタリングの展開則

チームは最初に効用を数学的に定義しました。

彼らのアプローチは、トレーニング終了時の n 個のサンプルの損失を推定することではなく、トレーニング段階中の任意の時点でのサンプルの瞬間的な有用性を考慮することです。数式は次のとおりです:

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

これは、サンプルの瞬間的な有用性が現在の損失に正比例し、これまでに確認されたサンプルの数に反比例することを示しています。これは、モデルによって認識されるサンプルの数が増加するにつれて、サンプルの有効性が低下するという直感的な考え方とも一致しています。焦点は、データユーティリティパラメータ b にあります。

次のステップは、再利用されるデータの有用性です。

数学的には、k+1 回観察されたサンプルの効用パラメータ b は次のように定義されます:

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

ここで、τ は効用パラメータの半減期です。 τ の値が大きいほど、繰り返しによるサンプルの有用性の減衰が遅くなります。 δ は、繰り返しによる効用の減衰を簡潔に記述する方法です。次に、n 個のサンプルを確認し、各サンプルを k 回確認した後のモデルの損失の式は次のようになります。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

ここで、n_j はトレーニングエポックの j 回目のラウンドの終了時のモデルです。サンプルが見られました。この方程式は、新しく提案された拡大則の基礎です。

最後に、異種ネットワークデータという別の複雑な層があります。

そして、私たちは彼らが与えた定理を得ました。ランダムかつ均一にサンプリングされた p 個のデータプールが与えられた場合、それぞれの効用と反復パラメーターは (b_1, τ_1)...(b_p, τ_p) であり、それぞれの新しい反復半減期はバケットの τ＾ = p·τ です。さらに、ｋ回目の反復における結合データプールの実効利用価値ｂ＿ｅｆｆは、個々の利用価値の加重平均である。その数学的形式は次のとおりです:

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

ここで、データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます、これは新しいバケットごとの減衰パラメータです。

最後に、上記の定理の b_eff を式 (3) で使用して、データプールの組み合わせでトレーニングするときの損失を推定できます。

さまざまなデータユーティリティプールの拡張曲線のフィッティング

チームは、新しく提案された拡張則を実験的に調査しました。

図 4 は、フィッティング後のさまざまなデータユーティリティプールの拡大曲線を示しています。使用されるデータユーティリティインデックスは T-MARS スコアです。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

図 4 の列 2 は、エポックが増加するにつれて各データプールの有用性が減少することを示しています。チームからの主な観察結果は次のとおりです:

1. ネットワークデータは異種であり、単一の拡張パラメーターセットではモデル化できません。

2. データプールが異なれば、データの多様性も異なります。

3. 現象が繰り返される高品質データの効果は、低品質データの直接使用に追いつきません。

結果: QQT に基づくデータの組み合わせの展開則の推定

対応するパラメーター a、b、d、τ は、さまざまな品質のデータプールに対して事前に推論されています。ここでの目標は、トレーニングのコンピューティング予算を考慮して、最も効率的なデータラングリング戦略は何かを判断することです。

前の定理と各データプールの拡張パラメーターを通じて、さまざまなプールの組み合わせの拡張則を推定できるようになりました。たとえば、上位 20% プールは、上位 10% プールと上位 10% ～ 20% プールの組み合わせと考えることができます。展開曲線からのこの傾向を使用して、特定の計算予算に対するパレート最適データフィルタリング戦略を予測できます。

図 5 は、ImageNet で評価されたさまざまなデータの組み合わせの展開曲線を示しています。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

ここで強調しておく必要があるのは、これらの曲線は上記の定理に基づいて各コンポーネントプールの展開パラメーターから直接推定されるということです。彼らは、これらの展開曲線を推定するために、これらのデータプールの組み合わせでトレーニングを行っていません。散布点は実際のテストのパフォーマンスであり、推定結果を検証するのに役立ちます。

以下のことがわかります: (1) 計算予算が低い/繰り返し回数が少ない場合には、積極的なフィルタリング戦略が最適です。

(2) 計算なしではデータの編集はできません。

拡張曲線を拡張する

2023 年に、Cherti らの論文「対照的言語イメージ学習のための再現可能なスケーリング則」では、CLIP モデルに提案された拡張則を研究しました。計算 3B から 34B のトレーニングサンプルまでのサイズのモデルが数十あり、モデルはさまざまな ViT シリーズモデルをカバーします。この計算規模でモデルをトレーニングするには、非常にコストがかかります。 Cherti et al. (2023) は、このファミリーのモデルに拡張則を当てはめることを目的としていましたが、小さなデータセットでトレーニングされたモデルの拡張曲線には多くのエラーがありました。

CMU チームは、これは主に、データの再利用によって生じる有用性の低下を考慮していなかったことが原因であると考えています。そこで彼らは、新しく提案された拡張則を使用してこれらのモデルの誤差を推定しました。

図6は修正後の展開曲線であり、高精度に誤差を予測できます。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます