ホームページ > テクノロジー周辺機器 > AI > データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

WBOY
リリース: 2024-06-01 22:09:19
オリジナル
1175 人が閲覧しました

基本モデルのスケーリングとは、事前トレーニングにより多くのデータ、計算、パラメーターを使用することを指します。これは単に「スケール拡張」です。

モデルのサイズを直接拡張するのは単純で粗雑なように見えますが、実際に多くの優れたモデルを機械学習コミュニティにもたらしました。これまでの多くの研究では、神経経済モデルの規模を拡大すると、いわゆる量的変化が質的変化を引き起こすことが認識されています。この考え方は、ニューラル スケーリング則としても知られています。 ただし、モデルのサイズが大きくなると、コンピューティング リソースが集中的に消費されます。これは、モデルが大きくなると、プロセッサやメモリなど、より多くのコンピューティング リソースが必要になることを意味します。これは、多くの実際のアプリケーション、特にリソースに制約のあるデバイスでは実現できません。 したがって、研究者は、モデルを改善するためにコンピューティング リソースをより効率的に使用する方法に焦点を当て始めています。LLM であっても、VLM であっても、普及モデルである現在の最良のクローズド ソース モデルの鍵は「データ」であると多くの人が考えています。 。データ品質の重要性が認識されるにつれ、大規模なデータベースから高品質のデータをフィルタリングするか、高品質の新しいデータを生成するなど、データ品質の向上を目的とした多くの研究が行われています。しかし、これまでの拡大法は一般に「データ」を同質な存在として捉え、最近注目されている「データの品質」を考慮次元としていませんでした。

ウェブ上のデータ モデルは膨大であるにもかかわらず、高品質のデータ (複数の評価指標に基づく) は限られていることがよくあります。今、画期的な研究が行われています - データ フィルタリングの次元における拡張則です。これはカーネギー メロン大学とボッシュ AI センターによるもので、「大規模」と「高品質」の間の量と質のトレードオフ (QQT) に特に焦点を当てています。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます


論文のタイトル: データ フィルタリングのスケーリングの法則—データ キュレーションはコンピューティングに依存しない
  • 論文のアドレス: https://arxiv.org/pdf/2404.07177。 PDF
  • コードアドレス: https://github.com/locuslab/scaling_laws_data_filtering

図1に示すように、複数のエポックをトレーニングする場合、高品質のデータのユーティリティ(ユーティリティ) ) は大きくありません (モデルが学習を完了しているため)。


データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます現時点では、多くの場合、高品質のデータを再利用するよりも、低品質のデータ (最初は実用性が低い) を使用する方が役立ちます。

量と質のトレードオフ (QQT) の下で、どのような種類のデータの組み合わせがトレーニングに適しているかをどのように判断すればよいでしょうか?

この質問に答えるには、データ キュレーション ワークフローでは、モデルのトレーニングに使用される合計計算量を考慮する必要があります。これは、データ フィルタリングに関するコミュニティの見解とは異なります。たとえば、LAION フィルタリング戦略は、一般的なクロール結果から最高品質の 10% を抽出します。

しかし、図 2 からわかるように、トレーニングが 35 エポックを超えると、完全に組織化されていないデータセットでのトレーニングの効果は、LAION 戦略を使用して組織化された高品質のデータでのトレーニングよりも優れていることは明らかです。

現在の神経拡張法則では、この質と量の間の動的なトレードオフをモデル化できません。さらに、視覚言語モデルの拡張に関する研究はさらに少なく、現在の研究のほとんどは言語モデリングの分野に限定されています。 データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

今日紹介する画期的な研究は、以前のニューラル拡張の法則の 3 つの重要な制限を克服し、それを実現しました。

(1) データを拡張するときに「品質」軸を考慮する

(2) データ プールの組み合わせの拡張則を推定します (組み合わせについて実際にトレーニングすることはありません)。これは、最適なデータ統合の決定に役立ちます。

(3) LLM 拡張則を調整します。これにより、対比に適します。トレーニング (CLIP など)。各バッチには平方数の比較があります。

チームは、異種かつ限られた量のネットワーク データに対する拡張則を初めて提案しました。

大規模なモデルは、さまざまな品質のデータ プールの組み合わせでトレーニングされます。個々のデータ プールの拡散パラメーター (図 1 (a) の A ~ F) から導出される集約データ ユーティリティをモデル化することにより、これらのデータ プールの任意の組み合わせでモデルのパフォーマンスを直接推定することができます。

この方法では、展開則を推定するためにこれらのデータ プールの組み合わせに関するトレーニングを必要とせず、各コンポーネント プールの展開パラメータに基づいて展開曲線を直接推定できることを指摘することが重要です。

過去の拡張則と比較すると、ここでの拡張則にはいくつかの重要な違いがあり、トレーニングメカニズムの繰り返しをモデル化して比較し、O (n²) の比較を実現できます。たとえば、トレーニング プールのサイズが 2 倍になると、モデルの損失に寄与する比較の数は 4 倍になります。

これらは、異なるプールのデータがどのように相互作用するかを数学的に記述し、データの異なる組み合わせの下でモデルのパフォーマンスを推定できるようにします。これにより、現在利用可能な計算に適したデータ編成戦略が得られます。

この研究からの重要なメッセージは次のとおりです: データの編集は計算なしでは行えません

図 1 の低い計算量での積極的なフィルタリング (E) の最高のパフォーマンスに示されているように、計算予算が小さい (繰り返しが少ない) 場合、QQT のトレードオフの下で品質が優先されます。

一方で、使用する学習データをはるかに超える計算規模になると、限られた良質なデータの有用性が低下するため、それを補う工夫が必要になります。これにより、フィルタリング戦略があまり積極的ではなくなり、データ量が増えてもパフォーマンスが向上します。

チームは、異種ネットワーク データに対するこの新しいスケーリング則が、DataComp の中規模プール (1 億 2,800 万サンプル) 最適フィルタリング戦略を使用して、3,200 万から 6 億 4,000 万のさまざまなコンピューティング予算の下でパレートを予測できることを示す実験デモンストレーションを実施しました。

特定のコンピューティング予算の下でのデータ フィルタリング

チームは、実験を通じて、さまざまなコンピューティング予算の下でのデータ フィルタリングの効果を研究しました。

彼らは、大規模な初期データプールを使用して VLM をトレーニングしました。フィルタリングされていない基本データ プールには、最近のデータ コンパイル ベンチマークである Datacomp の「中規模」バージョンを選択しました。データ プールには 1 億 2,800 万のサンプルが含まれています。彼らは 18 の異なるダウンストリーム タスクを使用して、モデルのゼロショット パフォーマンスを評価しました。

彼らはまず、LAION データセットを取得するために使用される LAION フィルタリング戦略を研究しました。その結果を図 2 に示します。彼らは次の結果を観察しました:

1. 計算予算が低い場合は、高品質のデータを使用する方が良いです。

2. コンピューティング予算が高い場合、データ フィルタリングが障害を引き起こす可能性があります。

なぜですか?

LAION フィルタリングはデータの約 10% を保持するため、計算予算は約 4 億 5000 万で、フィルタリングされた LAION プールの各サンプルは約 32 回使用されます。ここで重要な洞察は、トレーニング中に同じサンプルが複数回見られる場合、そのたびに効用が減少するということです。

チームはその後、他の 2 つのデータ フィルタリング方法を研究しました:

(1) CLIP L/14 モデルを使用した CLIP スコア フィルタリング

(2) マスキング後の T-MARS データはランク付けされます。画像内のテキスト特徴後の CLIP スコア (OCR) に基づきます。データ フィルタリング手法ごとに、4 つのフィルタリング レベルとさまざまな合計計算量を使用しました。

図 3 は、計算規模が 32M、128M、および 640M の場合の上位 10 ~ 20%、上位 30%、および上位 40% の CLIP フィルタリングの結果の比較を示しています。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

3,200 万のコンピューティング スケールでは、非常に積極的なフィルタリング戦略 (CLIP スコアに基づいて上位 10 ~ 20% のみを保持) が最良の結果をもたらしましたが、上位 40% を保持する最も積極的でないフィルタリング方法では、最高の違い。しかし、計算規模が6億4000万まで拡大すると、この傾向は完全に逆転します。 T-MARS スコア指標を使用しても同様の傾向が観察されます。

データフィルタリングの展開則

チームは最初に効用を数学的に定義しました。

彼らのアプローチは、トレーニング終了時の n 個のサンプルの損失を推定することではなく、トレーニング段階中の任意の時点でのサンプルの瞬間的な有用性を考慮することです。数式は次のとおりです:

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

これは、サンプルの瞬間的な有用性が現在の損失に正比例し、これまでに確認されたサンプルの数に反比例することを示しています。これは、モデルによって認識されるサンプルの数が増加するにつれて、サンプルの有効性が低下するという直感的な考え方とも一致しています。焦点は、データ ユーティリティ パラメータ b にあります。

次のステップは、再利用されるデータの有用性です。

数学的には、k+1 回観察されたサンプルの効用パラメータ b は次のように定義されます:

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

ここで、τ は効用パラメータの半減期です。 τ の値が大きいほど、繰り返しによるサンプルの有用性の減衰が遅くなります。 δ は、繰り返しによる効用の減衰を簡潔に記述する方法です。次に、n 個のサンプルを確認し、各サンプルを k 回確認した後のモデルの損失の式は次のようになります。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

ここで、n_j はトレーニング エポックの j 回目のラウンドの終了時のモデルです。サンプルが見られました。この方程式は、新しく提案された拡大則の基礎です。

最後に、異種ネットワーク データという別の複雑な層があります。

そして、私たちは彼らが与えた定理を得ました。ランダムかつ均一にサンプリングされた p 個のデータプールが与えられた場合、それぞれの効用と反復パラメーターは (b_1, τ_1)...(b_p, τ_p) であり、それぞれの新しい反復半減期はバケットの τ^ = p·τ です。さらに、k回目の反復における結合データプールの実効利用価値b_effは、個々の利用価値の加重平均である。その数学的形式は次のとおりです:

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

ここで、データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます、これは新しいバケットごとの減衰パラメータです。

最後に、上記の定理の b_eff を式 (3) で使用して、データ プールの組み合わせでトレーニングするときの損失を推定できます。

さまざまなデータユーティリティプールの拡張曲線のフィッティング

チームは、新しく提案された拡張則を実験的に調査しました。

図 4 は、フィッティング後のさまざまなデータ ユーティリティ プールの拡大曲線を示しています。使用されるデータ ユーティリティ インデックスは T-MARS スコアです。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

図 4 の列 2 は、エポックが増加するにつれて各データ プールの有用性が減少することを示しています。チームからの主な観察結果は次のとおりです:

1. ネットワーク データは異種であり、単一の拡張パラメーター セットではモデル化できません。

2. データプールが異なれば、データの多様性も異なります。

3. 現象が繰り返される高品質データの効果は、低品質データの直接使用に追いつきません。

結果: QQT に基づくデータの組み合わせの展開則の推定

対応するパラメーター a、b、d、τ は、さまざまな品質のデータ プールに対して事前に推論されています。ここでの目標は、トレーニングのコンピューティング予算を考慮して、最も効率的なデータ ラングリング戦略は何かを判断することです。

前の定理と各データ プールの拡張パラメーターを通じて、さまざまなプールの組み合わせの拡張則を推定できるようになりました。たとえば、上位 20% プールは、上位 10% プールと上位 10% ~ 20% プールの組み合わせと考えることができます。展開曲線からのこの傾向を使用して、特定の計算予算に対するパレート最適データ フィルタリング戦略を予測できます。

図 5 は、ImageNet で評価されたさまざまなデータの組み合わせの展開曲線を示しています。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

ここで強調しておく必要があるのは、これらの曲線は上記の定理に基づいて各コンポーネント プールの展開パラメーターから直接推定されるということです。彼らは、これらの展開曲線を推定するために、これらのデータ プールの組み合わせでトレーニングを行っていません。散布点は実際のテストのパフォーマンスであり、推定結果を検証するのに役立ちます。

以下のことがわかります: (1) 計算予算が低い/繰り返し回数が少ない場合には、積極的なフィルタリング戦略が最適です。

(2) 計算なしではデータの編集はできません。

拡張曲線を拡張する

2023 年に、Cherti らの論文「対照的言語イメージ学習のための再現可能なスケーリング則」では、CLIP モデルに提案された拡張則を研究しました。計算 3B から 34B のトレーニング サンプルまでのサイズのモデルが数十あり、モデルはさまざまな ViT シリーズ モデルをカバーします。この計算規模でモデルをトレーニングするには、非常にコストがかかります。 Cherti et al. (2023) は、このファミリーのモデルに拡張則を当てはめることを目的としていましたが、小さなデータセットでトレーニングされたモデルの拡張曲線には多くのエラーがありました。

CMU チームは、これは主に、データの再利用によって生じる有用性の低下を考慮していなかったことが原因であると考えています。そこで彼らは、新しく提案された拡張則を使用してこれらのモデルの誤差を推定しました。

図6は修正後の展開曲線であり、高精度に誤差を予測できます。

データは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちます

これは、新しく提案された拡張則が 34B データ計算でトレーニングされた大規模なモデルに適していることを示しており、モデルのトレーニング結果を予測する際に、新しい拡張則が繰り返しデータの有用性の低下を実際に考慮できることを示しています。 。

技術的な詳細と実験結果については、元の論文を参照してください。

以上がデータは多いほうがいいのか、それとも品質が高いほうがいいのか?この調査はあなたの選択に役立ちますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート