VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム-AI-php.cn

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

紙のリンク: https://arxiv.org/abs/2203.12602

コードと事前トレーニングの重みは Github でオープンソース化されています: https://github.com/MCG-NJU/VideoMAE

Directory1 . 背景の紹介
2. 研究の動機
3. 手法の紹介##4. VideoMAE実装の詳細
5. アブレーション実験##6. VideoMAEの重要な特徴##7. 主な結果
8. コミュニティの影響
9. 概要

背景紹介

ビデオ自己教師あり学習: ラベル情報を使用せず、設計により自己教師ありエージェントのタスクは、ビデオデータから時空間表現情報を学習することです。既存のビデオ自己教師あり事前トレーニングアルゴリズムは主に 2 つのカテゴリに分類されます: (1) CoCLR、CVRL などの対照学習に基づく自己教師あり手法。 (2) DPC、SpeedNet、Pace などの時系列関連エージェントタスクに基づく自己教師ありメソッド。

アクション認識: 指定されたトリミングされたビデオ (トリミングされたビデオ) を分類し、このビデオ内のキャラクターのアクションを識別します。現在の主流の方式は、2D ベース (TSN、TSM、TDN など)、3D ベース (I3D、SlowFast など)、および Transformer ベース (TimeSformer、ViViT、MViT、VideoSwin など) です。ビデオ分野の基本的なタスクとして、動作認識は、ビデオ分野全体の時空間特徴を抽出するために、ビデオ分野のさまざまな下流タスク (時間的動作検出、時空間動作検出など) のバックボーンネットワーク (Backbone) としてよく使用されます。ビデオクリップレベルで。

アクション検出: このタスクでは、ビデオのアクションを分類してビデオ内のキャラクターのアクションを識別するだけでなく、スペース内の境界ボックスを使用することも必要です。ボックス) は、キャラクターの空間的な位置。アクション検出には、映画ビデオ分析、スポーツビデオ分析、その他のシナリオで幅広い応用シナリオがあります。

研究動機

2020年末に視覚的自己注意モデル(Vision Transformer)が提案されて以来、Transformerはコンピュータビジョンの分野で広く使用されてきました。一連のコンピュータービジョンタスクのパフォーマンスの向上に貢献しました。

ただし、Vision Transformer は、トレーニングに大規模なラベル付きデータセットを利用する必要があります。当初、オリジナルの ViT (Vanilla Vision Transformer) は、数億枚のラベル付き画像を使用した教師あり事前トレーニングによって優れたパフォーマンスを達成しました。現在の Video Transformer は通常、画像データでトレーニングされた Vision Transformer モデル (TimeSformer、ViViT など) に基づいており、大規模な画像データの事前トレーニングされたモデル (ImageNet-1K、ImageNet-21K、JFT など) に依存しています。 300Mなど）。 TimeSformer と ViViT はどちらも、ビデオデータセットで Video Transformer モデルを最初からトレーニングしようとしましたが、満足のいく結果を達成できませんでした。したがって、他の事前トレーニング済みモデルや追加の画像データを使用せずに、Video Transformer、特にオリジナルの ViT (Vanilla Vision Transformer) をビデオデータセット上で直接効果的にトレーニングする方法は、依然として解決すべき緊急の問題です。既存のビデオデータセットは画像データセットと比較して比較的小さいことに注意してください。たとえば、広く使用されている Kinectics-400 データセットには 200,000 以上のトレーニングサンプルしかなく、サンプル数は ImageNet-21K データセットの約 1/50、JFT-300M データセットの 1/1500 です。数桁の大きさのギャップ。同時に、画像モデルのトレーニングと比較して、ビデオモデルのトレーニングの計算オーバーヘッドもはるかに高くなります。これにより、ビデオデータセットで Video Transformer をトレーニングすることがさらに困難になります。

最近、「マスキングと再構成」の自己教師ありトレーニングパラダイムは、自然言語処理 (BERT) と画像理解 (BEiT、MAE) において成功を収めています。したがって、この自己教師ありパラダイムを使用してビデオデータセットで Video Transformer をトレーニングすることを試み、マスキングと再構成のプロキシタスクに基づいたビデオ自己教師あり事前トレーニングアルゴリズム VideoMAE (Video MAE) を提案します。）。 VideoMAE によって事前トレーニングされた ViT モデルは、Kinetics-400 や Something-Something V2 などの大規模なビデオデータセットだけでなく、UCF101 や HMDB51 などの比較的小さなビデオデータセットでも、他の方法よりも大幅に優れた結果を達成できます。

メソッドの紹介

MAE 概要

MAE は、マスキングと再構成のトレーニングタスクの自己教師あり予測のために、非対称エンコーダー/デコーダーアーキテクチャを採用しています。 224x224 解像度の入力画像は、まずサイズ 16 × 16 の重複しない視覚ピクセルブロック (トークン) に分割されます。各ピクセルブロック（トークン）は、ブロック埋め込み（トークン埋め込み）操作によって高次元の特徴に変換されます。 MAE は、より高いマスク率 (75%) を使用して、一部のピクセルブロック (トークン) をランダムにマスクします。マスキング操作の後、残りのピクセルブロックは特徴抽出のためにエンコーダーに送信されます。その直後、エンコーダーによって抽出された特徴ブロックは、あらかじめ設定された学習可能なピクセルブロック (学習可能なトークン) の別の部分と結合され、元の入力画像サイズと同じ大きさの特徴が形成されます。最後に、軽量デコーダを使用して、これらの特徴に基づいて元の画像を再構成します（実際の実験では、再構成の対象は正規化されたピクセルブロック（正規化されたトークン）です。）

映像の特徴データ

##画像データと比較して、ビデオデータはフレーム数が多く、動き情報が豊富です。このセクションではまず、ビデオデータの特徴を見てみましょう。

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

ビデオデータのさまざまなマスキング戦略の例

時間的冗長性

ビデオデータには高密度の画像フレームが含まれており、これらの画像フレームに含まれる意味情報は時間の経過とともに非常にゆっくりと変化します。図に示すように、ビデオ内の高密度で連続したカラー画像フレームは非常に冗長であることがわかります。 MAE の実装プロセスでは 2 つの問題が発生します。まず、元のビデオの高密度フレームレート (30 FPS など) が事前トレーニングに使用される場合、トレーニング効率が非常に低くなります。この設定ではネットワークに負担がかかるためです。データ内の静的な外観の特徴や、局所的に変化する動きの特徴にもっと注意を払う必要があります。第二に、ビデオの時間的冗長性により、ビデオ内の動きの特徴が大幅に薄められます。したがって、この状況により、マスクされたピクセルパッチを再構成するタスクが以下の場合に比較的簡単になります。通常のマスキングレート (例: 50% ～ 75%) これらの問題は、エンコーダとしての Backbone の事前トレーニングされたパフォーマンスに影響を与えますプロセスでモーション特徴を抽出します

時間的相関

ビデオは、時間の経過に伴う静止画像の進化によって生成されたものと見なすことができるため、ビデオフレーム間には意味的な対応関係もあります。マスキング戦略が特別に設計されていない場合、この時間的相関関係は増加する可能性があります。具体的には、図に示すように、グローバルランダムマスクまたはランダムにマスクされた画像フレームを使用する場合、ネットワークはビデオ内の時間的相関を利用して、「コピー」によってブロック再構成を実行できます。この場合、エージェントタスクをある程度完了することもできますが、VideoMAE が高レベルの抽象的な意味論ではなく、より低い意味論的な時間対応特徴のみを学習する可能性があります。ビデオコンテンツの時空間推論能力などの情報この状況を軽減するには、ネットワークがビデオ内の時空間特徴表現をより適切に学習できるように、再構築タスクをより困難にする新しいマスキング戦略を設計する必要があります。

#VideoMAE メソッドの紹介

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

VideoMAE の全体的なフレームワーク

前の記事のビデオ事前トレーニングプロセスを解決するためにマスキングと再構成タスクを使用するときに発生する可能性がある問題に対処するために、VideoMAE にいくつかの新しい設計を導入します。

タイミングダウンサンプリング

ビデオ内の密な連続フレームに存在するタイミング冗長性に関する以前の分析によると、VideoMAE サンプリング戦略のタイミング間隔を使用して、より効率的なビデオによる自己監視型の事前トレーニング。具体的には、$t$ の連続フレームで構成されるビデオセグメントが、最初に元のビデオからランダムにサンプリングされます。次に、ビデオクリップは、時間的に間隔をあけたサンプリングを使用してフレームに圧縮され、各フレームには VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイムピクセルが含まれます。特定の実験設定では、Kinetics-400 データセットと Something-Something V2 データセットのサンプリング間隔はそれぞれ 4 と 2 に設定されます。

空間的および時間的ブロックの埋め込み

エンコーダーに入力される前に、サンプリングされたビデオクリップに対して、ピクセルブロックが時空間の形式で処理されます。ジョイント埋め込み。具体的には、サイズ VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイムのビデオクリップ内のサイズの視覚ピクセルは、1 つの視覚ピクセルブロックとみなされます。したがって、視覚ピクセルブロックは、時空間ブロック埋め込み (キューブ埋め込み) レイヤーを通過した後、サンプリングされたビデオクリップから取得できます。このプロセスでは、視覚ピクセルブロックのチャネル次元もマッピングされます。この設計により、入力データの時空間次元サイズを削減でき、また、ビデオデータの時空間冗長性をある程度軽減することができます。

極めて高いマスキング率を実現するパイプラインマスキング戦略

タイミング冗長性による問題解決と「情報漏洩」問題を解決するために時間的相関によって引き起こされる問題を解決するため、この方法では、自己教師付き事前トレーニングのプロセスでパイプラインマスキング戦略を採用することを選択します。パイプラインマスキング戦略は、単一フレームのカラー画像のマスキング方法をビデオシーケンス全体に自然に拡張できます。つまり、異なるフレーム内の同じ空間位置にある視覚ピクセルブロックがマスクされます。具体的には、パイプラインマスキングポリシーはと表現できます。異なる時間 t は同じ値を共有します。このマスキング戦略を使用すると、同じ空間的位置にあるトークンが常にマスクされます。したがって、一部の視覚ピクセルパッチ (たとえば、さまざまなマスキング戦略のサンプル画像の 4 行目に指を含むピクセルパッチ) については、ネットワークは他のフレームで対応する部分を見つけることができません。この設計は、再構築プロセス中の「情報漏洩」のリスクを軽減するのに役立ち、VideoMAE が元のビデオクリップから高レベルのセマンティック情報を抽出してマスクされたトークンを再構築できるようにします。

動画データは画像データに比べて冗長性が強く、情報密度が画像データに比べて非常に低いです。この機能により、VideoMAE は事前トレーニングに非常に高いマスクレート (例: 90% ～ 95%) を使用できるようになります。 MAE のデフォルトのマスク率は 75% であることに注意してください。実験結果は、非常に高いマスクレートを使用すると、事前トレーニング (視覚ピクセルブロックの 5% ～ 10% のみがエンコーダーに入力される) を高速化できるだけでなく、モデルの表現能力とダウンストリームでの効果も改善できることを示しています。タスク。

時空共同セルフアテンションメカニズム

前の記事で述べたように、VideoMAE は非常に高いマスキングレートを使用し、非常に少数のトークンのみを保持します。エンコーダへの入力。遮蔽されていないトークンのこの部分の時空間特徴をより適切に抽出するために、VideoMAE は元の ViT をバックボーンとして使用することを選択し、同時にアテンション層 (つまり、次のモデル構造) で時空間共同自己注意を使用しました。元の ViT は変更されませんでした)。したがって、閉塞されていないすべてのトークンはセルフアテンション層で相互作用できます。時空間結合セルフアテンションメカニズムの VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイムレベルの計算複雑さは、ネットワークの計算ボトルネックです。前の記事では、VideoMAE に非常に高いマスク率戦略が使用されましたが、これはマスクされていないトークン (10% など) がエンコーダーに入力されます。この設計により、 VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイムレベルの計算の複雑さの問題をある程度まで効果的に軽減できます。

#VideoMAE 実装の詳細

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

##VideoMAE フレームワークの具体的な設計の詳細

#上の図は、VideoMAE で使用されるエンコーダーとデコーダーの具体的なアーキテクチャ設計を示しています (ViT-B を例にしています)。 4 つのダウンストリームビデオアクション認識データセットと 1 つのアクション検出データセットで VideoMAE を評価します。これらのデータセットは、ビデオ内のモーション情報のさまざまな側面に焦点を当てています。 Kinetics-400 は、400 の異なるアクションカテゴリをカバーする約 300,000 のトリミングされたビデオクリップを含む大規模な YouTube ビデオデータセットです。 Kinetics-400 データセットには主に日常生活のアクティビティが含まれており、一部のカテゴリはインタラクティブなオブジェクトやシーン情報と高度に相関しています。 Something-Something V2 データセットのビデオには主に、同じアクションを実行するさまざまなオブジェクトが含まれているため、このデータセットのアクション認識では、オブジェクトやシーンの情報よりもモーション属性に重点を置いています。トレーニングセットには約 170,000 のビデオクリップが含まれており、検証セットには約 25,000 のビデオクリップが含まれています。 UCF101 と HMDB51 は、2 つの比較的小さなビデオアクション認識データセットです。 UCF101 のトレーニングセットには約 9500 個のビデオが含まれており、HMDB51 のトレーニングセットには約 3500 個のビデオが含まれています。実験中、最初に VideoMAE を使用してトレーニングセット上のネットワーク上で自己教師あり事前トレーニングを実行し、次にトレーニングセット上でエンコーダーの教師あり微調整 (ViT) を実行し、最後にモデルのパフォーマンスを評価しました。検証セット。アクション検出データセット AVA の場合、最初に Kinetics-400 データセットでトレーニングされたモデルをロードし、エンコーダーの教師あり微調整 (ViT) を実行します。

アブレーション実験

このセクションでは、Something-Something V2 および Kinetics-400 データセットを使用して VideoMAE でアブレーション実験を実施します。アブレーション実験では、デフォルトで 16 フレームの入力を持つオリジナルの ViT モデルが使用されます。同時に、微調整後の評価では、Something-Something V2 でのテストでは 2 つのビデオクリップと 3 つのクロップが選択され、Kinetics-400 でのテストでは 5 つのビデオクリップと 3 つのクロップが選択されました。

#デコーダの設計

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

軽量デコーダは Vid

#oMAE の重要なコンポーネント。異なる深さのデコーダを使用した実験結果を表 (a) に示します。 MAE とは異なり、VideoMAE のより深いデコーダーはより優れたパフォーマンスを達成でき、より浅いデコーダーは GPU メモリの使用量を効果的に削減できます。デコーダ層の数はデフォルトで 4 に設定されています。 MAE の経験的設計に従って、VideoMAE のデコーダのチャネル幅はエンコーダのチャネル幅の半分に設定されます (たとえば、ViT-B がエンコーダとして使用される場合、デコーダのチャネル幅は 384 に設定されます) ）。

マスク戦略

さまざまなマスキング戦略と、75% のマスキング率を使用したパイプラインマスキング戦略を比較します。表 (b) に示すように、グローバルランダムマスキングおよびランダムマスキング画像フレームのパフォーマンスは、パイプラインマスキング戦略よりも劣ります。これは、パイプラインマスキング戦略により、ビデオデータのタイミング冗長性とタイミング相関性がある程度軽減されるためと考えられます。マスク率が 90% に増加すると、Something-Something での VideoMAE のパフォーマンスは 68.0% から 69.6% にさらに向上します。 VideoMAE のマスキング戦略とマスキング率の設計により、マスキングと再構築がより困難な代理タスクとなり、モデルに高レベルの時空間特徴の学習を強いることになります。

再構成ターゲット

VideoMAE の再構成ターゲットをここで比較します。結果を表 (c) に示します。まず、ビデオクリップの中央フレームのみが再構成ターゲットとして使用される場合、ダウンストリームタスクにおける VideoMAE のパフォーマンスが大幅に低下します。同時に、VideoMAE はサンプリング間隔にも非常に敏感です。より高密度にパックされたビデオクリップを再構築することを選択した場合、結果はデフォルトの時間的にダウンサンプリングされたビデオクリップよりも大幅に低くなります。最後に、時間的にダウンサンプリングされたビデオクリップからビデオクリップ内のより密度の高いフレームを再構築しようとしましたが、この設定ではより多くのフレームをデコードする必要があり、トレーニングが遅くなり、あまり効果的ではなくなります。

事前トレーニング戦略

VideoMAE の事前トレーニング戦略をここで比較します。結果を表 (d) に示します。以前の方法 (TimeSformer、ViViT) の実験結果と同様に、動き情報により敏感なデータセットである Something-Something V2 で ViT をゼロからトレーニングしても、満足のいく結果を得ることができません。大規模画像データセット (ImageNet-21K) で事前トレーニングされた ViT モデルを初期化として使用すると、より良い精度が得られ、32.6% から 61.8% に向上します。 ImageNet-21K および Kinetics-400 で事前トレーニングされたモデルを使用すると、精度がさらに 65.2% に向上しました。 VideoMAE を使用してビデオデータセット自体から事前トレーニングされた ViT は、追加データを使用せずに最終的に 69.6% の最高のパフォーマンスを達成できます。 Kinetics-400 でも同様の結論に達しました。

事前トレーニングデータセット

VideoMAE の事前トレーニングデータセットをここで比較し、結果を表 (e) に示します。）。まず、MAE の設定に従って、ViT は ImageNet-1K 上で 1600 エポックにわたって自己教師あり事前トレーニングされます。次に、2D ブロック埋め込みレイヤーは、I3D の戦略を使用して 3D 時空間ブロック埋め込みレイヤーにインフレートされ、ビデオデータセット上でモデルが微調整されます。このトレーニングパラダイムは、ゼロから教師付きでトレーニングされたモデルよりも優れたパフォーマンスを発揮します。次に、MAE 事前トレーニングモデルのパフォーマンスを、Kinetics-400 上で VideoMAE によって事前トレーニングされた ViT モデルと比較しました。 VideoMAE は MAE よりも優れたパフォーマンスを達成できることがわかります。ただし、どちらの事前トレーニングモデルも、Something-Something V2 データセット上で自己教師によってのみ事前トレーニングされた VideoMAE よりも優れたパフォーマンスを達成することはできませんでした。トレーニング前のデータセットとターゲットデータセットの間のドメインの違いが重要な問題である可能性があると分析できます。

事前トレーニングラウンド

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

VideoMAE Impact での事前トレーニングの合計ラウンド数

アブレーション実験では、VideoMAE 事前トレーニングの合計エポック数はデフォルトで 800 に設定されています。私たちは、Kinetics-400 および Something-Something V2 データセットのトレーニング前エポックの詳細な調査を実施しようと試みています。図の結果によると、より長い事前トレーニングエポックを使用すると、両方のデータセットで一貫したゲインが得られます。

VideoMAE の重要な機能

VideoMAE はデータ効率の高い学習者です

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

さまざまなダウンストリームビデオアクション認識データセットでの VideoMAE と MoCov3 のパフォーマンスの比較

これまでの多くの研究でビデオ自己教師あり事前トレーニングに関する広範な研究が行われてきましたが、これらの方法は主に畳み込みニューラルネットワークをバックボーンとして使用しており、ViT ベースのトレーニングメカニズムを研究する方法はほとんどありません。したがって、ビデオ自己教師あり事前トレーニングに対する ViT ベースの VideoMAE の有効性を検証するために、2 つの ViT ベースのトレーニング方法を比較しました: (1) ゼロからのモデルの教師ありトレーニング、(2) 対照学習方法 (MoCo) の使用v3) 自己教師付き事前トレーニングを実行します。実験結果によると、VideoMAE が他の 2 つのトレーニング方法よりも大幅に優れていることがわかります。たとえば、データサイズが最も大きい Kinetics-400 データセットでは、VideoMAE は最初からトレーニングするよりも約 10% 精度が高く、MoCo v3 事前トレーニングの結果よりも約 6% 精度が高くなります。 VideoMAE の優れたパフォーマンスは、マスキングと再構成の自己監視パラダイムが ViT の効率的な事前トレーニングメカニズムを提供することを示しています。同時に、トレーニングセットが小さくなるにつれて、VideoMAE と他の 2 つのトレーニング方法の間のパフォーマンスの差がますます大きくなることは注目に値します。 HMDB51 データセットには約 3500 個のビデオクリップしか含まれていないにもかかわらず、VideoMAE に基づく事前トレーニング済みモデルは依然として非常に満足のいく精度を達成できることは注目に値します。この新しい結果は、VideoMAE がデータ効率の高い学習器であることを示しています。これは、事前トレーニングに大量のデータが必要な対照学習とは異なります。 VideoMAE のデータ効率の高い機能は、ビデオデータが制限されているシナリオでは特に重要です。

Something-SomethingV2 データセットにおける VideoMAE と MoCov3 の効率分析 VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

##Weさらに、VideoMAE を使用した事前トレーニングと MoCo v3 を使用した事前トレーニングの計算効率も比較しました。マスキングと再構築という非常に困難なプロキシタスクにより、ネットワークは各反復で入力データの 10% しか観察できません (トークンの 90% がマスクされます)。そのため、VideoMAE はより多くのトレーニングラウンドを必要とします。非常に高い割合のトークンが隠されており、この設計により、計算消費量と事前トレーニングの時間が大幅に節約されます。 800 ラウンドの VideoMAE 事前トレーニングには 19.5 時間しかかかりませんが、300 ラウンドの MoCo v3 事前トレーニングには 61.7 時間かかります。

非常に高いマスキング率

##VideoMAE におけるマスキング率の影響

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

非常に高いマスクレートは、VideoMAE の中核となる設計の 1 つです。 Kinetics-400 および Something-Something V2 データセットでこの設計の詳細な調査を実施します。図の結果によると、マスク率が 95% と非常に高い場合でも、ネットワークはダウンストリームのビデオ動作認識タスク用のこれら 2 つの重要なデータセットで優れたパフォーマンスを示しています。この現象は、自然言語処理における BERT や画像における MAE とは大きく異なります。ビデオデータには時間的冗長性と時間的相関性が存在するため、VideoMAE は画像データや自然言語と比較して非常に高いマスク率で動作できます。

事前トレーニングされた VideoMAE の再構成例も視覚化します。この図から、VideoMAE が非常に高いマスクレートでも満足のいく再構成結果を生成できることがわかります。これは、VideoMAE がビデオの時空間特徴を学習して抽出できることを意味します。

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

一般化および転送機能: データの質と量

VideoMAE および MoCov3 のパフォーマンス小規模なデータセットでの特徴転送機能の比較

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

VideoMAE によって学習された機能をさらに研究するために、このセクションでは、事前トレーニングされた VideoMAE の一般化および転送機能を評価します。上の表は、Kinetics-400 データセットで事前トレーニングされた VideoMAE の Something-Something V2、UCF101、および HMDB51 データセットへの転送効果を示しています。同時に、この表には、MoCo v3 を使用して事前トレーニングされたモデルの移行能力も示されています。表の結果によると、VideoMAE を使用して事前トレーニングされたモデルの転送および汎化機能は、MoCo v3 に基づいて事前トレーニングされたモデルよりも優れています。これは、VideoMAE がより多くの転送可能な特徴表現を学習できることを示しています。 Kinetics-400 データセットで事前トレーニングされた VideoMAE は、UCF101 および HMDB51 データセットで直接事前トレーニングされた VideoMAE よりも優れたパフォーマンスを発揮します。しかし、Kinetics-400 データセットで事前トレーニングされたモデルは、Something-Something V2 データセットではあまり転送されません。

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

この不一致の理由をさらに調査するために、Something-Something V2 データセットで事前トレーニングビデオの数を減らす実験を実施しました。探索プロセスには 2 つの実験が含まれます: (1) 事前トレーニングに同じ数のトレーニングラウンド (エポック) を使用する、(2) 事前トレーニングに同じ数の反復 (反復) を使用する。図の結果から、事前トレーニングサンプルの数を減らす場合、より多くのトレーニング反復を使用するとモデルのパフォーマンスも向上することがわかります。たとえ 42,000 の事前トレーニングされたビデオのみが使用されたとしても、Something-Something V2 データセットで直接トレーニングされた VideoMAE は、240,000 のビデオデータを使用して事前トレーニングされた Kinetics-400 データセットよりも高い精度 (68.7) を達成できます。% 対 68.5%)。この発見は、ビデオの自己教師あり事前トレーニング中にドメインの違いが注意を払うもう 1 つの重要な要素であることを意味します。事前トレーニングデータセットとターゲットデータセットの間にドメインの違いがある場合、事前トレーニングデータの品質がより重要になります。データ量よりも。同時に、この発見は、VideoMAE がビデオ自己教師あり事前トレーニング用のデータ効率の高い学習器であることを間接的に検証します。

#主な結果

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

Something-Something V2 データセットの実験結果

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

#Kinetics-400 データセットの実験結果

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

UCF101 および HMDB51 データセットの実験結果

追加データを使用せずに Something-Something V2 および Kinetics-400 で VideoMAE のトップ 1 の精度がそれぞれ 75.4% と 87.4% に達しました。 Something-Something V2 データセットの現在の最先端のメソッドは、外部データセットで事前トレーニングされたモデルの初期化に大きく依存していることに注意してください。対照的に、VideoMAE は、外部データを一切利用せずに、精度においてこれまでの最良の方法を約 5% 大幅に上回ることができます。 VideoMAE は、Kinetics-400 データセットでも優れたパフォーマンスを達成できます。ビデオデータが限られている場合 (たとえば、UCF101 データセットには 10,000 未満のトレーニングビデオしか含まれておらず、HMDB51 には約 3500 のトレーニングビデオしか含まれていない)、VideoMAE は追加の画像データやビデオデータを利用する必要がなく、小規模なビデオデータセットに対するこれまでの最良の方法をはるかに上回っています。

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

AVA v2.2 データセットの実験結果

従来のアクション分類タスクに加えて、ビデオアクション検出のより高度な理解タスクにおける VideoMAE モデルの表現能力をさらに検証しました。実験には AVA v2.2 データセットを選択しました。実験では、Kinetics-400 データセットで事前トレーニングされたモデルが最初にロードされ、次に ViT が教師ありの方法で微調整されます。表から、VideoMAE によって事前トレーニングされた ViT モデルが AVA v2.2 データセットで非常に良好な結果を達成できることがわかります。自己監視型の事前トレーニング済み ViT モデルを Kinetics-400 でさらに監視して微調整すると、アクション検出タスクでより良いパフォーマンスを発揮できます (3 mAP ～ 6mAP の改善)。これは、VideoMAE 自己教師あり事前トレーニングモデルのパフォーマンスが、上流のデータセットで教師あり微調整を実行してから下流のタスクに移行することによってさらに向上できることも示しています。

コミュニティへの影響

今年 4 月に VideoMAE モデルとコードをオープンソース化し、コミュニティから継続的な注目と評価を得ました。

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

Paper with Code リストによると、VideoMAE は Something-Something V2[1] と AVA 2.2[2] でトップの座を占めています。半年（2022年3月末から現在まで）外部データを一切利用しない場合、Kinetics-400[3]、UCF101[4]、および HMDB51[5] データセットに対する VideoMAE の結果も、これまでのところ最高です。

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

https://huggingface.co/docs/transformers/main/en/model_doc/videomae

#数か月前、VideoMAE のモデルが Hugging Face の Transformers 公式リポジトリに追加されました。これは、リポジトリに含まれる最初のビデオ理解モデルでした。それはある程度、私たちの仕事に対するコミュニティの認識も反映しています。私たちの研究が、Transformer ベースのビデオ事前トレーニングのためのシンプルで効率的なベースライン手法を提供し、その後の Transformer ベースのビデオ理解手法にインスピレーションを与えることを願っています。

https://github.com/open-mmlab/mmaction2/tree/dev-1.x/configs/recognition/videomae

現在のビデオ理解ウェアハウス MMAction2 は、VideoMAE モデルの推論もサポートしています。

VideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイム

終了したばかりの ECCV 2022 の第 2 回国際 Ego4D ワークショップでは、VideoMAE はすぐに誰もがゲームをプレイするのに役立つツールになりました。上海人工知能研究所は、この Ego4D チャレンジの複数のサブトラックで優勝しました。その中でも、VideoMAE は重要なバックボーンとして機能し、ソリューションに強力なビデオ機能を提供します。上の最初の図から、Kinetics-400 でのみ事前トレーニングされた VideoMAE (ViT-L) の効果が、IG-65M ビデオデータセット (およそ Kinetics-400) の効果をすでに超えていることがわかることは注目に値します。事前トレーニングされた ir-CSN-152 でサンプルデータを 300 回)。これは、VideoMAE 事前トレーニング済みモデルの強力な表現能力もさらに検証します。

概要

私たちの仕事の主な貢献には、次の 3 つの側面が含まれます。

• 私たちは最初に提案しました。 VideoMAE、ViT マスキングと再構築に基づくビデオ自己監視型事前トレーニングフレームワーク。小規模なビデオデータセットに対する自己教師ありの事前トレーニングでも、VideoMAE は依然として優れたパフォーマンスを達成できます。時間的冗長性と時間的相関によって引き起こされる「情報漏洩」問題を解決するために、我々は非常に高いマスキング率を持つチューブマスキングを提案します。実験によれば、この設計が VideoMAE の SOTA 効果を実現する究極の能力の鍵となります。同時に、VideoMAE の非対称エンコーダ/デコーダアーキテクチャにより、事前トレーニングプロセスの計算消費量が大幅に削減され、事前トレーニングプロセスの時間が大幅に節約されます。

• VideoMAE は、自然かつ価値のある方法で、NLP と画像分野の経験をビデオ理解の分野に拡張することに成功し、マスキングと再構成に基づく単純なプロキシタスクがビデオの自己教師付き事前トレーニングを提供できることを検証しました。 . シンプルですが非常に効果的な解決策です。 VideoMAE を使用した自己教師あり事前トレーニング後の ViT モデルのパフォーマンスは、ビデオ理解の分野の下流タスク (アクション認識、アクション検出など) でスクラッチからトレーニングしたり、対照的な学習方法を使用したりするよりも大幅に優れています。

• この実験では、NLP と画像理解に関するこれまでの研究では見落とされていた可能性のある 2 つの興味深い発見がありました。 (1) VideoMAE はデータ効率の高い学習器です。約 3,000 個のビデオしか含まれていないビデオデータセット HMDB51 上でも、VideoMAE は自己教師ありの事前トレーニングを完了することができ、下流の分類タスクで他の方法をはるかに上回る結果を達成できます。 (2) ビデオの自己教師あり事前トレーニングの場合、事前トレーニングデータセットと下流のタスクデータセットの間に明らかなドメインギャップがある場合、ビデオデータの量よりも品質が重要になる可能性があります。

以上がVideoMAE: シンプルで効率的なビデオ自己教師付き事前トレーニングの新しいパラダイムの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。