Yann LeCun: ViT は遅くて非効率です。リアルタイム画像処理は依然として畳み込みに依存しています。-AI-php.cn

Yann LeCun: ViT は遅くて非効率です。リアルタイム画像処理は依然として畳み込みに依存しています。

WBOY

リリース： 2024-06-06 13:25:02

オリジナル

1077 人が閲覧しました

Transformer 統合の時代においても、コンピュータービジョンの CNN の方向性を研究する必要はありますか?

今年の初めに、OpenAI の大規模ビデオモデル Sora により、Vision Transformer (ViT) アーキテクチャが普及しました。それ以来、ViT と従来の畳み込みニューラルネットワーク (CNN) のどちらがより強力であるかについての議論が続いています。

最近、ソーシャルメディアで活動しており、チューリング賞を受賞したMetaの主任科学者ヤン・ルカン氏も、ViTとCNNの間の紛争に関する議論に参加しました。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

この事件の原因は、Comma.aiのCTOであるHarald Schäfer氏が最新の研究を披露していたことにありました。彼は（最近の多くの AI 学者と同様に）Yann LeCun の表現をヒントに、チューリング賞の大物は純粋な ViT は実用的ではないと信じているが、私たちは最近コンプレッサーを純粋な ViT に変更しましたが、すぐに得られるものはなく、トレーニングには時間がかかります。効果はとても良いです。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

たとえば、左側の画像は 224 バイトのみに圧縮されており、右側は元の画像です。

はわずか 14×128 であり、これは自動運転の世界モデルとしては非常に大きく、大量のデータをトレーニングに入力できることを意味します。仮想環境でのトレーニングは、エージェントが適切に機能するためにポリシーに従ってトレーニングする必要がある実際の環境よりも安価です。仮想トレーニングの解像度が高いほど動作は良くなりますが、シミュレーターが非常に遅くなるため、現時点では圧縮が必要です。

彼のデモンストレーションは AI サークルでの議論を引き起こし、1X の人工知能担当副社長である Eric Jang は、その結果は素晴らしいと答えました。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

ハラルド氏は ViT を賞賛し続けました: これはとても美しい建築です。

ここで誰かが攻撃を始めました。ルカンのような達人は時々イノベーションのペースについていけないことがあります。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

しかし、Yann LeCun は即座に反応し、ViT が実用的ではないと言っているわけではなく、今では誰もがそれを使用していると主張しました。彼が言いたいのは、ViT は遅すぎて非効率であるため、高解像度の画像やビデオのタスクのリアルタイム処理には適さないということです。

Yann LeCun も、ニューヨーク大学の助教授である Cue Xie Saining 氏であり、彼の研究は、方法が正しければ CNN が ViT と同じくらい優れていることを ConvNext で証明しました。

彼は続けて、自己注意ループに固執する前に、プーリングとストライドを備えた少なくともいくつかの畳み込み層が必要であると述べています。

セルフアテンションが順列と同等である場合、低レベルの画像やビデオの処理にはまったく意味がなく、フロントエンドで単一のストライドを使用してパッチ化することもできません。さらに、画像やビデオの相関関係は局所的に非常に集中しているため、世界的な注目は無意味であり、拡張性がありません。

より高いレベルでは、フィーチャがオブジェクトを表すと、セルフアテンションループを使用することが理にかなっています。重要なのは、オブジェクトの位置ではなく、オブジェクト間の関係と相互作用です。このハイブリッドアーキテクチャは、メタ研究科学者の Nicolas Carion とその共著者によって完成された DETR システムによって先駆的に開発されました。

DETR の研究が登場して以来、Yann LeCun は、自分のお気に入りのアーキテクチャは低レベルの畳み込み/ストライド/プーリングと高レベルのセルフアテンションループであると述べました。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

Yann LeCun が 2 番目の投稿でそれを要約しました。低レベルではストライドまたはプーリングによる畳み込みを使用し、高レベルではセルフアテンションループを使用し、オブジェクトを表すために特徴ベクトルを使用します。

彼はまた、テスラの完全自動運転 (FSD) が低レベルで畳み込み (またはより複雑なローカル演算子) を使用し、より高いレベルでよりグローバルなループ (おそらくセルフアテンションを使用する) を組み合わせていると確信しています。したがって、低レベルのパッチ埋め込みで Transformer を使用することは完全に無駄です。

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积