ホームページ > テクノロジー周辺機器 > AI > LeCun 傘下のメタ AI は自己監視に賭ける

LeCun 傘下のメタ AI は自己監視に賭ける

WBOY
リリース: 2023-04-09 09:01:03
転載
1316 人が閲覧しました

自己教師あり学習は本当に AGI への重要なステップですか?

Meta のチーフ AI サイエンティスト、ヤン ルカン氏は、「現時点で取るべき具体的な対策」について語る際、長期的な目標を忘れませんでした。彼はインタビューで次のように述べています:「私たちは動物や人間のように学習するインテリジェントなマシンを構築したいです。」

近年、メタは AI システムの自己教師あり学習 (SSL) に関する一連の論文を発表しています。 LeCun 氏は、SSL は AI システムにとって必要な前提条件であると強く信じています。SSL は、AI システムが合理性、常識、スキルや知識をある環境から別の環境に伝達する能力などの人間のような能力を獲得するための世界モデルを構築するのに役立ちます。

彼らの新しい論文は、マスクされたオートエンコーダ (MAE) と呼ばれる自己教師型システムが、非常に断片化された不完全なデータから画像、ビデオ、さらにはオーディオを再構築する方法を学習する方法を示しています。 MAE は新しいアイデアではありませんが、Meta はこの取り組みを新しい分野に拡張しました。 LeCun氏は、MAEシステムは、静止画像であろうと、ビデオやオーディオシーケンスであろうと、欠落データを予測する方法を研究することで世界のモデルを構築していると述べた。同氏は、「ビデオの中で何が起ころうとしているかを予測できるのであれば、世界は三次元であり、一部の物体は無生物で自ら動かず、他の物体は生きていて予測が難しいことを理解する必要がある」と述べた。 、予測まで 生物の複雑な行動。」 AI システムが世界の正確なモデルを取得すると、このモデルを使用して行動を計画できます。

LeCun 氏は、「知能の本質は予測を学ぶことです。」と述べ、Meta の MAE システムが一般的な人工知能に近いとは主張しませんでしたが、これは一般的な人工知能に向けた重要な一歩であると信じています。

しかし、メタ研究者が一般的な人工知能に向けて正しい道を進んでいるということに誰もが同意しているわけではありません。 Yoshua Bengio は、AI における大きなアイデアについて LeCun と友好的に議論することがあります。 Bengio 氏は IEEE Spectrum への電子メールで、目標における相違点と類似点のいくつかを説明しました。

Bengio 氏は次のように書いています:「私たちの現在の方法 (自己教師によるものであるかどうかにかかわらず) が人工知能と人間の知能レベルのギャップを埋めるのに十分であるとは本当に思いません。」彼は、この分野は次のようにする必要があると述べました。 「質的進歩」により、テクノロジーを真に人間スケールの人工知能に近づけることができます。

Bengio 氏は、「世界について推論する能力が知性の中核要素である」という LeCun 氏の見解に同意しました。しかし、彼のチームは、予測できるモデルには焦点を当てず、知識を形式で提示できるモデルに焦点を当てました。自然言語の。同氏は、そのようなモデルにより、これらの知識を組み合わせて新しい問題を解決したり、反事実的なシミュレーションを行ったり、起こり得る未来を研究したりできるだろうと指摘した。 Bengio 氏のチームは、エンドツーエンド学習に取り組む LeCun 氏が好むフレームワークよりもモジュール化された新しいニューラル ネットワーク フレームワークを開発しました。

The Hot Transformer

Meta の MAE は、Transformer と呼ばれるニューラル ネットワーク アーキテクチャに基づいています。このアーキテクチャは、当初は自然言語処理の分野で普及し、その後コンピューター ビジョンなどの多くの分野に拡張されました。

もちろん、ビジュアル タスクに Transformer の使用に成功した最初のチームは Meta ではありません。 Meta AI の研究者である Ross Girshick 氏は、Google の Visual Transformer (ViT) に関する研究が Meta チームにインスピレーションを与えたと述べ、「ViT アーキテクチャの採用により、実験中に遭遇したいくつかの障害を取り除くことができました。」と述べました。

Girshick は Meta の最初の MAE システム論文の著者の 1 人です。この論文の著者の 1 人は He Kaiming です。彼らは、入力画像のランダム ブロックをマスクし、失われたブロックを再構築するという非常に単純な方法について議論しています。ピクセル。

LeCun 傘下のメタ AI は自己監視に賭けるこのモデルのトレーニングは、BERT やその他の Transformer ベースの言語モデルと似ています。研究者は巨大なテキスト データベースを見せますが、いくつかの単語が欠落しています。 、「カバー」されていました。モデルは、欠落している単語を独自に予測する必要があります。その後、マスクされた単語が明らかになり、モデルがその動作を確認してパラメーターを更新できるようになります。このプロセスは繰り返され続けます。同様のことを視覚的に行うために、チームは画像をパッチに分割し、次にパッチの一部をマスクして、MAE システムに画像の欠落部分を予測するよう依頼したとガーシック氏は説明しました。

チームの画期的な進歩の 1 つは、画像の大部分をマスクすることで最良の結果が得られるという認識でした。これは、単語の 15% しかマスクしない可能性がある言語変換プログラムとの大きな違いです。 「言語は非常に高密度で効率的なコミュニケーション システムであり、すべてのシンボルには多くの意味が含まれています。しかし、イメージ、つまり自然界からの信号は、冗長性を排除するために作られたものではありません。したがって、これにより、 JPG 画像を作成するときは、コンテンツを十分に圧縮してください。」

LeCun 傘下のメタ AI は自己監視に賭ける

Meta AI の研究者は、最良の結果を得るために画像のどの部分をマスクする必要があるかを実験しました。

#Girshick 氏は、画像内のパッチの 75% 以上をマスクすることで、画像内の冗長性を排除したと説明しました。そうしないと、タスクがトレーニングするにはあまりにも簡単になりすぎてしまいます。同社の 2 部構成の MAE システムは、まずエンコーダを使用してトレーニング データセットからピクセル間の関係を学習し、次にデコーダがマスクされた画像から元の画像を再構築するために最善を尽くします。このトレーニング スキームが完了すると、分類や物体検出などの視覚タスクに合わせてエンコーダーを微調整することもできます。

Girshick 氏は、「私たちにとって最終的にエキサイティングなのは、このモデルの結果が下流のタスクで確認できることです。エンコーダーを使用して物体認識などのタスクを完了すると、「非常に大きなメリットが得られます。 SSL には「手動による注釈なしで大量のデータを使用できる可能性がある」ため、モデルを増やし続けることでパフォーマンスの向上につながる可能性があり、これが将来のモデルの潜在的な方向性であると同氏は指摘しました。

大量のフィルタリングされていないデータセットから全力で学習することが、SSL の結果を改善するための Meta の戦略である可能性がありますが、これはますます物議を醸すアプローチでもあります。 Timnit Gebru のような AI 倫理研究者は、大規模な言語モデルが学習する際に、場合によっては悲惨な結果を招く可能性がある、キュレートされていないデータセットに内在するバイアスに注意を呼び掛けています。

ビデオとオーディオの自己教師あり学習

ビデオ MAE システムでは、フレーム間の類似性によりビデオ信号が静的信号よりも優れていることを意味するため、マスカーは各ビデオ フレームの 95% を覆い隠します。画像の冗長性が高くなります。メタ研究者の Christoph Feichtenhofer 氏は、ビデオに関して言えば、MAE アプローチの大きな利点は、ビデオは多くの場合計算量が多いことであり、MAE は各フレームのコンテンツの最大 95% をマスクすることで計算コストを最大 95% 削減できることであると述べました。 。これらの実験で使用されたビデオクリップの長さはわずか数秒だったが、ファイヒテンホーファー氏は、より長いビデオで人工知能システムをトレーニングすることは非常に活発な研究テーマであると述べた。あなたの家のビデオを見て、1 時間前に鍵をどこに置いたかを教えてくれる仮想アシスタントがいると想像してください。

より直接的には、画像システムとビデオ システムはどちらも、Facebook や Instagram でのコンテンツ管理に必要な分類タスクに役立つと想像できます。フェイヒテンホーファー氏は、「整合性」が考えられる応用の 1 つであると述べました。

オーディオ MAE の研究については、Meta AI のチームは、近いうちに arXiv で研究結果を公開すると述べました。彼らはマスキング技術を適用する賢い方法を発見しました。彼らはサウンド ファイルをスペクトログラム (信号内の周波数スペクトルを視覚的に表現したもの) に変換し、トレーニング用に画像の一部をマスクしました。再構築されたオーディオは印象的ですが、このモデルは現時点では数秒のクリップしか処理できません。オーディオ システムの研究者であるバーニー フアン氏は、この研究の潜在的な応用例には、分類タスク、パケットがドロップされたときに失われた音声を埋めることによるボイス オーバー IP (VoIP) 送信の支援、または音声ファイルを圧縮するより効率的な方法の発見などが含まれると述べました。

Meta は、これらの MAE モデルなどのオープンソース AI 研究を実施しており、事前トレーニングされた大規模な言語モデルも人工知能コミュニティに提供しています。しかし批評家らは、メタ社がこれほど研究にオープンであるにもかかわらず、ニュースフィード、推奨事項、広告掲載を制御するコアビジネスアルゴリズムを研究対象として公開していないことを指摘している。

以上がLeCun 傘下のメタ AI は自己監視に賭けるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート