2022 年に ML 研究がサークルから外される: 人気の安定した拡散、ゼネラリストエージェントの Gato、LeCun のリツイート-AI-php.cn

2022年も終わりに近づいてきました。この年、機械学習の分野で多数の貴重な論文が発表され、機械学習コミュニティに大きな影響を与えました。

本日、ML および NLP 研究者、メタ AI テクノロジー製品マーケティングマネージャー、DAIR.AI 創設者の Elvis S. が、2022 年に注目を集めた 12 件の機械学習論文をまとめました。この投稿は急速に広まり、チューリング賞受賞者のヤン・ルカン氏によってリツイートされた。

2022 年に ML 研究がサークルから外される: 人気の安定した拡散、ゼネラリストエージェントの Gato、LeCun のリツイート

#次に、1 つずつ見ていきましょう。

論文 1: 2020 年代の ConvNet

視覚認識の急速な発展は ViT の導入から始まり、ViT は従来の認識をすぐに置き換えました。 ConvNet 、SOTA 画像分類モデルになります。 ViT モデルには、ターゲット検出、セマンティックセグメンテーションなどの一連のコンピュータービジョンタスクにおいて多くの課題があります。したがって、一部の研究者は階層型 Swin Transformer を提案し、以前に ConvNet を再導入し、Transformer を一般的なビジュアルバックボーンとして実際に実現可能にし、さまざまなビジュアルタスクで優れたパフォーマンスを示しました。

ただし、このハイブリッドアプローチの有効性は、依然として、畳み込みに固有の誘導バイアスではなく、Transformer 固有の利点によるところが大きいです。この記事では、FAIR と UC Berkeley の研究者が設計空間を再調査し、純粋な ConvNet が達成できる限界をテストしました。研究者たちは、標準の ResNet を視覚的な Transformer 設計に徐々に「アップグレード」し、その過程で、パフォーマンスの違いを引き起こすいくつかの重要なコンポーネントを発見しました。

2022 年に ML 研究がサークルから外される: 人気の安定した拡散、ゼネラリストエージェントの Gato、LeCun のリツイート

論文アドレス: https://arxiv.org/abs/2201.03545v2

論文 2: ゼロショットプランナーとしての言語モデル: 身体化されたエージェントのための実用的な知識の抽出

大規模言語モデル (LLM) を通じて学んだ世界の知識インタラクティブ環境でのアクションに使用されますか?この論文では、カリフォルニア大学バークレー校、CMU、および Google の研究者が、選択された実行可能なステップのセットとして自然言語を表現する可能性を調査しています。これまでの研究では、明示的に配布された例から行動方法を学習することに焦点を当てていましたが、驚くべきことに、事前トレーニングされた言語モデルが十分に大きく、適切なヒントが与えられていれば、さらなるトレーニングを行わなくても、高レベルのタスクを効果的に中レベルの計画に分解できることがわかりました。ただし、LLM によって作成された計画は、許容可能なアクションに正確に対応していないことがよくあります。

研究者によって提案された手順は、既存の実証を条件とし、計画を許容可能なアクションに意味論的に変換します。 VirtualHome 環境での評価では、提案されたアプローチにより LLM ベースラインの実行可能性が大幅に向上することが示されています。人間による評価では、強制力と正確性の間のトレードオフが明らかになりますが、言語モデルから実用的な知識を抽出できる可能性の兆しが示されています。

2022 年に ML 研究がサークルから外される: 人気の安定した拡散、ゼネラリストエージェントの Gato、LeCun のリツイート文書アドレス: https://arxiv.org/abs/2201.07207v2

#論文 3: OFA: シンプルなシーケンスツーシーケンス学習フレームワークによるアーキテクチャ、タスク、およびモダリティの統合

これは Alibaba Damo Academy です。統合されたマルチモーダルマルチタスクモデルフレームワーク OFA は、この段階で一般モデルが最もよく満たす 3 つの特性、すなわちモダリティの独立性、タスクの独立性、およびタスクの多様性を要約しています。この論文は ICML 2022 に採択されました。

グラフィックスとテキストの分野では、OFA は、統一された seq2seq フレームワークと共有を通じて、ビジュアルグラウンディング、VQA、画像キャプション、画像分類、text2image 生成、言語モデリングなどの古典的なタスクを表します。追加のパラメータ構造を追加することなく、タスク間で異なるモードの入力と出力を行い、Finetune と事前トレーニングの一貫性を実現します。

論文アドレス: https://arxiv.org/abs/2202.03052v2

#論文 4: Tensor プログラム V: 大規模なチューニングゼロショットハイパーパラメータ転送によるニューラルネットワーク

ディープラーニングにおけるハイパーパラメータ (HP) チューニングは、数十億のパラメータを持つニューラルネットワークにとってコストのかかるプロセスです。これは特にインターネットに当てはまります。。この論文では、Microsoft と OpenAI の研究者が、最近発見された Maximal Update Parametrization (muP) では、モデルサイズが変化しても多くの最適な HP が安定していることを示しています。

これにより、muTransfer と呼ばれる新しい HP チューニングパラダイムが生まれ、muP でターゲットモデルをパラメータ化し、小規模なモデルに対して HP チューニングを直接実行しません。これは、後者のモデルを直接調整する必要がまったくないことも意味します。研究者は、Transformer と ResNet で muTransfer を検証しました。たとえば、4,000 万のパラメーターモデルから移行すると、事前トレーニングの合計コストのわずか 7% の調整コストで、公開されている 6.7B GPT-3 モデルよりもパフォーマンスが向上します。

2022 年に ML 研究がサークルから外される: 人気の安定した拡散、ゼネラリストエージェントの Gato、LeCun のリツイート

文書アドレス: https://arxiv.org/abs/2203.03466v2

#論文 5: OPT: オープンな事前トレーニング済み Transformer 言語モデル

大規模なモデルは、多くの場合、数千日の計算期間にわたってトレーニングされます。サンプルと数ショット学習。しかし、計算コストを考慮すると、適切な資金がなければ、これらの大規模なモデルを複製するのは困難です。 API を通じて利用できるいくつかのモデルでは、完全なモデルの重みにアクセスできないため、研究が困難になります。

この記事では、メタ AI 研究者が Open Pre-trained Transformers (OPT) を提案しました。これは、125M から 175B の範囲のパラメーターを持つ、デコーダー専用の事前トレーニング済みトランスフォーマーモデルのセットです。不定。彼らは、OPT-175B が GPT-3 と同等の性能を発揮しながら、開発に必要な二酸化炭素排出量はわずか 1/7 であることを示しました。

2022 年に ML 研究がサークルから外される: 人気の安定した拡散、ゼネラリストエージェントの Gato、LeCun のリツイート文書アドレス: https://arxiv.org/abs/2205.01068v4

#論文 6: ジェネラリストエージェント

#大規模言語モデリングに触発されて、Deepmind は単一の「ジェネラリスト」エージェント Gato を構築しました。モーダル、マルチタスク、およびマルチ実施形態の特性。

Gato は、Atari ゲームをプレイしたり、写真の字幕を出力したり、他のユーザーとチャットしたり、ロボットアームでブロックを積み上げたりすることができます。さらに、Gato はコンテキストに基づいて、テキスト、関節トルク、ボタンの押下、またはその他のトークンを出力するかどうかを決定できます。

ゲームをプレイするほとんどのエージェントとは異なり、Gato はゲームごとに個別にトレーニングするのではなく、同じトレーニングモデルを使用して多くのゲームをプレイできます。

2022 年に ML 研究がサークルから外される: 人気の安定した拡散、ゼネラリストエージェントの Gato、LeCun のリツイート

文書アドレス: https://arxiv.org/abs/2205.06175v3

2022 年に ML 研究がサークルから外される: 人気の安定した拡散、ゼネラリストエージェントの Gato、LeCun のリツイート

#論文 7: 言語モデルを使用した定量的推論の問題の解決

Google の研究者は、Minerva と呼ばれる深層学習言語モデルを提案しました。定量的な数学的問題は、次の方法で解決できます。段階的な推論。そのソリューションには、電卓などの外部ツールに依存しない数値計算や記号操作が含まれます。

さらに、Minerva は、小さなサンプルプロンプト、思考連鎖、スクラッチパッドプロンプト、多数決の原則などのさまざまなテクニックを組み合わせて、STEM 推論タスクで SOTA パフォーマンスを実現します。

Minerva は、PaLM (Pathways Language Model) に基づいて構築されており、118GB データセットでさらにトレーニングされています。データセットは、arXiv の科学および技術論文から取得されており、次の使用が含まれています。 LaTeX と MathJax、またはさらなるトレーニングのための Web ページデータの他の数学的表現。
下の図は、ミネルヴァが問題を解決する方法の例を示しています:
紙アドレス: https://arxiv.org/abs/2206.14858
#論文 8: 言語を取り残さない: 人間中心の機械翻訳のスケーリング
Meta AI の研究者は、翻訳モデル NLLB (No Language Left Behind) をリリースしました。これは、直訳すると「言語を置き去りにすることはできません」という意味で、中国語を除く 200 言語間のあらゆる翻訳をサポートできます。、英語、フランス語、日本語一般的に使用される言語への翻訳に加え、NLLB はルガンダ、ウルドゥー語などの多くのニッチな言語への翻訳も可能です。
Meta は、これが単一のモデルを使用して複数の言語に翻訳される世界初のデザインであると主張しており、これを利用して、より多くの人々がソーシャルプラットフォーム上で言語を越えて交流できるようにしたいと考えています。同時に、将来のメタバースにおけるユーザーのインタラクティブエクスペリエンスも向上します。
論文アドレス: https://arxiv.org/abs/2207.04672v3
論文 9: 潜在拡散モデルによる高解像度画像合成
安定拡散は、この技術に焦点を当てて、最近普及しています。数え切れないほどの研究。
この研究は、ミュンヘン大学の研究者とランウェイの CVPR 2022 論文「潜在拡散モデルによる高解像度画像合成」に基づいており、Eleuther AI や LAION などのチームと協力しています。仕上げる。 Stable Diffusion は、10 GB VRAM を備えたコンシューマグレードの GPU で実行でき、前処理や後処理を行わずに 512x512 ピクセルの画像を数秒で生成できます。
わずか 4 か月で、このオープンソースプロジェクトは 38,000 個のスターを獲得しました。
# プロジェクトアドレス: https://github.com/CompVis/stable-diffusion
安定拡散生成画像の表示例:
##論文 10: 大規模な弱い監視による堅牢な音声認識
OpenAIは、英語音声認識において人間レベルに近く、精度が高いオープンソースモデルWhisperをリリースしました。
Whisper は自動音声認識 (ASR、Automatic Speech Recognition) システムで、OpenAI は 98 言語、680,000 時間分のマルチタスク監視データをインターネットから収集しました。音声認識に加えて、Whisper は複数の言語を文字に起こし、それらの言語を英語に翻訳することもできます。
論文アドレス: https://arxiv.org/abs/2212.04356
#論文 11: ビデオの作成: テキストテキストビデオデータを使用しないビデオへの生成
Meta AI の研究者は、最先端のテキストからビデオへのモデルである Make-A-Video を提案しました。 , 指定されたテキストプロンプトからビデオを生成できます。
Make-A-Video には 3 つの利点があります: (1) T2V (Text-to-Video) モデルのトレーニングを加速し、視覚的表現やマルチモーダル表現を学習する必要がありません。スクラッチ、(2) ペアになったテキストとビデオのデータは必要ありません、(3) 生成されたビデオは、今日の画像生成モデルのいくつかの利点を継承します。
このテクノロジーは、テキストからビデオへの生成を可能にし、わずか数語または数行のテキストを使用してユニークなビデオを作成できるように設計されています。下の写真は、スーパーヒーローの服と赤いマントを着て空を飛んでいる犬を示しています:
紙のアドレス: https:// arxiv.org/abs/2209.14792
論文 12: ギャラクティカ: 科学のための大規模言語モデル
近年、さまざまな主題分野の研究の進歩に伴い、科学文献やデータが爆発的に増加しており、学術研究者が大量の情報から有用な洞察を発見することがますます困難になっています。通常、人は科学知識を得るために検索エンジンを利用しますが、検索エンジンは科学知識を自律的に整理することができません。
最近、Meta AI の研究チームは、科学的知識を保存、結合、推論できる新しい大規模言語モデルである Gaoptica を提案しました。ギャラクティカはレビュー論文を要約し、エントリの百科事典クエリを生成し、質問に対して知識豊富な回答を提供できます。
論文アドレス: https://arxiv.org/abs/2211.09085

以上が2022 年に ML 研究がサークルから外される: 人気の安定した拡散、ゼネラリストエージェントの Gato、LeCun のリツイートの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。