NTU と上海 AI ラボが 300 以上の論文を編集: Transformer に基づくビジュアルセグメンテーションの最新レビューがリリース-AI-php.cn

SAM (Segment Anything) は、基本的な視覚セグメンテーションモデルとして、わずか 3 か月で多くの研究者の注目を集め、フォローアップされました。 SAM の背後にあるテクノロジーを体系的に理解し、進化のペースに追いつき、独自の SAM モデルを作成できるようにしたい場合は、このトランスフォーマーベースのセグメンテーション調査をお見逃しなく。最近、南洋理工大学と上海人工知能研究所の数人の研究者が Transformer ベースのセグメンテーションに関するレビューを書き、近年の Transformer に基づくセグメンテーションおよび検出モデルを体系的にレビューし、研究を行っています。今年の6月から！同時に、このレビューには関連分野の最新の論文や多数の実験分析と比較も含まれており、幅広い展望を持つ将来の研究の方向性を多数明らかにしています。

ビジュアルセグメンテーションは、画像、ビデオフレーム、または点群を複数のセグメントまたはグループにセグメント化することを目的としています。このテクノロジーは、自動運転、画像編集、ロボットの認識、医療分析など、多くの実世界で応用されています。過去 10 年間で、深層学習ベースの手法がこの分野で大きな進歩を遂げました。最近、Transformer は、もともと自然言語処理用に設計されたセルフアテンションメカニズムに基づくニューラルネットワークとなり、さまざまな視覚処理タスクにおける以前の畳み込みまたは再帰的手法を大幅に上回りました。具体的には、Vision Transformer は、さまざまなセグメンテーションタスクに対して、強力で統合されたさらにシンプルなソリューションを提供します。このレビューでは、Transformer ベースのビジュアルセグメンテーションの包括的な概要を提供し、最近の進歩を要約します。まず、この記事 では、問題定義、データセット、以前の畳み込み手法などの背景 を確認します。次に、このペーパーでは、最近の Transformer ベースのメソッドをすべて統合する メタアーキテクチャ について概要を説明します。このメタアーキテクチャに基づいて、 この記事では、このメタアーキテクチャと関連アプリケーションの修正を含む、さまざまな方法の設計を検討します。 さらに、この記事では、3D 点群セグメンテーション、基本的なモデル調整、ドメイン適応セグメンテーション、効率的なセグメンテーション、医療セグメンテーションなど、いくつかの関連設定も紹介します。さらに、この論文では、いくつかの広く認識されているデータセットに基づいてこれらの手法を編集し、再評価します。最後に、この論文はこの分野における未解決の課題を特定し、将来の研究の方向性を提案しています。この記事では、Transformer ベースの最新のセグメンテーションおよび検出方法を継続して追跡します。

NTU、上海AI Lab整理300+论文：基于Transformer的视觉分割最新综述出炉写真

プロジェクトアドレス: https://github.com/lxtGH/Awesome-Segmentation-With-Transformer

論文アドレス: https://arxiv.org/pdf/2304.09854.pdf

研究動機

ViT と DETR の出現により、セグメンテーションと検出の分野は完全に進歩し、現在、ほぼすべてのデータセットベンチマークで上位にランクされる手法は、Transformer に基づいています。このため、この方向の手法や技術的特徴を体系的にまとめ、比較する必要がある。
マルチモーダルモデルやセグメンテーション基本モデル (SAM) など、最近の大規模モデルアーキテクチャはすべて Transformer 構造に基づいており、さまざまな視覚タスクが統合モデルモデリングに近づいています。
セグメンテーションと検出により、多くの関連する下流タスクが派生し、これらのタスクの多くも Transformer 構造を使用して解決されます。

概要機能

体系的で読みやすい。 この記事では、セグメンテーションの各タスク定義、および関連するタスク定義と評価指標を体系的にレビューします。そして、この記事ではコンボリューション手法から始まり、ViTとDETRに基づくメタアーキテクチャをまとめます。このレビューでは、このメタアーキテクチャに基づいて、関連する手法を整理してまとめ、最近の手法を体系的にレビューします。具体的な技術検討ルートを図1に示します。
技術的な観点からの詳細な分類。 以前の Transformer レビューと比較して、この記事のメソッドの分類はより詳細になります。この記事では、同様のアイデアを持つ論文をまとめ、その類似点と相違点を比較します。たとえば、この記事では、メタアーキテクチャのデコーダ側を同時に変更する手法を、画像ベースのクロスアテンションとビデオベースの時空間クロスアテンションモデリングに分類します。
研究課題の包括性。 この記事では、画像、ビデオ、点群のセグメンテーションタスクなど、セグメンテーションのあらゆる方向を体系的にレビューします。同時に、この記事では、オープンセットのセグメンテーションと検出モデル、教師なしセグメンテーション、弱教師セグメンテーションなどの関連する方向性についてもレビューします。

NTU、上海AI Lab整理300+论文：基于Transformer的视觉分割最新综述出炉図

図 1. 調査内容のロードマップ

NTU、上海AI Lab整理300+论文：基于Transformer的视觉分割最新综述出炉

図 2. 一般的に使用されるデータセットとセグメンテーションタスクの概要

トランスフォーマーベースのセグメンテーションと検出の概要方法と比較

NTU、上海AI Lab整理300+论文：基于Transformer的视觉分割最新综述出炉

図 3. 一般的なメタアーキテクチャフレームワーク

## この記事では、まず概要を説明します。 DETR および MaskFormer フレームワークに基づくメタアーキテクチャ。このモデルには、次のさまざまなモジュールが含まれています。

バックボーン: 特徴抽出器。画像の特徴を抽出するために使用されます。
ネック: マルチスケールオブジェクトを処理するためにマルチスケールフィーチャを構築します。
オブジェクトクエリ: クエリオブジェクト。前景オブジェクトや背景オブジェクトなど、シーン内の各エンティティを表すために使用されます。
デコーダ: デコーダ。オブジェクトクエリと対応する機能を段階的に最適化するために使用されます。
エンドツーエンドのトレーニング: オブジェクトクエリに基づく設計は、エンドツーエンドの最適化を実現できます。

このメタアーキテクチャに基づいて、既存の手法は、図 4 に示すように、タスクに応じて最適化と調整を行う次の 5 つの異なる方向に分類できます。各方向には、いくつかの異なるサブ方向。

NTU、上海AI Lab整理300+论文：基于Transformer的视觉分割最新综述出炉

図 4. トランスフォーマーベースのセグメンテーション手法の概要と比較

より優れた特徴表現学習、表現学習。 強力な視覚的特徴表現は、常により良いセグメンテーション結果につながります。この記事では、関連する作業を、より優れた視覚的な Transformer 設計、ハイブリッド CNN/Transformer/MLP、および自己教師あり学習の 3 つの側面に分けて説明します。
デコーダ側のメソッド設計、デコーダでのインタラクション設計。 この章では、新しい Transformer デコーダの設計について説明します。この論文では、デコーダ設計を 2 つのグループに分けます。1 つは画像セグメンテーションにおけるクロスアテンション設計の改善に使用され、もう 1 つはビデオセグメンテーションにおける時空間クロスアテンション設計の改善に使用されます。前者は、元の DETR のデコーダを改善するために、より優れたデコーダを設計することに重点を置いています。後者は、クエリオブジェクトベースのオブジェクト検出器とセグメンタを、ビデオオブジェクト検出 (VOD)、ビデオインスタンスセグメンテーション (VIS)、およびビデオピクセルセグメンテーション (VPS) のビデオドメインに拡張し、時間的一貫性と相関関係のモデリングに焦点を当てます。
#クエリオブジェクトの最適化の観点からオブジェクトクエリの最適化を試みます。 Faster-RCNN と比較して、DETR はより長いコンバージェンスタイムテーブルを必要とします。クエリオブジェクトは重要な役割を果たしているため、トレーニングを高速化し、パフォーマンスを向上させるために、いくつかの既存の方法が研究されています。オブジェクトクエリの方法に従って、この論文は以下の文献を2つの側面に分けます:位置情報の追加と追加の監視の使用。位置情報は、クエリ特徴の高速トレーニングサンプリングのための手がかりを提供します。追加の監視では、DETR のデフォルトの損失関数に加えて、特定の損失関数の設計に焦点を当てます。
クエリオブジェクトを使用して、関連付けのクエリを使用してフィーチャとインスタンスを関連付けます。 クエリオブジェクトのシンプルさの利点を活かし、最近の複数の研究では、クエリオブジェクトを下流タスクを解決するための相関ツールとして使用しています。主な使用法は 2 つあります。1 つはインスタンスレベルの関連付け、もう 1 つはタスクレベルの関連付けです。前者は、インスタンス識別のアイデアを使用して、ビデオのセグメンテーションや追跡など、ビデオ内のインスタンスレベルのマッチング問題を解決します。後者は、クエリオブジェクトを使用してさまざまなサブタスクを橋渡しし、効率的なマルチタスク学習を実現します。
マルチモーダル条件付きクエリオブジェクトの生成、条件付きクエリの生成。 この章では主にマルチモーダルセグメンテーションタスクに焦点を当てます。条件付きクエリクエリオブジェクトは主に、クロスモーダルおよびクロス画像特徴マッチングタスクを処理するために使用されます。タスクの入力条件に応じて、デコーダヘッドは異なるクエリを使用して、対応するセグメンテーションマスクを取得します。本稿では、さまざまな入力源に応じて、これらの作品を言語の特徴と画像の特徴という 2 つの側面に分けます。これらの方法は、クエリオブジェクトとさまざまなモデル機能を融合する戦略に基づいており、複数のマルチモーダルセグメンテーションタスクおよび少数ショットセグメンテーションで良好な結果を達成しています。

# 図 5 は、これら 5 つの異なる方向における代表的な作業の比較を示しています。より具体的な手法の詳細と比較については、論文の内容を参照してください。

#図 NTU、上海AI Lab整理300+论文：基于Transformer的视觉分割最新综述出炉

図 5. Transformer ベースのセグメンテーションと代表性検出方法の概要と比較

#関連研究分野の手法の概要と比較

##この記事では、いくつかの関連分野についても説明します。 1. Transformer に基づく点群セグメンテーション手法。 2. ビジョンとマルチモーダル大規模モデルのチューニング。 3. ドメイン転移学習やドメイン汎化学習など、ドメイン関連のセグメンテーションモデルの研究。 4. 効率的なセマンティックセグメンテーション: 教師なしセグメンテーションモデルと弱く教師ありセグメンテーションモデル。 5. クラスに依存しないセグメンテーションと追跡。 6. 医療画像のセグメンテーション。

#写真

NTU、上海AI Lab整理300+论文：基于Transformer的视觉分割最新综述出炉図 6. 関連研究分野における Transformer ベースの手法の概要と比較

さまざまな方法の実験結果の比較

図 7. セマンティックセグメンテーションデータセットのベンチマーク実験

NTU、上海AI Lab整理300+论文：基于Transformer的视觉分割最新综述出炉

図 8. パノラマセグメンテーションデータセットのベンチマーク実験 NTU、上海AI Lab整理300+论文：基于Transformer的视觉分割最新综述出炉

この記事では、同じ実験計画条件を一律に使用して、複数のデータセットに対するパノラマセグメンテーションとセマンティックセグメンテーションに関するいくつかの代表的な研究の結果を比較します。同じトレーニング戦略とエンコーダーを使用すると、メソッドのパフォーマンスの差が縮まることがわかりました。

さらに、この記事では、複数の異なるデータセットおよびタスクに対する最近の Transformer ベースのセグメンテーション手法の結果も比較します。 (セマンティックセグメンテーション、インスタンスセグメンテーション、パノラマセグメンテーション、および対応するビデオセグメンテーションタスク)

将来の方向

さらに、この記事では次のようなことも示しています。将来の研究の方向性についての分析。ここでは例として 3 つの異なる方向を示します。

更新一般的な統合セグメンテーションモデルを追加します。 Transformer 構造を使用して、さまざまなセグメンテーションタスクを統合するのがトレンドです。最近の研究では、クエリオブジェクトベースの Transformers を使用して、1 つのアーキテクチャの下でさまざまなセグメンテーションタスクを実行しています。考えられる研究の方向性の 1 つは、1 つのモデルを通じてさまざまなセグメンテーションデータセットに対する画像とビデオのセグメンテーションタスクを統合することです。これらの一般的なモデルは、さまざまなシナリオで多用途かつ堅牢なセグメンテーションを実現できます。たとえば、さまざまなシナリオでまれなカテゴリを検出してセグメント化することは、ロボットがより適切な意思決定を行うのに役立ちます。
視覚的推論と組み合わせたセグメンテーションモデル。 視覚的推論では、ロボットがシーン内のオブジェクト間の接続を理解する必要があり、この理解は動作計画において重要な役割を果たします。これまでの研究では、オブジェクト追跡やシーン理解などのさまざまなアプリケーションのための視覚的推論モデルへの入力としてセグメンテーションの結果を使用することが検討されてきました。結合セグメンテーションと視覚的推論は、セグメンテーションと関係分類の両方にとって相互に有益な可能性を秘めた有望な方向性となります。視覚的推論をセグメンテーションプロセスに組み込むことで、研究者は推論の力を活用してセグメンテーションの精度を向上させることができ、また、セグメンテーションの結果により視覚的推論のためのより適切な入力を提供することもできます。
継続学習のセグメンテーションモデルの研究。 既存のセグメンテーション手法は、通常、事前定義されたカテゴリのセットを備えた閉世界データセットでベンチマークされます。つまり、トレーニングサンプルとテストサンプルが、事前にわかっている同じカテゴリと特徴空間を持っていると想定されます。ただし、現実世界のシナリオはオープンワールドで不安定なことが多く、新しいカテゴリのデータが常に出現する可能性があります。たとえば、自動運転車や医療診断では、予期せぬ状況が突然発生する可能性があります。現実世界のシナリオと閉じた世界のシナリオでは、既存の手法のパフォーマンスと機能の間には明らかなギャップがあります。したがって、セグメンテーションモデルの既存の知識ベースに新しい概念を徐々に継続的に組み込んで、モデルが生涯学習に参加できるようにすることが期待されています。

研究の方向性の詳細については、元の論文を参照してください。

以上がNTU と上海 AI ラボが 300 以上の論文を編集: Transformer に基づくビジュアルセグメンテーションの最新レビューがリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。