Google チームがパノラマセグメンテーションソリューションを最適化する新しい Transformer を発表-AI-php.cn

Google チームがパノラマセグメンテーションソリューションを最適化する新しい Transformer を発表

PHPz

リリース： 2023-04-08 13:41:03

転載

1467 人が閲覧しました

最近、Google AI チームは、Transformer と DETR からインスピレーションを得た、Mask Transformer を使用したパノラマセグメンテーションのためのエンドツーエンドソリューションを提案しました。

正式名称は、マスクトランスフォーマーを使用したパノプティックセグメンテーションのエンドツーエンドソリューションで、主にセグメンテーション MaskTransformer アーキテクチャの拡張機能を生成するために使用されます。

このソリューションでは、ピクセルパス (畳み込みニューラルネットワークまたはビジュアルトランスフォーマーで構成) を使用してピクセル特徴を抽出し、メモリパス (トランスフォーマーデコーダーモジュールで構成) でメモリ特徴を抽出し、デュアルパスを使用します。ピクセルの特徴とメモリ間の相互作用の特性のためのトランスフォーマー。

ただし、クロスアテンションを利用したデュアルパス Transformer は、もともと言語タスク用に設計されており、その入力シーケンスは数百の単語で構成されています。

視覚的なタスク、特にセグメンテーションの問題の場合、入力シーケンスは数万のピクセルで構成されます。これは、入力スケールの大きさがはるかに大きいことを示すだけでなく、言語の単語と比較して表現が低いことを示します。 . 埋め込みのレベル。

パノラマセグメンテーションはコンピュータビジョンの問題であり、現在多くのアプリケーションの中核的なタスクとなっています。

これは、セマンティックセグメンテーションとインスタンスセグメンテーションの 2 つの部分に分かれています。

セマンティックセグメンテーションは、「人」や「空」など、画像内の各ピクセルにセマンティックラベルを割り当てることに似ています。

インスタンスセグメンテーションでは、「歩行者」や「車」など、グラフ内の数えられるオブジェクトのみを識別してセグメント化し、さらにそれらをいくつかのサブタスクに分割します。

各サブタスクは個別に処理され、追加のモジュールが適用されて各サブタスク段階の結果がマージされます。

このプロセスは複雑であるだけでなく、サブタスクを処理し、さまざまなサブタスクの結果を統合するときに、人為的に設計された多くの事前分布も導入します。

Google チームがパノラマセグメンテーションソリューションを最適化する新しい Transformer を発表

CVPR 2022 で公開された「CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation」では、クロスアテンションのクラスタリングの観点からクロスアテンションを再解釈し、再設計することを提案しています。 (つまり、同じセマンティックラベルを持つピクセルを同じグループにグループ化する)、視覚的なタスクによりよく適応します。

CMT-DeepLab は、以前の最先端の手法である MaX-DeepLab を基にして構築されており、クロスアテンションを実行するためにピクセルクラスタリング手法を採用しており、その結果、より高密度で合理的なアテンションマップが得られます。

Google チームがパノラマセグメンテーションソリューションを最適化する新しい Transformer を発表

kMaX-DeepLab は、アクティベーション関数を簡単に変更するだけで、k-means クラスタリングアルゴリズムに近くなるようにクロスアテンションをさらに再設計します。

構造概要

研究者は、変更を加えずに視覚タスクに直接相互注意を適用するのではなく、クラスタリングの観点からそれを再解釈します。

具体的には、Mask Transformer オブジェクトのクエリは (同じセマンティックラベルを持つピクセルをグループ化することを目的とした) クラスターセンターとして考えることができることに注目しています。

クロスアテンションのプロセスは、K 平均法クラスタリングアルゴリズム (1) ピクセルをクラスターの中心に割り当てる反復プロセスに似ています。このプロセスでは、複数のピクセルを 1 つのクラスターの中心に割り当てることができ、一部のクラスター中心にはピクセルが割り当てられていない可能性があり、(2) クラスターの中心は、同じクラスターの中心に割り当てられたピクセルを平均することによって更新されます。ピクセルが割り当てられていない場合、クラスターの中心は更新されません)。

Google チームがパノラマセグメンテーションソリューションを最適化する新しい Transformer を発表

#CMT-DeepLab と kMaX-DeepLab では、クラスタリングの観点からクロスアテンションを再定式化します。これには、反復的なクラスタ割り当てとクラスタリング更新ステップが含まれます

K 平均法クラスタリングアルゴリズムの人気を考慮して、CMT-DeepLab では、空間アスペクトソフトマックス操作 (つまり、画像ソフトマックス操作の空間解像度に沿って適用される) のクロスアテンションを再設計しました。これにより、実際に次のことが割り当てられます。クラスターの中心を反対側に配置すると、ピクセルがクラスターの中心に沿って適用されます。

kMaX-DeepLab では、空間方向のソフトマックスをクラスター方向の argmax にさらに単純化します (つまり、クラスターの中心に沿って argmax 演算を適用します)。

彼らは、argmax 演算が、k-means クラスタリングアルゴリズムで使用されるハード割り当て (つまり、1 つのピクセルが 1 つのクラスターのみに割り当てられる) と同じであることに注目しています。

クラスタリングの観点から MaskTransformer のクロスアテンションを再構築すると、セグメンテーションのパフォーマンスが大幅に向上し、複雑な MaskTransformer パイプラインが簡素化されて解釈しやすくなります。

まず、エンコーダー/デコーダー構造を使用して、入力画像からピクセル特徴を抽出します。次に、ピクセルはクラスター中心のセットを使用してグループ化され、クラスターの割り当てに基づいてさらに更新されます。最後に、クラスターの割り当てと更新のステップが繰り返し実行され、最後の割り当てをセグメンテーション予測として直接使用できます。

Google チームがパノラマセグメンテーションソリューションを最適化する新しい Transformer を発表

典型的な MaskTransformer デコーダ (クロスアテンション、マルチヘッドセルフアテンション、およびフィードフォワードネットワークで構成される) をK 平均クロスアテンション上で提案されたものは、空間的なソフトマックスをクラスター的な最大パラメータに置き換えるだけです。

今回提案するkMaX-DeepLabのメタアーキテクチャは、ピクセルエンコーダ、拡張ピクセルデコーダ、kMaXデコーダの3つのコンポーネントで構成されます。

ピクセルエンコーダはあらゆるネットワークのバックボーンであり、画像の特徴を抽出するために使用されます。

強化されたピクセルデコーダには、ピクセルの特徴を強化するための Transformer エンコーダと、より高解像度の特徴を生成するためのアップサンプリングレイヤーが含まれています。

一連の kMax デコーダは、クラスター中心を (1) 予測マスクを生成するためにピクセル特徴と乗算されるマスク埋め込みベクトル、および (2) 各マスクのクラス予測に変換します。

Google チームがパノラマセグメンテーションソリューションを最適化する新しい Transformer を発表

kMaX-DeepLab のメタアーキテクチャ

研究結果

研究チームは最後に、最も困難な 2 つのパノラマセグメンテーションデータで成功を収めました。 COCO および Cityscapes のパノラマ品質 (PQ) メトリクスを使用して CMT-DeepLab と kMaX-DeepLab を評価し、MaX-DeepLab を他の最先端の手法と比較します。

その中で、CMT-DeepLab は大幅なパフォーマンス向上を達成しましたが、kMaX-DeepLab は修正を簡略化するだけでなく、さらに改善し、COCO val set の PQ は 58.0%、PQ は 68.4%、44.0 でした。 % マスク平均精度 (マスク AP)、Cityscapes 検証セットの平均交差オーバーユニオン (mIoU) 83.5% (テスト時の拡張や外部データセットの使用なし)。

Google チームがパノラマセグメンテーションソリューションを最適化する新しい Transformer を発表