CVPR 2024 | ゼロサンプル 6D オブジェクト姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく-AI-php.cn

多くの実際のアプリケーションでは、物体の姿勢推定は、身体化された知能、ロボット操作、拡張現実などの分野で重要な役割を果たします。

この分野で注目すべき最初のタスクは インスタンスレベルの 6D 姿勢推定です。これには、深度モデルをオブジェクト固有のプロパティにするためのモデルトレーニング用のターゲットオブジェクトに関する注釈付きデータが必要です。新しいオブジェクトに転送することはできません。その後、研究の焦点は徐々に カテゴリレベルの 6D 姿勢推定 に移りました。これは目に見えないオブジェクトを処理するために使用されますが、そのオブジェクトが既知の関心のあるカテゴリに属している必要があります。

および ゼロサンプル 6D ポーズ推定 は、より一般化されたタスク設定であり、任意のオブジェクトの CAD モデルが与えられた場合、シーン内のターゲットオブジェクトを検出し、その 6D ポーズを推定することを目的としています。その重要性にもかかわらず、このゼロショットタスク設定は、物体検出と姿勢推定の両方において大きな課題に直面しています。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

^{[ 1] が注目を集めており、その優れたゼロサンプルセグメンテーション能力が目を引きます。 SAM は、ピクセル、バウンディングボックス、テキスト、マスクなどのさまざまなキューを通じて高精度のセグメンテーションを実現します。これにより、ゼロサンプルの 6D オブジェクトの姿勢推定タスクに対する信頼性の高いサポートも提供され、その有望な可能性が実証されます。} したがって、新しいゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D が、Cross-Dimensional Intelligence、香港中文大学 (深セン)、および華南理工大学の研究者によって提案されました。この研究は CVPR 2024 によって認められました。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步論文リンク: https://arxiv.org/pdf/2311.15707.pdf

コードリンク: https://github.com/JiehongLin/SAM-6D
SAM-6D は、インスタンスセグメンテーションと姿勢推定を含む 2 つのステップを通じて、ゼロサンプル 6D オブジェクトの姿勢推定を実装します。したがって、任意のターゲットオブジェクトが与えられると、SAM-6D は 2 つの専用サブネットワーク、つまり
インスタンスセグメンテーションモデル (ISM) とポーズ推定モデル (PEM)

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

全体として、SAM-6D の技術的貢献は次のように要約できます。

SAM-6D は、あらゆるオブジェクトの CAD を提供する革新的なゼロサンプル 6D 姿勢推定フレームワークです。このモデルは、RGB-D 画像からのターゲットオブジェクトのインスタンスセグメンテーションと姿勢推定を実装しており、BOP [2] の 7 つのコアデータセットに対して優れたパフォーマンスを発揮します。
SAM-6D は、すべてのセグメンテーションモデルのゼロショットセグメンテーション機能を活用して、考えられるすべての候補オブジェクトを生成し、ターゲットオブジェクトに対応するオブジェクトを識別するための新しいオブジェクトマッチングスコアを設計します。候補者。
SAM-6D は、姿勢推定をローカル間の点集合のマッチング問題と見なし、シンプルだが効果的なバックグラウンドトークン設計を採用し、任意のオブジェクトに対する 2 次元アルゴリズムを提案します。ステージ点セットマッチングモデル。第 1 ステージでは粗い点セットマッチングを実装して初期オブジェクトポーズを取得し、第 2 ステージでは新しい疎点セットから高密度点セットへの変換を使用して細かい点セットマッチングを実行し、ポーズをさらに最適化します。

インスタンスセグメンテーションモデル (ISM)

SAM-6D は、インスタンスセグメンテーションモデル (ISM) を使用して、任意のオブジェクトのマスクを検出してセグメント化します。

RGB イメージで表される乱雑なシーンを考慮して、ISM はセグメンテーションエブリシングモデル (SAM) のゼロショット転送機能を利用して、考えられるすべての候補を生成します。 ISM は候補オブジェクトごとにオブジェクト一致スコアを計算し、セマンティクス、外観、ジオメトリの観点からターゲットオブジェクトとどの程度一致しているかを推定します。最後に、一致しきい値を設定するだけで、ターゲットオブジェクトに一致するインスタンスを識別できます。

オブジェクト一致スコアの計算は、3 つの一致項目の加重合計によって取得されます。

セマンティック一致項目 - ターゲットオブジェクトに対して、ISM は複数のビューをレンダリングします。オブジェクトテンプレートを使用し、DINOv2 [3] の事前トレーニング済み ViT モデルを使用して、候補オブジェクトとオブジェクトテンプレートの意味論的特徴を抽出し、それらの間の相関スコアを計算します。意味的一致スコアは、上位 K 個の最高スコアを平均することによって取得され、最も高い相関スコアに対応するオブジェクトテンプレートが最も一致するテンプレートとみなされます。

外観一致項目 - 最も一致するテンプレートについては、ViT モデルを使用して画像ブロック特徴を抽出し、それと候補オブジェクトのブロック特徴の間の相関を計算して、外観一致を取得します。 item スコア。意味的には似ているが視覚的に異なるオブジェクトを区別するために使用されます。

幾何学的一致 - ISM は、さまざまなオブジェクトの形状やサイズの違いなどの要因を考慮して、幾何学的一致スコアも設計しました。最もよく一致するテンプレートと候補オブジェクトの点群に対応する回転の平均により、大まかなオブジェクトのポーズが得られ、このポーズを使用してオブジェクト CAD モデルを剛体変換および投影することにより、バウンディングボックスを取得できます。境界ボックスと候補境界ボックスの間の交差対和集合 (IoU) 比を計算すると、幾何学的マッチングスコアを取得できます。

姿勢推定モデル (PEM)

ターゲットオブジェクトと一致する各候補オブジェクトについて、SAM-6D は姿勢推定モデル (PEM) を利用して相対的な 6D を予測します。オブジェクトの CAD モデルのポーズ。

セグメント化された候補オブジェクトとオブジェクト CAD モデルのサンプリング点セットはそれぞれ CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步とで表され、N_m と N_o はそれらの点の数を表し、同時にこれら 2 つの点セットの特性を表しますはおよびで表され、C は機能のチャネル数を表します。 PEM の目的は、P_m から P_o までのローカル間対応を表す割り当て行列を取得することです。オクルージョンにより、P_o は P_m と部分的にのみ一致し、セグメンテーションの不正確さとセンサーノイズにより、P_m は部分的にのみ一致します。部分的 AND 一致ぽ。

2 つの点セット間で重複しない点を割り当てる問題を解決するために、ISM は CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步とのマークが付いたバックグラウンドトークンをそれらの点セットに装備します。これにより、ローカル間の関係をベースにして効果的に確立できます。機能の類似性について。具体的には、最初に注目行列を次のように計算できます。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

次に、分布行列を取得できます

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步とはそれぞれ行と列に沿ったソフトマックス演算を表し、は定数を表します。の各行 (最初の行を除く) の値は、点集合 P_m 内の各点 P_m と背景および P_o の中点との一致確率を表します。最大スコアのインデックスを見つけることで、点集合 P_m と一致する点が決定されます。を見つけることができます（背景を含む）。

計算が CVPR 2024 | ゼロサンプル 6D オブジェクト姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づくになると、すべての一致点ペア {(P_m,P_o)} とその一致スコアが収集され、最後に重み付き SVD を使用してオブジェクトの姿勢が計算されます。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

^{バックグラウンドトークンの戦略に基づいて、2 つの点セットマッチングステージが PEM で設計されています。モデル構造は図 3 に示されており、3 つのステージが含まれていますモジュール:}特徴抽出、大まかな点セットマッチング、および詳細な点セットマッチング。

ラフ点セットマッチングモジュールは、スパース対応を実装してオブジェクトの初期姿勢を計算し、その姿勢を使用して候補オブジェクトの点セットを変換し、位置コーディング学習を実現します。詳細点セットマッチングモジュールは、候補オブジェクトとターゲットオブジェクトのサンプル点セットの位置エンコーディングを組み合わせることで、第 1 段階で大まかな対応関係を注入し、さらに密な対応関係を確立して、より正確な対応関係を取得します。オブジェクトのポーズ。この段階で密な相互作用を効果的に学習するために、PEM は新しい疎から密への点集合変換器を導入します。これは、密な特徴の疎なバージョンで相互作用を実装し、線形変換器 [5] を利用して強化された疎な特徴を拡散に変換して密な特徴に戻します。特徴。＃＃＃＃＃＃＃＃＃実験結果＃＃＃＃＃＃

SAM-6D の 2 つのサブモデルの場合、インスタンスセグメンテーションモデル (ISM) はネットワークの再トレーニングや微調整を必要とせずに SAM に基づいて構築されますが、姿勢推定モデル (PEM) は MegaPose によって提供されます [4]トレーニング用の大規模な ShapeNet-Objects および Google-Scanned-Objects 合成データセット。

ゼロサンプル機能を検証するために、SAM-6D は、LM-O、T-LESS、TUD-L、IC-BIN、ITODD、HB を含む BOP [2] の 7 つのコアデータセットでテストされました。そしてYCB-V。表 1 と表 2 は、これら 7 つのデータセットに対するさまざまな方法によるインスタンスのセグメンテーションと姿勢推定の結果の比較をそれぞれ示しています。他の手法と比較して、SAM-6D は両方の手法で非常に優れたパフォーマンスを発揮し、その強力な汎化能力を十分に実証しています。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

＃表2.さまざまな方法の態度推定結果の比較BOP の 7 つのコアデータセットでの CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

#図 4 は、7 つの BOP データセットでの SAM-6D の検出セグメンテーションと 6D 姿勢推定の視覚化結果を示しています。ここで (a) と (b)はそれぞれテスト RGB 画像と深度マップ、(c) は指定されたターゲットオブジェクト、(d) と (e) はそれぞれ検出セグメンテーションと 6D ポーズの視覚化結果です。

図 4. BOP の 7 つのコアデータセットに対する SAM-6D の視覚化結果。

CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步