視覚言語モデルに空間推論を行わせると、Google は再び新しくなります-AI-php.cn

視覚言語モデル (VLM) は、画像の説明、視覚的な質問応答、具体化された計画、行動認識などの多くのタスクで大幅な進歩を遂げていますが、空間推論には課題が残っています。多くのモデルでは、3 次元空間におけるターゲットの位置や空間関係を理解することが依然として困難です。これは、視覚言語モデルをさらに開発する過程で、複雑な視覚タスクの処理におけるモデルの精度と効率を向上させるために、空間推論の問題の解決に焦点を当てる必要があることを示しています。

研究者は、人間の身体的経験や進化の発達を通じてこの疑問を探求することがよくあります。人間には、複雑な思考プロセスや暗算を必要とせずに、オブジェクトの相対位置などの空間的関係を簡単に判断したり、距離やサイズを推定したりできる空間推論スキルが固有に備わっています。

直接空間推論タスクにおけるこの熟練度は、現在の視覚言語モデルの機能の限界とは対照的であり、視覚言語を強化することが可能かどうかという、説得力のある研究上の疑問を提起します。モデルは似ていますか?人間の空間推論能力？

最近、Google は空間推論機能を備えた視覚言語モデル、SpatialVLM を提案しました。

視覚言語モデルに空間推論を行わせると、Google は再び新しくなります

論文タイトル: SpatialVLM: 視覚を与える - 言語空間推論機能を備えたモデル
論文アドレス: https://arxiv.org/pdf/2401.12168.pdf
##プロジェクトのホームページ: https://spatial-vlm.github.io/

研究者は、現在の視覚言語モデルは次のように考えています。推論機能の制限は、そのアーキテクチャの制限に起因するものではなく、トレーニングに使用される共通のデータセットの制限に起因する可能性が高くなります。多くの視覚言語モデルは、限られた空間情報を含む大規模な画像とテキストのペアのデータセットでトレーニングされます。空間情報が豊富な具体化されたデータを取得したり、人間による高品質のアノテーションを実行したりすることは、困難な作業です。この問題を解決するために、自動データ生成および拡張技術が提案されています。しかし、これまでの研究は主に、実際の意味論的な注釈を備えたフォトリアリスティックな画像を生成することに焦点を当てており、オブジェクトの豊かさや 3D 関係は無視されていました。したがって、将来の研究では、たとえば、より具体化されたデータを導入したり、オブジェクトと 3D 関係のモデリングに焦点を当てたりするなど、自動生成技術を通じてモデルの空間情報の理解を向上させる方法を検討する可能性があります。これにより、空間推論における視覚言語モデルのパフォーマンスが向上し、現実世界のアプリケーションシナリオにより適したものになります。

#対照的に、この研究は、現実の 3D 世界の多様性と複雑さを示すために、実世界のデータを使用して空間情報を直接抽出することに焦点を当てています。この方法は、最新のビジュアルモデリングテクノロジに触発されており、2D 画像から 3D 空間アノテーションを自動的に生成できます。

SpatialVLM システムの重要な機能は、オブジェクト検出、深度推定、セマンティックセグメンテーション、オブジェクト中心記述モデルなどの技術を使用して、大規模で高密度に注釈が付けられた実世界データを処理して、機能を強化することです。視覚言語モデルの空間推論機能。 SpatialVLM システムは、ビジュアルモデルによって生成されたデータを、記述、VQA、空間推論に使用できるハイブリッドデータ形式に変換することにより、ビジュアル言語モデルのデータ生成とトレーニングの目標を達成します。研究者らの努力により、このシステムは視覚情報をよりよく理解して処理できるようになり、それによって複雑な空間推論タスクにおけるパフォーマンスが向上しました。このアプローチは、画像とテキストの関係をよりよく理解して処理できるように視覚言語モデルをトレーニングするのに役立ち、それによってさまざまな視覚タスクにおける精度と効率が向上します。

研究によると、この記事で提案した視覚言語モデルは複数の分野で満足のいく機能を発揮します。まず、定性的な空間問題の処理において大幅な改善が見られます。第 2 に、モデルはトレーニングデータにノイズが存在する場合でも、定量的な推定値を確実に生成できます。この機能により、ターゲットのサイズに関する常識的な知識が得られるだけでなく、再配置タスクやオープン語彙の報酬アノテーションの処理にも役立ちます。最後に、空間視覚言語モデルは、強力な大規模言語モデルと組み合わせることで、空間推論チェーンを実行し、自然言語インターフェイスに基づいて複雑な空間推論タスクを解決できます。

手法の概要

視覚言語モデルに定性的および定量的な空間推論機能を持たせるために、研究者らは大規模な空間 VQA データセットを生成することを提案しました。視覚トレーニングのための言語モデル。具体的には、まず、オープンボキャブラリ検出、メトリクス深さ推定、セマンティックセグメンテーション、ターゲット中心記述モデルなどの既製のコンピュータビジョンモデルを利用して、ターゲット中心の背景情報を抽出する包括的なデータ生成フレームワークを設計することです。次に、テンプレートベースのアプローチを採用して、妥当な品質の大規模空間 VQA データを生成します。この論文では、研究者らは、生成されたデータセットを使用して SpatialVLM をトレーニングし、直接空間推論機能を学習させ、それを LLM に埋め込まれた高レベルの常識推論と組み合わせて、連鎖思考の空間推論を解き放ちました。

視覚言語モデルに空間推論を行わせると、Google は再び新しくなります

# 2D 画像の空間データ

#研究者らは、空間推論の質問を含む VQA データを生成するプロセスを設計しました。その具体的なプロセスを図 2 に示します。

視覚言語モデルに空間推論を行わせると、Google は再び新しくなります

1. セマンティックフィルタリング: この記事のデータ合成プロセスでは、最初のステップはオープンボキャブラリーを使用することです。 CLIP に基づく分類モデルはすべての画像を分類し、不適切な画像を除外します。

2. 2D 画像抽出ターゲット中心の背景: このステップでは、ピクセルクラスターとオープンボキャブラリーの説明からなるターゲット中心のエンティティを取得します。

3. 2D 背景情報から 3D 背景情報へ: 深度推定後、片目の 2D ピクセルがメートルスケールの 3D 点群にアップグレードされます。この論文は、インターネットスケールの画像をオブジェクト中心の 3D 点群にアップスケーリングし、それらを使用して 3D 空間推論監視を備えた VQA データを合成した最初の論文です。

4. 曖昧さ回避: 場合によっては、画像内に同様のカテゴリの複数のオブジェクトが存在し、その結果、説明ラベルが曖昧になることがあります。したがって、これらの目標について質問する前に、参照式に曖昧さが含まれていないことを確認する必要があります。

大規模空間推論 VQA データセット

研究者らは、事前トレーニングに合成データを使用して、「直感的に」」空間推論機能が VLM に統合されています。したがって、合成には、画像内の 2 つ以下のオブジェクト (A と B で示される) の空間推論の質問と回答のペアが含まれます。ここでは主に次の 2 種類の質問を検討します:

1. 定性的質問: 特定の空間関係の判断について尋ねます。たとえば、「2 つのオブジェクト A と B がある場合、どちらがより左にありますか?」

2. 定量的な質問: 数値や単位など、より詳細な回答を求めます。たとえば、「物体 A は物体 B に対してどれだけ左にありますか?」、「物体 A は B からどのくらい離れていますか?」

ここで、研究者は 38 種類の異なるタイプを指定しました。定性的および定量的な空間推論の質問。それぞれに約 20 の質問テンプレートと 10 の回答テンプレートが含まれます。

図 3 は、この記事で取得した合成質問と回答のペアの例を示しています。研究者らは、1,000 万枚の画像と 20 億の直接空間推論の質問と回答のペア (定性的 50%、定量的 50%) からなる大規模なデータセットを作成しました。

視覚言語モデルに空間推論を行わせると、Google は再び新しくなります

#空間推論を学ぶ

直接空間推論: 視覚言語モデルは、画像 I と空間タスクに関するクエリ Q を入力として受け取り、外部ツールを使用したり他の大規模なモデルと対話したりすることなく、テキスト形式で提示された回答 A を出力します。この記事では、PaLM のバックボーンが PaLM 2-S に置き換えられることを除いて、PaLM-E と同じアーキテクチャとトレーニングプロセスを採用しています。次に、元の PaLM-E データセットと著者のデータセットを混合して使用し、トークンの 5% を空間推論タスクに使用してモデルトレーニングを実行しました。

連鎖思考の空間推論: SpatialVLM は、基礎となる概念に関する質問をクエリするために使用できる自然言語インターフェイスを提供し、強力な LLM と組み合わせることで、複雑な空間推論を実行できます。

ソクラティックモデルと LLM コーディネーターのメソッドと同様に、この記事では LLM (text-davinci-003) を使用して SpatialVLM との通信を調整し、連鎖思考プロンプトで複雑な問題を解決します。問題を図 4 に示します。

視覚言語モデルに空間推論を行わせると、Google は再び新しくなります

#実験と結果

研究者は実験を通じて次の疑問を証明し、答えました。

質問 1: この記事で設計された空間 VQA データの生成およびトレーニングプロセスは、VLM の一般的な空間推論能力を向上させますか?そしてそれはどのように機能するのでしょうか?

質問 2: ノイズの多いデータとさまざまなトレーニング戦略が詰まった合成空間 VQA データは、学習パフォーマンスにどのような影響を与えますか?

質問 3: 「直接」空間推論機能を備えた VLM は、連鎖思考推論や具体化された計画などの新しい機能を解放できますか?

研究者らは、PaLM-E トレーニングセットとこの記事で設計した空間 VQA データセットを組み合わせて使用してモデルをトレーニングしました。空間推論における VLM の制限がデータの問題であるかどうかを検証するために、彼らは現在の最先端の視覚言語モデルをベースラインとして選択しました。意味論的記述タスクは、この記事の空間 VQA データセットをトレーニングに使用するのではなく、これらのモデルのトレーニングプロセスでかなりの部分を占めます。

空間 VQA のパフォーマンス

定性的な空間 VQA。この質問の場合、人間による注釈付きの回答と VLM 出力は両方とも自由形式の自然言語です。したがって、VLM のパフォーマンスを評価するために、人間の評価者を使用して回答が正しいかどうかを判断しました。各 VLM の成功率を表 1 に示します。

視覚言語モデルに空間推論を行わせると、Google は再び新しくなります

定量的な空間 VQA。表 2 に示すように、私たちのモデルは両方の指標においてベースラインよりも優れたパフォーマンスを示しており、はるかに優れています。

視覚言語モデルに空間推論を行わせると、Google は再び新しくなります

空間 VQA データが一般的な VQA に及ぼす影響

2 番目の質問は、大量の空間 VQA データを使用した共同トレーニングにより、他のタスクでの VLM のパフォーマンスが低下するかどうかです。表 3 に要約されているように、空間 VQA データを使用せずに一般的な VQA ベンチマークでトレーニングされた基本的な PaLM 2-E とモデルを比較すると、モデルは OKVQA ベンチマークで PaLM 2-E と同等のパフォーマンスを達成します。推論問題は、空間推論問題を含む VQA-v2 テスト開発ベンチマークの方がわずかに優れています。

視覚言語モデルに空間推論を行わせると、Google は再び新しくなります

#空間推論における ViT エンコーダーの影響

##Frozen ViT (対照的なターゲットでトレーニングされた) は、空間推論に十分な情報をエンコードしますか?これを調査するために、研究者らの実験はトレーニングステップ 110,000 から開始され、1 つは Frozen ViT、もう 1 つは Unfrozen ViT の 2 つのトレーニング実行に分割されました。両方のモデルを 70,000 ステップでトレーニングした場合の評価結果を表 4 に示します。

視覚言語モデルに空間推論を行わせると、Google は再び新しくなります

ノイズの多い定量的空間回答の影響

研究者らは、ロボット操作データセットを使用して視覚言語モデルをトレーニングしたところ、モデルが操作フィールドで精密な距離推定を実行できることがわかり(図5)、データの精度がさらに証明されました。

視覚言語モデルに空間推論を行わせると、Google は再び新しくなります表 5 は、定量的空間 VQA における全体的な VLM パフォーマンスに対するさまざまなガウスノイズ標準偏差の影響を比較しています。

視覚言語モデルに空間推論を行わせると、Google は再び新しくなります # 空間推論が新しいアプリケーションを触発する

1. ビジョン高密度報酬アノテーターとしての言語モデル

ビジュアル言語モデルは、ロボット工学の分野で重要な用途を持っています。最近の研究では、視覚言語モデルと大規模言語モデルが、一般的なオープンボキャブラリの報酬アノテーターやロボットタスクの成功検出器として機能し、効果的な制御戦略を開発するために使用できることが示されています。ただし、VLM の報酬ラベル付け機能は、空間認識が不十分なために制限されることがよくあります。 SpatialVLM は、画像から距離や寸法を定量的に推定できるため、高密度報酬アノテーターとして独特に適しています。著者らは、現実世界のロボット工学実験を実施し、自然言語でタスクを指定し、SpatialVLM に軌道内の各フレームの報酬に注釈を付けるように依頼します。

図 6 の各ドットはターゲットの位置を表し、その色は注釈付きの報酬を表します。ロボットが特定の目標に向かって進歩するにつれて、報酬が単調に増加することがわかり、高密度報酬アノテーターとしての SpatialVLM の機能が実証されています。

視覚言語モデルに空間推論を行わせると、Google は再び新しくなります

#2. 連鎖思考空間推論

研究者らはまた、SpatialVLM の基本的な空間的質問に答える能力が強化されているため、SpatialVLM を使用して複数ステップの推論が必要なタスクを実行できるかどうかも調査しました。著者らは、図 1 と図 4 にいくつかの例を示しています。大規模言語モデル (GPT-4) に空間推論サブモジュールとして SpatialVLM が装備されている場合、環境内の 3 つのオブジェクトが「二等辺三角形」を形成できるかどうかを答えるなど、複雑な空間推論タスクを実行できます。

技術的な詳細と実験結果については、元の論文を参照してください。

以上が視覚言語モデルに空間推論を行わせると、Google は再び新しくなりますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。