ユニバーサルビジョン GPT の瞬間は来るのでしょうか? Zhiyuan がユニバーサルセグメンテーションモデル SegGPT を発表-AI-php.cn

ChatGPT は大規模言語モデルの流行を引き起こしましたが、AI のもう 1 つの主要な領域であるビジョンに GPT の瞬間が訪れるのはいつでしょうか?

2 日前、Machine Heart はMeta の最新の研究結果、Segment Anything Model (SAM) を紹介しました。この研究は、AI コミュニティで広範な議論を引き起こしました。

私たちが知る限り、ほぼ同時に、Zhiyuan Research Institute のビジョンチームは、ビジュアルを使用した一般的なセグメンテーションモデル SegGPT (Segment Everything In Context) を立ち上げました。プロンプト (prompt ) は、任意のセグメンテーションタスクを完了するための汎用視覚モデルです。

ユニバーサルビジョン GPT の瞬間は来るのでしょうか? Zhiyuan がユニバーサルセグメンテーションモデル SegGPT を発表

文書アドレス: https://arxiv.org/abs/2304.03284
#コードアドレス: https://github.com/baaivision/Painter
##SegGPT は、メタ AI 画像セグメンテーション基本モデル SAM と同時にリリースされました。両者の違いは次のとおりです。

##SegGPT 「ワンサイズですべてに対応」: 1 つまたは複数のサンプル画像とインテントマスクが与えられると、モデルはユーザーのインテントを取得し、同様のセグメンテーションタスクを「模倣」できます。ユーザーは、画面上のオブジェクトの種類をマークして認識すると、現在の画面、他の画面、またはビデオ環境にあるかどうかに関係なく、類似したオブジェクトをバッチで識別してセグメント化できます。

「ワンタッチですべて」でも「ワンタッチですべて」でも、ビジュアルモデルが「理解した」ことを意味します。「画像構造。 SAM の細かい注釈機能と SegGPT の一般的なセグメンテーションアノテーション機能を組み合わせることで、ピクセル配列からのあらゆる画像を視覚的な構造単位に解析し、生物学的な視覚のようにあらゆるシーンを理解することができます。ユニバーサルビジュアル GPT の夜明けがここにあります。

SegGPT は、Intelligent Source の一般的なビジョンモデル Painter (CVPR 2023) の派生モデルであり、すべてのオブジェクトをセグメント化するという目標に合わせて最適化されています。 SegGPT トレーニングが完了した後は、微調整は必要ありません。サンプルを提供するだけで、画像やビデオ内のインスタンス、カテゴリ、コンポーネント、輪郭、テキスト、顔などの対応するセグメンテーションタスクを自動的に推論して完了できます。

#このモデルには次の利点と機能があります:

1. 一般的な機能

: SegGPT にはコンテキスト推論機能があり、モデルは提供されたセグメンテーションの例 (プロンプト) に基づいて予測を適応的に調整し、インスタンス、カテゴリ、コンポーネント、輪郭、テキスト、人物を含む「すべて」のセグメンテーションを実現できます。、医療画像、リモートセンシング画像など。2. 柔軟な推論能力

: 任意の数のプロンプトをサポート、特定のシナリオ向けに調整されたプロンプトをサポート、マスク異なる色の色を使用して異なるターゲットを表現し、並列セグメンテーション推論を実現できます。3. 自動ビデオセグメンテーションおよび追跡機能:

最初のフレーム画像と対応するオブジェクトマスクに基づく状況に応じた例として、SegGPT は後続のビデオフレームを自動的にセグメント化し、マスクの色をオブジェクトの ID として使用して自動追跡を実現できます。ケースプレゼンテーション1. 著者らは、少数ショットのセマンティックセグメンテーション、ビデオオブジェクトセグメンテーション、セマンティックセグメンテーション、パノラマセグメンテーションなどの幅広いタスクで SegGPT を評価しました。。以下の図は、インスタンス、カテゴリー、コンポーネント、アウトライン、テキスト、および任意形状のオブジェクトに対する SegGPT のセグメンテーション結果を具体的に示しています。

ユニバーサルビジョン GPT の瞬間は来るのでしょうか? Zhiyuan がユニバーサルセグメンテーションモデル SegGPT を発表

2. 1 つの写真 (上の写真) で虹をマークし、他の写真の虹をバッチに分割します (下の写真)

ユニバーサルビジョン GPT の瞬間は来るのでしょうか? Zhiyuan がユニバーサルセグメンテーションモデル SegGPT を発表

#3. ブラシを使って惑星環を大まかに囲み (上図)、予測マップのターゲット画像内の惑星環を正確に出力します。（写真下））。

ユニバーサルビジョン GPT の瞬間は来るのでしょうか? Zhiyuan がユニバーサルセグメンテーションモデル SegGPT を発表

4. SegGPT は、宇宙飛行士のヘルメットマスク (左の画像) は、新しい画像 (右の画像) 内の対応する宇宙飛行士のヘルメット領域を予測します。

ユニバーサルビジョン GPT の瞬間は来るのでしょうか? Zhiyuan がユニバーサルセグメンテーションモデル SegGPT を発表 #トレーニング方法

SegGPT は、さまざまなセグメンテーションタスクを共通のコンテキスト学習フレームワークに統合します。データは同じ形式の画像に変換されます。さまざまなデータ形式を統一します。

具体的には、SegGPT のトレーニングは、データサンプルごとにランダムなカラーマッピングを使用したコンテキストカラーリング問題として定義されます。目標は、特定の色に依存するのではなく、コンテキストに基づいてさまざまなタスクを実行することです。トレーニング後、SegGPT は、インスタンス、カテゴリ、コンポーネント、輪郭、テキストなどの文脈推論を通じて、画像またはビデオ内の任意のセグメンテーションタスクを実行できます。

テスト時のテクニック

テスト時のテクニックを通じてさまざまな能力を解き放つ方法は、ユニバーサルモデルのハイライトです。 SegGPT の論文では、以下の図に示すさまざまなコンテキストアンサンブル手法など、さまざまなセグメンテーション機能を解放および強化するための複数のテクノロジが提案されています。提案された特徴アンサンブル手法は、人間に優しい推論効果を達成するために、任意の数のプロンプトサンプルをサポートできます。

ユニバーサルビジョン GPT の瞬間は来るのでしょうか? Zhiyuan がユニバーサルセグメンテーションモデル SegGPT を発表

さらに、SegGPT は、特定のシナリオに最適化された専用のプロンプトもサポートしています。対象を絞った使用シナリオの場合、SegGPT は、特定のシナリオに合わせてモデルパラメーターを更新することなく、プロンプトチューニングを通じて対応するプロンプトを取得できます。たとえば、特定のデータセットに対応するプロンプトを自動的に構築したり、ルーム専用のプロンプトを構築したりできます。以下の図に示すように:

ユニバーサルビジョン GPT の瞬間は来るのでしょうか? Zhiyuan がユニバーサルセグメンテーションモデル SegGPT を発表結果の表示

モデルにはプロンプトの例がいくつか必要なだけで、最良の結果が得られます。 COCO および PASCAL データセット、優れたパフォーマンス。 SegGPT は、トレーニングなしで少数ショットのセマンティックセグメンテーションテストセット FSS-1000 で最先端のパフォーマンスを達成するなど、強力なゼロショットシーン転送機能を示します。

ユニバーサルビジョン GPT の瞬間は来るのでしょうか? Zhiyuan がユニバーサルセグメンテーションモデル SegGPT を発表