ChatGPT は大規模言語モデルの流行を引き起こしましたが、AI のもう 1 つの主要な領域であるビジョンに GPT の瞬間が訪れるのはいつでしょうか?
2 日前、Machine Heart はMeta の最新の研究結果、Segment Anything Model (SAM) を紹介しました。この研究は、AI コミュニティで広範な議論を引き起こしました。
私たちが知る限り、ほぼ同時に、Zhiyuan Research Institute のビジョン チームは、ビジュアルを使用した一般的なセグメンテーション モデル SegGPT (Segment Everything In Context) を立ち上げました。プロンプト (prompt ) は、任意のセグメンテーション タスクを完了するための汎用視覚モデルです。
##SegGPT 「ワンサイズですべてに対応」: 1 つまたは複数のサンプル画像とインテント マスクが与えられると、モデルはユーザーのインテントを取得し、同様のセグメンテーション タスクを「模倣」できます。ユーザーは、画面上のオブジェクトの種類をマークして認識すると、現在の画面、他の画面、またはビデオ環境にあるかどうかに関係なく、類似したオブジェクトをバッチで識別してセグメント化できます。
#このモデルには次の利点と機能があります:
1. 一般的な機能
: SegGPT にはコンテキスト推論機能があり、モデルは提供されたセグメンテーションの例 (プロンプト) に基づいて予測を適応的に調整し、インスタンス、カテゴリ、コンポーネント、輪郭、テキスト、人物を含む「すべて」のセグメンテーションを実現できます。 、医療画像、リモートセンシング画像など。2. 柔軟な推論能力
: 任意の数のプロンプトをサポート、特定のシナリオ向けに調整されたプロンプトをサポート、マスク異なる色の色を使用して異なるターゲットを表現し、並列セグメンテーション推論を実現できます。3. 自動ビデオ セグメンテーションおよび追跡機能:
最初のフレーム画像と対応するオブジェクト マスクに基づく状況に応じた例として、SegGPT は後続のビデオ フレームを自動的にセグメント化し、マスクの色をオブジェクトの ID として使用して自動追跡を実現できます。ケースプレゼンテーション1. 著者らは、少数ショットのセマンティック セグメンテーション、ビデオ オブジェクト セグメンテーション、セマンティック セグメンテーション、パノラマ セグメンテーションなどの幅広いタスクで SegGPT を評価しました。 。以下の図は、インスタンス、カテゴリー、コンポーネント、アウトライン、テキスト、および任意形状のオブジェクトに対する SegGPT のセグメンテーション結果を具体的に示しています。
2. 1 つの写真 (上の写真) で虹をマークし、他の写真の虹をバッチに分割します (下の写真)
#3. ブラシを使って惑星環を大まかに囲み (上図)、予測マップのターゲット画像内の惑星環を正確に出力します。 (写真下))。
4. SegGPT は、宇宙飛行士のヘルメット マスク (左の画像) は、新しい画像 (右の画像) 内の対応する宇宙飛行士のヘルメット領域を予測します。
#トレーニング方法
SegGPT は、さまざまなセグメンテーション タスクを共通のコンテキスト学習フレームワークに統合します。データは同じ形式の画像に変換されます。さまざまなデータ形式を統一します。具体的には、SegGPT のトレーニングは、データ サンプルごとにランダムなカラー マッピングを使用したコンテキスト カラーリング問題として定義されます。目標は、特定の色に依存するのではなく、コンテキストに基づいてさまざまなタスクを実行することです。トレーニング後、SegGPT は、インスタンス、カテゴリ、コンポーネント、輪郭、テキストなどの文脈推論を通じて、画像またはビデオ内の任意のセグメンテーション タスクを実行できます。
テスト時のテクニック
テスト時のテクニックを通じてさまざまな能力を解き放つ方法は、ユニバーサル モデルのハイライトです。 SegGPT の論文では、以下の図に示すさまざまなコンテキスト アンサンブル手法など、さまざまなセグメンテーション機能を解放および強化するための複数のテクノロジが提案されています。提案された特徴アンサンブル手法は、人間に優しい推論効果を達成するために、任意の数のプロンプト サンプルをサポートできます。さらに、SegGPT は、特定のシナリオに最適化された専用のプロンプトもサポートしています。対象を絞った使用シナリオの場合、SegGPT は、特定のシナリオに合わせてモデル パラメーターを更新することなく、プロンプト チューニングを通じて対応するプロンプトを取得できます。たとえば、特定のデータ セットに対応するプロンプトを自動的に構築したり、ルーム専用のプロンプトを構築したりできます。以下の図に示すように:
結果の表示
モデルにはプロンプトの例がいくつか必要なだけで、最良の結果が得られます。 COCO および PASCAL データ セット、優れたパフォーマンス。 SegGPT は、トレーニングなしで少数ショットのセマンティック セグメンテーション テスト セット FSS-1000 で最先端のパフォーマンスを達成するなど、強力なゼロショット シーン転送機能を示します。ビデオ トレーニング データは必要なく、SegGPT は次のことを行うことができます。ビデオ オブジェクト セグメンテーションを実行し、ビデオ オブジェクト セグメンテーション専用に最適化されたモデルと同等のパフォーマンスを達成します。
次は、セマンティック セグメンテーション タスクとインスタンス セグメンテーション タスクに対する調整されたプロンプトの効果を示します。
#以上がユニバーサルビジョン GPT の瞬間は来るのでしょうか? Zhiyuan がユニバーサル セグメンテーション モデル SegGPT を発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。