ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像-AI-php.cn

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

王林

リリース： 2023-04-12 17:31:17

転載

1214 人が閲覧しました

この記事はAI New Media Qubit（公開アカウントID:QbitAI）の許可を得て転載していますので、転載については出典元にご連絡ください。

さあ、AI サークルが手の速さを競う時が来ました。

いいえ、Meta の SAM は数日前にリリースされたばかりで、国内のプログラマーが次々とバフを重ね、ターゲットの検出、セグメンテーション、主要なビジュアル AI 機能の生成をすべて 1 つに統合するようになりました。

たとえば、安定拡散と SAM に基づいて、写真の椅子をソファにシームレスに置き換えることができます。

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

これも非常に簡単です。服と髪の色を変える :

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

このプロジェクトがリリースされるとすぐに、多くの人が「手のスピードが速すぎる！」と叫びました。

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

他の人が言いました: 新垣結衣と私の新しい結婚式の写真があります。

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

上記は Gounded-SAM によってもたらされる効果であり、このプロジェクトは GitHub で 1.8k スターを獲得しています。

簡単に言うと、これは画像を入力するだけで自動的に画像を検出してセグメント化するゼロショットビジョンアプリケーションです。

この調査は、IDEA Research Institute (Guangdong-Hong Kong-Macao Greater Bay Area Digital Economy Research Institute) によるもので、その創設者および会長は沈祥陽氏です。

追加のトレーニングは必要ありません

Grounded SAM は、主に Grounding DINO と SAM の 2 つのモデルで構成されています。

SAM (Segment Anything) は、Meta によって 4 日前に発表されたばかりのゼロサンプルセグメンテーションモデルです。

トレーニングプロセス中に表示されなかったオブジェクトや画像を含む、画像/ビデオ内のあらゆるオブジェクトのマスクを生成できます。

SAM が任意のプロンプトに対して有効なマスクを返せるようにすることで、プロンプトがあいまいな場合や複数のオブジェクトを指している場合でも、モデルの出力はあらゆる可能性の中で妥当なマスクになるはずです。このタスクは、モデルを事前トレーニングし、ヒントを介して一般的な下流のセグメンテーションタスクを解決するために使用されます。

モデルフレームワークは、主に画像エンコーダー、ヒントエンコーダー、および高速マスクデコーダーで構成されます。画像の埋め込みを計算した後、SAM は Web 上の任意のプロンプトに基づいて 50 ミリ秒以内にセグメンテーションを生成できます。

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

Grounding DINO は、この研究チームの既存の成果です。

これは ゼロショット検出モデル で、テキストの説明を含むオブジェクトボックスとラベルを生成できます。

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

この 2 つを組み合わせると、テキストの説明を通じて画像内の任意のオブジェクトを検索し、SAM の強力なセグメンテーション機能を使用してマスクをきめ細かい方法でセグメント化できます。

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

これらの機能に加えて、冒頭で示した制御可能な画像生成である安定拡散の機能も追加されました。

Stable Diffusion が以前にも同様の機能を実現できたことは言及する価値があります。置き換えたい画像要素を消去し、テキストプロンプトを入力するだけです。

今回、Grounded SAM は手動選択のステップを保存し、テキストの説明を通じて直接制御できます。

さらに、BLIP (Bootstrapping Language-Image Pre-training) と組み合わせて、画像のタイトルを生成し、ラベルを抽出し、オブジェクトボックスとマスクを生成します。

現在、さらに興味深い機能が開発中です。

例: キャラクターの拡張: 服の変更、髪の色、肌の色など。

ビジュアルAI機能を統合！中国のチームによって作成された、自動化された画像検出とセグメンテーション、および制御可能なヴィンセント画像

#具体的な消費方法もGitHub で提供されます。プロジェクトには Python 3.8 以降、pytorch 1.7 以降、torchvision 0.8 以降が必要であり、関連する依存関係がインストールされている必要があります。具体的な内容については、GitHub プロジェクトページをご覧ください。

研究チームは、IDEA Research Institute (広東・香港・マカオ大湾区デジタル経済研究所) の出身です。

公開情報によると、同研究所は人工知能、デジタル経済産業、最先端技術に関する国際的な革新的な研究機関であることが示されています。マイクロソフトアジア研究所の元主席科学者、マイクロソフトグローバルインテリジェンス元副社長 シェンシャンヤン博士. は創設者兼会長を務めています。