未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

WBOY
リリース: 2023-04-12 11:31:05
転載
1448 人が閲覧しました

これまでに見たことのない新しいオブジェクトをセグメント化することもできます。

これは DeepMind によって開発された新しい学習フレームワークです: オブジェクト発見および表現ネットワーク (略して Odin)

未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

前へ 自己教師あり学習 (SSL)この方法では、大きなシーン全体をうまく表現できますが、個々のオブジェクトを区別することは困難です。

Odin メソッドはそれを実行し、監視なしで実行します。

画像内の単一のオブジェクトを区別するのは簡単ではありません。それはどのように行われるのでしょうか?

方法原理

主に Odin 学習フレームワークの「自己循環」により、画像内のさまざまなオブジェクトを適切に区別できます。

Odin は、連携して動作する 2 つのネットワーク セット、つまりターゲット検出ネットワークとターゲット表現ネットワークを学習しました。

Target Discovery Networkは、画像のトリミングされた部分を入力として受け取ります。トリミングされた部分には画像領域の大部分が含まれている必要があり、画像のこの部分は他の側面では強化されていません。

次に、入力画像から生成された特徴マップに対してクラスター分析を実行し、さまざまな特徴に従って画像内の各オブジェクトをセグメント化します。

未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

ターゲット表現ネットワークの入力ビューは、ターゲット検出ネットワークで生成されたセグメント化された画像です。

ビューが入力された後、反転、ぼかし、ポイントレベルのカラー変換など、個別にランダムに前処理されます。

このようにして 2 組のマスクが得られますが、トリミングの違いを除けば、その他の情報は元の画像内容と同じです。

その後、2 つのマスクは、コントラスト損失を通じて画像内のオブジェクトをより適切に表現できる特徴を学習します。

具体的には、コントラスト検出を通じて、ネットワークはさまざまなターゲット オブジェクトの特性を識別するようにトレーニングされますが、他の無関係なオブジェクトからの多くの「ネガティブな」特性も存在します。

次に、異なるマスクにおける同じターゲット オブジェクトの類似性を最大化し、異なるターゲット オブジェクト間の類似性を最小化してから、より適切なセグメンテーションを実行して、異なるターゲット オブジェクトを区別します。

未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

#同時に、ターゲット検出ネットワークは、ターゲット表現ネットワークのパラメーターに基づいて定期的に更新されます。

最終的な目標は、これらのオブジェクト レベルの特性が異なるビューでもほぼ変わらないことを保証すること、言い換えれば、画像内のオブジェクトを分離することです。

それでは、Odin 学習フレームワークの効果は何でしょうか?

未知のオブジェクトを非常によく区別できます

事前知識がなくてもシーン分割における Odin メソッドの転移学習のパフォーマンスも非常に強力です。

まず、Odin メソッドを使用して ImageNet データセットで事前トレーニングし、COCO データセットおよび PASCAL および Cityscapes セマンティック セグメンテーションに対するその効果を評価します。

対象オブジェクトをすでに知っている、つまり事前知識を取得する方法は、シーン分割を実行するときに事前知識を取得しない他の方法よりも大幅に優れています。

Odin 法は事前知識を取得しなくても、事前知識を取得する DetCon や ReLICv2 よりも効果が高くなります。

未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

さらに、Odin メソッドは ResNet モデルだけでなく、Swim Transformer などのより複雑なモデルにも適用できます。 。

未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

データの観点から見ると、Odin フレームワーク学習の利点は明らかですが、Odin の利点は視覚的なイメージのどこに反映されているのでしょうか?

Odin を使用して生成されたセグメント化された画像を、ランダムに初期化されたネットワーク (列 3)、ImageNet 監視ネットワーク (列 4) から取得した画像と比較します。

列 3 と列 4 はオブジェクトの境界を明確に描写できていないか、現実世界のオブジェクトの一貫性や局所性が欠けており、Odin によって生成された画像効果は明らかに優れています。

未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。

参考リンク:

[1] https://twitter.com/DeepMind/status/1554467389290561541

[2] https://arxiv.org/abs/2203.08777

以上が未知のオブジェクトも簡単に識別してセグメント化でき、その効果を伝達できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!