ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要-AI-php.cn

この記事では、画像セマンティックセグメンテーションに CNN を使用する場合のネットワーク構造の革新についてまとめています。これらの革新には主に、新しいニューラルアーキテクチャ (異なる深さ、幅、接続、トポロジー) の設計と、新しいコンポーネントまたはレイヤーの設計が含まれます。前者は既存のコンポーネントを使用して複雑な大規模ネットワークを組み立てますが、後者は基礎となるコンポーネントを設計することを好みます。まず、いくつかの古典的なセマンティックセグメンテーションネットワークとそのイノベーションを紹介し、次に医療画像セグメンテーションの分野におけるネットワーク構造設計のいくつかのアプリケーションを紹介します。

1. 画像セマンティックセグメンテーションネットワーク構造の革新

1.1 FCN ネットワーク

FCN 全体のアーキテクチャ

簡略図FCN ネットワークは、セマンティックセグメンテーションの問題を新しい観点から解決した最初のネットワークであるため、FCN ネットワークは個別にリストされています。ニューラルネットワークに基づく以前の画像セマンティックセグメンテーションネットワークは、分類対象のピクセルを中心とする画像ブロックを使用して、中心ピクセルのラベルを予測しました。ネットワークは一般的に CNN FC 戦略を使用して構築されました。明らかに、この方法では、画像のグローバルコンテキスト情報を利用できません。さらに、ピクセルごとの推論速度は非常に遅いですが、FCN ネットワークは全結合層 FC を放棄し、畳み込み層を使用してネットワークを構築します。転置畳み込みと異なる層の特徴の融合という戦略を通じて、ネットワークは出力は入力画像の予測マスクを直接出力するため、効率的であり、精度が大幅に向上します。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

FCN の異なるレイヤーの機能融合の概略図

イノベーションポイント: フルボリュームプロダクトネットワーク (fc 層を除く)、転置畳み込み deconv (デコンボリューション)、異層特徴マップスキップ接続 (追加)

1.2 符号化構造 (Enconder-decoder)

SegNetFCN ネットワークの考え方は基本的に同じです。エンコーダ部分は VGG16 の最初の 13 層の畳み込みを使用しますが、違いはデコーダ部分のアップサンプリング方法にあります。 FCN は、特徴マップを逆変換して得られた結果を、エンコーダーの対応するサイズの特徴マップに加算することによってアップサンプリング結果を取得しますが、SegNet は、エンコーダー部分の maxpool のインデックスを使用して、デコーダー部分 (原文の説明: デコーダー) をアップサンプリングします。低解像度の特徴入力マップをアップサンプリングします。具体的には、デコーダは、対応するエンコーダの最大プーリングステップで計算されたプーリングインデックスを使用して、非線形アップサンプリングを実行します。)

イノベーションポイント: エンコーダ-デコーダ構造、プールインデックス。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

#SegNet ネットワーク

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

# 比較SegNet と FCN の間のアップサンプル方式の

U-Net ネットワークはもともと生物医学画像用に設計されましたが、その 4 グレードのパフォーマンスにより、現在では UNet とその亜種が使用されています。 CV のさまざまなサブフィールドで広く使用されています。 UNet ネットワークは、U チャネルとスキップ接続で構成されます。U チャネルは SegNet の符号化および復号構造に似ています。符号化部分 (縮小パス) は特徴抽出を実行し、コンテキスト情報を取得します。復号部分 (拡張パス) は、 ) グラフのデコード機能を使用してピクセルラベルを予測します。短絡チャネルはモデルの精度を向上させ、勾配消失の問題を解決します。短絡チャネルの特徴マップと上で使用した特徴マップは追加されるのではなく結合されることに注意することが特に重要です (FCN とは異なります)。

革新ポイント

: U字型構造、短絡チャネル(スキップ接続)

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

U-Network

V-Net ネットワーク構造は U-Net に似ていますが、アーキテクチャがスキップ接続を追加し、3D 画像 (ボリューム画像) を処理するために 2D 操作を 3D 操作に置き換える点が異なります。また、Dice などの広く使用されているセグメンテーション指標向けに最適化されています。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

#V-Net Network

イノベーションポイント: かなりU-Net ネットワークの 3D バージョン

FC-DenseNet (One Hundred Layers Tiramisu Network)(論文タイトル: The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation) ) ネットワーク構造はDense BlockとUNetアーキテクチャで構成されています。このネットワークの最も単純なバージョンは、下向きに遷移する 2 つのダウンサンプリングパスと上向きに遷移する 2 つのアップサンプリングパスで構成されます。また、ダウンサンプリングパスの特徴マップをアップサンプリングパスの対応する特徴マップに接続するための 2 つの水平スキップ接続も含まれています。アップサンプリングパスとダウンサンプリングパスの接続パターンはまったく同じではありません。ダウンサンプリングパスでは、各密なブロックの外側にスキップスプライシングパスがあり、その結果、特徴マップの数が直線的に増加しますが、アップサンプリングパスでは、そのような操作はありません。 (もう一つ、このネットワークの略称は Dense Unet となりますが、Fully Dense UNet for 2D Sparse Photoacoustic Tomography Artifact Removal という光音響画像アーティファクト除去に関する論文があります。この記事を引用しているブログを多く見かけました論文内の図はセマンティックセグメンテーションについて説明していますが、これはまったく同じものではありません =_=||、自分で区別できるようにしてください。)

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

##FC-DenseNet (百層ティラミスネットワーク)

イノベーションポイント:

DenseNet と U-Net ネットワークの統合 (観点から)見てください、密な接続は残差構造よりも強力です)

Deeplab シリーズネットワークは、符号化および復号構造に基づいて提案された改良版です。2018 年、DeeplabV3 ネットワークは、 VOC2012 および Cityscapes データセット SOTA レベルに達する優れたパフォーマンス。 DeepLab シリーズには、V1、V2、V3、V3 の 4 つの論文があります。いくつかの論文の核となる内容を簡単に要約します:

1) DeepLabV1: 畳み込みニューラルネットワークと確率グラフモデルの融合: セグメンテーションと位置決めの精度を向上させる CNN CRF;

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要 2) DeepLabV2: ASPP (拡張空間ピラミッドプーリング); CNN CRF

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要 3 ) DeepLabV3: ASPP を改善し、1*1 コンボリューションとグローバル avg プールを追加し、カスケードおよび並列 atrous コンボリューションの効果を比較しました。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

#カスケードアトラスコンボリューション

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

Parallel Atrous Convolution (ASPP)

4) DeepLabV3: エンコードおよびデコードアーキテクチャのアイデアを追加し、デコーダモジュールを追加して DeepLabv3 を拡張し、深さ分離可能な畳み込みを ASPP とデコーダに適用します。モジュール; バックボーンとしての Xception を改良しました。

DeepLabV3

一般的に、DeepLab シリーズの主要な貢献: 拡張畳み込み、ASPP、CNN CRF (V1 のみ CRF を使用) V2 の場合、V3 と V3 は深いネットワークを通じて不鮮明なセグメンテーション境界の問題を解決するはずであり、その効果は CRF を追加するよりも優れています)

PSPNet（ピラミッドシーンの解析）ネットワーク) は、さまざまなエリアからのコンテキスト情報を集約することで、グローバルコンテキスト情報を利用するネットワークの機能を向上させます。 SPPNet では、ピラミッドプーリングによって生成されたさまざまなレベルの特徴マップが最終的に平坦化および連結されてから、分類のために完全に接続された層に送信され、画像分類に固定入力サイズを必要とする CNN の制限が排除されます。 PSPNet では、pooling-conv-upsample を使用し、次に結合して特徴マップを取得し、ラベル予測を実行します。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

PSPNet ネットワーク

イノベーションポイント: マルチスケールプーリング複雑なシーンを理解するために、グローバルな画像レベルの事前知識をより適切に活用するための中間アクティベーションマップを調整し、それらを階層的に接続して複数のスケールを組み合わせることで、複雑なシーンを理解するための統合を実現します。シャープネスの損失を防ぎながらアクティベートします。ネットワークは独立した Refine モジュールで構成されており、各 Refine モジュールは 3 つの主要モジュール、つまり Residual Convolutional Unit (RCU)、Multi-Resolution Fusion (MRF)、および Chain Residual Pooling (CRP) で構成されます。全体的な構造は U-Net に似ていますが、ジャンプ接続で新しい結合方法が設計されています (単純な連結ではありません)。個人的には、この構造は実際に独自のネットワーク設計のアイデアとして非常に適していると思います. 他の CV 問題で使用される CNN モジュールを多数追加できますし、全体のフレームワークとして U-Net を使用しても、その効果はそれほど悪くありません。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

イノベーションポイント: Refine モジュール1.3 ネットワーク構造の計算の複雑さを軽減する

セマンティックセグメンテーションネットワークの計算の複雑さを軽減するために、多くの作業が費やされています。深いネットワークの構造を単純化するためのいくつかの方法: テンソル分解、チャネル/ネットワークプルーニング、スパース接続。手動設計の代わりに NAS (Neural Architecture Search) を使用して、モジュールの構造やネットワーク全体を検索するものもありますが、当然ながら、AutoDL に必要な GPU リソースのせいで、多くの人が躊躇するでしょう。したがって、ランダム検索を使用してはるかに小さな ASPP モジュールを検索し、その小さなモジュールに基づいてネットワークモデル全体を構築する人もいます。

軽量ネットワーク設計は業界のコンセンサスです。モバイル展開の場合、各マシンに 2080ti を装備することは不可能です。さらに、消費電力、ストレージ、その他の問題により、ネットワークの普及と応用も制限されます。モデル。しかし、5Gが普及すれば、すべてのデータをクラウド上で処理できるようになり、非常に興味深いものになるでしょう。もちろん、短期的（10年後）に5Gの本格的な展開が実現可能かどうかは分かりません。

1.4 アテンションメカニズムに基づくネットワーク構造

アテンションメカニズムは、次のように定義できます。後続のレイヤー/特徴マップ情報を使用して、入力特徴マップ内で最も判断力のある (または顕著な) ものを選択して特定します。）一部。これは、単純に特徴マップに重み付けする方法と考えることができます (重みはネットワークを通じて計算されます)。重みのさまざまな機能に従って、チャネルアテンションメカニズム (CA) と空間アテンションメカニズム (PA) に分けることができます。。 FPA (Feature Pyramid Attendance) ネットワークは、アテンションメカニズムと空間ピラミッドを組み合わせて、拡張を使用せずにピクセルレベルのラベリングのための正確な特徴を抽出する、アテンションメカニズムに基づくセマンティックセグメンテーションネットワークです。畳み込みおよび人間が設計したデコーダネットワークです。

1.5 敵対的学習に基づくネットワーク構造

Goodfellow らは、2014 年に深い生成モデルを学習するための敵対的手法を提案しました。モデル: データの分布を捉える生成モデル G と、サンプルがトレーニングデータに由来する確率を推定する識別モデル D です。

# G は生成ネットワークであり、ランダムノイズ z (乱数) を受け取り、このノイズを通じて画像を生成します。

# D は識別ネットワークで、画像が正しいかどうかを決定します。本当じゃない"。入力パラメータは x (画像) で、出力 D(x) は x が実際の画像である確率を表します。1 の場合は 100% が実際の画像であることを意味し、出力は 0 です。本物ではありえません。

G のトレーニング手順は、D エラーの確率を最大化することです。任意の関数 G と D の空間 には、G がトレーニングデータの分布を再現し、D=0.5 となるような一意の解が存在することが証明できます。トレーニングプロセス中の生成ネットワーク G の目標は、判別ネットワーク D を欺くために実際の画像を生成しようとすることです。 D の目標は、G によって生成された偽の画像を本物の画像から区別しようとすることです。このように、GとDは動的な「ゲームプロセス」を構成しており、最終的な均衡点がナッシュ均衡点です。 G と D がニューラルネットワークによって定義されている場合、システム全体をバックプロパゲーションでトレーニングできます。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

GAN のネットワーク構造図GAN に触発されて、Luc らはセマンティックセグメンテーションネットワーク (G) と対立を訓練しました。ネットワーク (D)、敵対的ネットワークは、セグメンテーションマップをグランドトゥルースまたはセマンティックセグメンテーションネットワーク (G) から区別します。 G と D は引き続きゲームをプレイして学習し、その損失関数は次のように定義されます:

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

#GAN 損失関数

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

元の GAN の損失関数を確認する: GAN の損失関数は、ゼロサムゲームのアイデアを具体化しています。元の GAN の損失関数は次のとおりです。

ディープラーニング画像セグメンテーション: ネットワーク構造設計の概要

損失の計算位置はD(識別器)の出力であり、Dの出力は一般的に偽/真の判定であるため、全体の状況は次のようになります。バイナリクロスエントロピー関数とみなされます。 GAN の損失関数の形式から、トレーニングが 2 つの部分に分割されていることがわかります。

最初の部分は maxD 部分です。これは、トレーニングでは一般に、G (ジェネレーター) を変更せずに最初に D をトレーニングするためです。 D のトレーニングの目標は、偽/真を正しく区別することです。真/偽を表すために 1/0 を使用する場合、最初の項目 E については、入力が実際のデータからサンプリングされているため、D(x) が 1 に近づくことが期待されます。、これは最初のアイテムが大きいです。同様に、2 番目の項目 E 入力は G から生成されたデータをサンプリングするため、D(G(z)) が 0 に近づくことが期待されます。これは、2 番目の項目が再び大きくなることを意味します。つまり、この部分はトレーニングによって全体が大きくなるという期待であり、それがmaxDの意味です。この部分は D のパラメータのみを更新します。

2 番目の部分は D を変更せず (パラメーター更新なし) 維持し、G をトレーニングします。現時点では、2 番目の項目 E のみが役に立ちます。D を混乱させたいので、ここが重要です。 label は 1 に設定されます (偽であることがわかっているので、これは混乱と呼ばれます) D(G(z)) の出力が 1 に近いこと、つまり、この項が小さいほど良いことを望みます。 minGです。もちろん、弁別器はそう簡単に騙せるものではありませんので、このとき弁別器は比較的大きな誤差を出しますその誤差によって G が更新され、G はさらに良くなっていきます今回は騙しませんでしたので、できると思います次回はさらに頑張るだけです (

https://www.cnblogs.com/walter-xh/p/10051634.html から引用)。このとき、Gのパラメータのみが更新されます。

GAN を別の観点から見ると、識別器 (D) は特殊な損失関数 (従来の L1、L2、クロスエントロピーやその他の損失関数とは異なるニューラルネットワークで構成されます) に相当します。

また、GANは特殊な学習方法を持っており、勾配消失やモード崩壊などの問題を抱えていますが(現在は解決する方法があるようです)、その設計思想はまさに世界における偉大な発明です。ディープラーニングの時代。

1.6 概要

深層学習に基づく画像セマンティックセグメンテーションモデルのほとんどは、U-Net などのエンコーダー/デコーダーアーキテクチャに従っています。近年の研究結果では、拡張畳み込みと機能ピラミッドプーリングが U-Net スタイルのネットワークパフォーマンスを向上できることが示されています。セクション 2 では、これらの方法とその変形を医療画像のセグメンテーションにどのように適用できるかをまとめます。

2. 医療画像セグメンテーションにおけるネットワーク構造革新の応用

このセクションでは、2D/3D 医用画像セグメンテーションにおけるネットワーク構造革新の応用に関するいくつかの研究結果を紹介します。

2.1 モデル圧縮に基づくセグメンテーション手法

高解像度の 2D/3D 医療画像 (CT、MRI、病理組織画像など) のリアルタイム処理を実現するために、研究者たちは提案しています。さまざまな圧縮モデルメソッド。 Weng らは、NAS テクノロジーを U-Net ネットワークに適用し、CT、MRI、および超音波画像での臓器/腫瘍のセグメンテーション性能が向上した小規模ネットワークを取得しました。 Brugger 氏は、グループ正規化と Leaky-ReLU (リーキー ReLU 関数) を利用して U-Net アーキテクチャを再設計し、3D 医用画像セグメンテーションのためのネットワークのストレージ効率を向上させました。より少ないパラメータで拡張畳み込みモジュールを設計した人もいます。他のモデル圧縮方法には、重み量子化 (16 ビット、8 ビット、バイナリ量子化)、蒸留、枝刈りなどが含まれます。

2.2 符号化-復号化構造のセグメンテーション方法

Drozdal は、画像をセグメンテーションネットワークに入力する前に、単純な CNN を適用して元の入力画像を正規化し、画像のセグメンテーション精度を向上させる方法を提案しました。シングルトン顕微鏡画像セグメンテーション、肝臓 CT、前立腺 MRI。 Gu 氏は、バックボーンネットワークで拡張畳み込みを使用してコンテキスト情報を保持する方法を提案しました。 Vorontsov は、ROI のある画像を ROI のない画像に変換し (たとえば、腫瘍のある画像は腫瘍のない健康な画像に変換され)、その後モデルによって除去された腫瘍が新しい健康な画像に追加されるグラフツーグラフネットワークフレームワークを提案しました。 . 、オブジェクトの詳細な構造を取得します。 Zhou らは、U-Net ネットワークのスキップ接続再配線の方法を提案し、胸部低線量 CT スキャンでの結節のセグメンテーション、顕微鏡画像での核のセグメンテーション、腹部 CT スキャンでの肝臓のセグメンテーション、および結腸内視鏡検査でそれを実行し、パフォーマンスがテストされました。検査ビデオのポリープ分割タスクについて。 Goyal は DeepLabV3 をダーモスコピーのカラー画像セグメンテーションに適用して、皮膚病変領域を抽出しました。

2.3 注意メカニズムに基づくセグメンテーション手法

Nie は、ベースラインモデル (V-Net および FCN) よりも正確に前立腺をセグメンテーションできる注意モデルを提案しました。 SinHa は、MRI 画像における腹部臓器セグメンテーションのための多層注意メカニズムに基づくネットワークを提案しました。 Qin et al.は、3D 医療画像の詳細を保存するために拡張畳み込みモジュールを提案しました。注意メカニズムに基づいた血液画像のセグメンテーションに関する論文は他にもたくさんあります。

2.4 敵対的学習に基づくセグメンテーションネットワーク

Khosravan は、CT スキャンからの膵臓セグメンテーションのための敵対的トレーニングネットワークを提案しました。 Son は、網膜画像のセグメンテーションに敵対的生成ネットワークを使用しています。 Xue は、敵対的生成フレームワークのセグメンテーションネットワークとして完全畳み込みネットワークを使用して、MRI 画像から脳腫瘍をセグメント化します。医用画像のセグメンテーションの問題に GAN を適用して成功した論文は他にもあるため、一つずつ列挙することはしません。

2.5 RNN ベースのセグメンテーションモデル

リカレントニューラルネットワーク (RNN) は、主にシーケンスデータの処理に使用されます。長短期記憶ネットワーク (LSTM) は、RNN の改良版です。LSTM は、セルフループ（セルフループ）によりグラジエント流を長時間維持することが可能です。医用画像解析の分野では、RNN は画像シーケンスの時間依存性をモデル化するために使用されます。 Binらは、完全畳み込みニューラルネットワークとRNNを統合し、時間次元の情報をセグメンテーションタスクに組み込む画像シーケンスセグメンテーションアルゴリズムを提案した。 Gaoらは、CNNとLSTMを使用して脳MRIスライスシーケンスの時間的関係をモデル化し、4D画像のセグメンテーションパフォーマンスを向上させた。 Liらは、最初にU-Netを使用して初期セグメンテーション確率マップを取得し、次にLSTMを使用して3D CT画像から膵臓をセグメント化することで、セグメンテーションのパフォーマンスを向上させました。 RNN を医用画像のセグメンテーションに使用する論文は他にも多数あるため、一つずつ紹介することはしません。

2.6 概要

コンテンツのこの部分は主に医療画像セグメンテーションにおけるセグメンテーションアルゴリズムの適用に関するものであるため、革新的な点はそれほど多くありません。主にさまざまな形式の適用に関するものです ( CT または RGB、ピクセル範囲、画像解像度など) とさまざまな部分のデータの特性 (ノイズ、オブジェクトの形状など) を考慮して、入力データの形式と特性に適応させるために、さまざまなデータに合わせてクラシックネットワークを改善する必要があります。これにより、セグメンテーションタスクをより適切に完了できるようになります。ディープラーニングはブラックボックスですが、モデル全体の設計には従うべきルールがあり、最適なセグメンテーションパフォーマンスを達成するために、特定のセグメンテーション問題に基づいて、どのような戦略がどのような問題を解決し、どのような問題を引き起こすかを選択できます。