視覚タスク (画像分類など) の深層学習モデルは、通常、単一の視覚領域 (自然画像やコンピューター生成画像など) のデータを使用してエンドツーエンドでトレーニングされます。
一般に、複数のフィールドのビジュアル タスクを完了するアプリケーションは、異なるフィールド間でデータを共有せずに、個別のフィールドごとに複数のモデルを構築し、それらを独立してトレーニングする必要があります。推論時に、それぞれモデルはドメイン固有の入力データを処理します。
たとえ異なる分野を指向していても、これらのモデル間の初期層のいくつかの機能は類似しているため、これらのモデルの共同トレーニングはより効率的です。これにより、遅延と消費電力が削減され、各モデル パラメーターを保存するためのメモリ コストが削減されます。このアプローチはマルチドメイン学習 (MDL) と呼ばれます。
さらに、MDL モデルは単一ドメイン モデルより優れている場合もあります。1 つのドメインで追加のトレーニングを行うと、別のドメインのモデルのパフォーマンスが向上します。これは「前方知識」と呼ばれます。 「伝達」ですが、トレーニング方法と特定のドメインの組み合わせによっては、マイナスの知識伝達が生じる可能性もあります。 MDL に関するこれまでの研究では、クロスドメイン共同学習タスクの有効性が実証されていますが、手作業で作成されたモデル アーキテクチャが含まれているため、他のタスクに適用すると非効率的になります。
紙のリンク: https://arxiv.org/pdf/2010.04904.pdf
#この問題を解決するために、Google の研究者は、「オンデバイス マルチドメイン視覚分類のためのマルチパス ニューラル ネットワーク」という記事で、一般的な MDL モデルを提案しました。
この記事では、このモデルが効果的に高精度を達成し、否定的な知識伝達を削減し、肯定的な知識伝達を強化する方法を学習し、さまざまな特定分野の困難に対処できると述べています。モデルを効果的に最適化できます。
この目的を達成するために、研究者らは、統合モデルを確立するためのマルチパス ニューラル アーキテクチャ検索 (MPNAS) 手法を提案しました。異種ネットワーク アーキテクチャを使用します。
この方法は、効率的な神経構造検索 (NAS) 方法を単一パス検索からマルチパス検索に拡張して、各フィールドの最適なパスを共同で見つけます。また、Adaptive Balanced Domain Prioritization (ABDP) と呼ばれる新しい損失関数も導入されており、ドメイン固有の問題に適応してモデルを効率的にトレーニングできるようになります。結果として得られる MPNAS 方式は、効率的でスケーラブルです。
新しいモデルは、パフォーマンスを低下させることなく維持しながら、単一ドメイン手法と比較して、モデル サイズと FLOPS をそれぞれ 78% と 32% 削減します。
マルチパス神経構造検索肯定的な知識の伝達を促進し、否定的な知識の伝達を回避するために、従来の解決策は、すべてのドメインが共有する ほとんどのレイヤーは、各ドメインの共有特徴を学習し (特徴抽出と呼ばれます)、その上にドメイン固有のレイヤーをいくつか構築します。ただし、この特徴抽出方法では、特性が大きく異なる領域(自然画像と芸術的な絵画のオブジェクトなど)を扱うことができません。一方、各 MDL モデルに対して統一された異種構造を構築するには時間がかかり、ドメイン固有の知識が必要です。
マルチパス ニューラル検索アーキテクチャ フレームワークNAS はディープ ラーニングを自動的に設計するための強力なパラダイムですアーキテクチャ 。これは、最終モデルの一部となる可能性のあるさまざまな潜在的な構成要素で構成される検索空間を定義します。
検索アルゴリズムは、分類精度などのモデル目標を最適化するために、検索空間から最適な候補アーキテクチャを見つけます。 TuNAS などの最近の NAS 方式は、エンドツーエンドのパス サンプリングを使用することで検索効率を向上させます。
TuNAS からインスピレーションを受け、MPNAS は、検索とトレーニングの 2 つの段階で MDL モデル アーキテクチャを確立しました。
検索フェーズでは、各ドメインの最適なパスを共同で見つけるために、MPNAS は各ドメインに個別の強化学習 (RL) コントローラーを作成します。これは、スーパー ネットワーク (つまり、検索によって定義されたもの) から始まります。 space 候補ノード間のすべての可能なサブネットワークのスーパーセットからのエンドツーエンド パス (入力層から出力層まで) をサンプルします。
複数の反復にわたって、すべての RL コントローラーはパスを更新して、すべての領域で RL 報酬を最適化します。検索フェーズの最後に、各ドメインのサブネットワークを取得します。最後に、次の図に示すように、すべてのサブネットワークが結合されて、MDL モデルの異種構造が作成されます。
各ドメインのサブネットワークは独立して検索されるため、コンポーネントは複数で共有できます。ドメイン (つまり、濃い灰色のノード)、単一のドメインで使用されている (つまり、明るい灰色のノード)、またはどのサブネットワークでも使用されていない (つまり、ポイント ノード)。
各ドメインのパスは、検索プロセス中に任意のレイヤーをスキップすることもできます。サブネットワークはパフォーマンスを最適化する方法で途中でどのブロックを使用するかを自由に選択できるため、出力ネットワークは異種混合で効率的です。
次の図は、Visual Domain Decathlon の 2 つの領域の検索アーキテクチャを示しています。
Visual Domain Decathlon は、CVPR 2017 の PASCAL in Detail Workshop Challenge の一部としてテストされました。多くの異なる視覚領域を処理 (または活用) する視覚認識アルゴリズムの能力を向上させます。見てわかるように、これら 2 つの関連性の高いドメイン (1 つは赤、もう 1 つは緑) のサブネットワークは、重複するパスから構成要素の大部分を共有していますが、それらの間にはまだ違いがあります。
#図の赤と緑のパスは、それぞれ ImageNet と記述可能なテクスチャのサブネットワークを表し、濃いピンクのノードは共有ブロックを表します複数のドメインによる。薄ピンクのノードは、各パスで使用されるブロックを表します。図中の「dwb」ブロックは、dwbottleneck ブロックを表します。図のゼロ ブロックは、サブネットがブロックをスキップすることを示します。次の図は、上記の 2 つの領域におけるパスの類似性を示しています。類似性は、各ドメインのサブネット間の Jaccard 類似性スコアによって測定されます。値が高いほど、パスがより類似していることを意味します。
図は、10 個のドメインのパス間の Jaccard 類似性スコアの混同行列を示しています。スコアの範囲は 0 ~ 1 です。スコアが大きいほど、2 つのパスが共有するノードの数が多くなります。
異種マルチドメイン モデルのトレーニング第 2 フェーズでは、MPNAS によって生成されたモデルがすべてのドメインに対して最初からトレーニングされます。これを行うには、すべてのドメインに対して統一された目的関数を定義する必要があります。さまざまなドメインを適切に処理するために、研究者らは、学習プロセス全体を調整してドメイン間の損失のバランスをとる、適応型バランスドメイン優先順位付け (ABDP) と呼ばれるアルゴリズムを設計しました。以下に、さまざまな設定でトレーニングされたモデルの精度、モデル サイズ、FLOPS を示します。 MPNAS を他の 3 つの方法と比較します。
ドメイン非依存の NAS: モデルはドメインごとに個別に検索され、トレーニングされます。
単一パス マルチヘッド: 事前トレーニングされたモデルをすべてのドメインの共有バックボーンとして使用し、ドメインごとに個別の分類ヘッドを使用します。
マルチヘッド NAS: ドメインごとに個別の分類ヘッドを使用して、すべてのドメインの統合バックボーン アーキテクチャを検索します。
この結果から、NAS ではドメインごとに一連のモデルを構築する必要があり、その結果、大規模なモデルが必要になることがわかります。シングルパス マルチヘッドおよびマルチヘッド NAS はモデルのサイズと FLOPS を大幅に削減できますが、ドメインに同じバックボーンの共有を強制すると、負の知識伝達が発生し、全体的な精度が低下します。
対照的に、MPNAS は、高い全体精度を維持しながら、小規模で効率的なモデルを構築できます。 MPNAS の平均精度は、このモデルがアクティブな知識の伝達を実現できるため、ドメインに依存しない NAS 手法よりも 1.9% も高くなっています。以下の図は、これらの手法のドメインごとのトップ 1 の精度を比較しています。
評価では、検索およびトレーニング段階の一部として ABDP を使用することで、トップ- 1 精度は 69.96% から 71.78% に増加しました (増分: 1.81%)。
MPNAS は、データの不均衡、ドメインの多様性、ネガティブな移行、MDL で可能なパラメータ共有戦略のドメインの可用性を解決するための異種ネットワークを構築することです。効率的なソリューションです。スケーラビリティと広い検索スペースを実現します。 MobileNet のような検索スペースを使用することにより、生成されたモデルもモバイル対応になります。既存の検索アルゴリズムと互換性のないタスクについては、研究者らはマルチタスク学習用に MPNAS の拡張を続けており、MPNAS を使用して統合マルチドメイン モデルを構築したいと考えています。
以上がマルチパス、マルチドメイン、すべてを網羅! Google AI がマルチドメイン学習一般モデル MDL をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。