初心者に適したディープラーニングの 10,000 語のレビュー-AI-php.cn

論文: 深層学習の最近の進歩: 概要

初心者に適したディープラーニングの 10,000 語のレビュー

##論文のアドレス: https://arxiv. org /pdf/1807.08169v1.pdf

要約: ディープラーニングは、機械学習と人工知能研究の最新トレンドの 1 つです。これは、今日最も人気のある科学研究トレンドの 1 つでもあります。ディープラーニング手法は、コンピュータービジョンと機械学習に革命的な進歩をもたらしました。新しいディープラーニング技術は常に作成されており、最先端の機械学習や既存のディープラーニング技術さえも上回っています。近年、世界中でこの分野で多くの大きな進歩が遂げられています。ディープラーニングは急速に発展しているため、特に新人研究者にとってはその進歩を追うのが困難です。この記事では、近年のディープラーニングの進歩について簡単に説明します。

1. はじめに

「ディープラーニング」(DL) という用語は、1986 年に初めて機械学習 (ML) に導入され、その後導入されました。 2000 年に人工ニューラルネットワーク (ANN) で使用されました。深層学習手法は、複数の抽象化レベルでデータ特徴を学習するための複数の層で構成されています。 DL 手法を使用すると、コンピュータは比較的単純な概念を通じて複雑な概念を学習できます。人工ニューラルネットワーク (ANN) の場合、ディープラーニング (DL) (階層学習とも呼ばれる) は、ネットワーク内の集合的なアクティベーションを変換するために、複数の計算段階にわたってクレジットを正確に割り当てることを指します。複雑な機能を学習するには、複数の抽象化レベル、つまり、多くの隠れ層を備えた ANN などの非線形演算でディープアーキテクチャが使用されます。正確な言葉で要約すると、深層学習は、教師ありまたは教師なしの特徴学習、表現、分類、パターン認識に複数のレベルの非線形情報処理と抽象化を使用する機械学習のサブフィールドです。

ディープラーニング (表現学習) は、機械学習の分野または下位分野であり、最新のディープラーニング手法は 2006 年に開発されたとほとんどの人が信じています。この記事は最新のディープラーニング技術のレビューであり、主にこの分野に取り組もうとしている研究者に推奨されます。この記事では、DL の基本的な考え方、主な手法、最新の開発、および応用について説明します。

レビュー論文は、特に特定分野の新人研究者にとって非常に有益です。近い将来に大きな価値を持つ研究分野や関連応用分野の場合、最新の進捗状況をリアルタイムで追跡することは通常困難です。科学研究は、知識と教育がかつてないほど簡単に共有され、入手できるため、今日では魅力的な職業です。テクノロジー研究のトレンドに関する唯一の通常の想定は、あらゆる面で多くの改善が見られるということです。数年前の分野の概要は、今では時代遅れになっている可能性があります。

近年のディープラーニングの人気と推進を考慮して、ディープラーニングとニューラルネットワーク (NN) の概要と、最近のその主な進歩と主要な進歩について説明します。年。この記事が、この分野の多くの初心者研究者が最近の深層学習の研究と技術を包括的に理解し、正しい方法で研究を始めるのに役立つことを願っています。同時に、私たちはこの作品を通じて、この時代の DL および ANN のトップ研究者に敬意を表したいと考えています: Geoffrey Hinton (Hinton)、Juergen Schmidhuber (Schmidhuber)、Yann LeCun (LeCun)、Yoshua Bengio (Bengio)、その他多くの研究者研究者、その研究により現代の人工知能 (AI) が構築されました。また、DL および ML 研究における現在の最良の進歩を追跡するために、彼らの研究をフォローアップすることも重要です。

この論文では、まず過去の研究論文を簡単に説明し、深層学習のモデルと手法を検討します。次に、この分野における最近の進歩について説明します。深層学習 (DL) 手法、深層アーキテクチャ (つまり、ディープニューラルネットワーク (DNN))、および深層生成モデル (DGM) について説明し、その後、重要な正則化および最適化手法について説明します。さらに、2 つの短いセクションを使用して、オープンソース DL フレームワークと重要な DL アプリケーションを要約します。最後の 2 章「考察」と「結論」では、ディープラーニングの現状と将来について説明します。

2. 関連研究

ここ数年、深層学習に関するレビュー論文が数多く出版されています。これらは、DL 手法、方法論、その応用、および将来の研究の方向性を適切に説明しています。ここでは、ディープラーニングに関する優れたレビュー論文を簡単に紹介します。

Young et al. (2017) は、主に自然言語処理 (NLP) 向けの DL モデルとアーキテクチャについて説明しています。さまざまな NLP ドメインでの DL アプリケーションを実証し、DL モデルを比較し、起こり得る将来の傾向について説明します。

Zhang et al. (2017) は、フロントエンドおよびバックエンドの音声認識システム向けの現在の最良の深層学習技術について説明しています。

Zhu et al. (2017) は、DL リモートセンシング技術の最近の進歩をレビューしました。また、オープンソースの DL フレームワークやディープラーニングのその他の技術的な詳細についても説明します。

Wang et al. (2017) は、深層学習モデルの進化を時系列で説明しています。この短い記事では、DL 研究におけるモデルとその画期的な進歩を簡単に紹介します。この記事では、進化的アプローチを使用して深層学習の起源を理解し、ニューラルネットワークの最適化と今後の研究について説明します。

Goodfellow et al. (2016) は、ディープネットワークと生成モデルについて詳しく説明しており、機械学習 (ML) の基礎知識とディープアーキテクチャの長所と短所から始めて、レビューしました。近年のDLの研究開発とその応用例をまとめました。

LeCun et al. (2015) は、畳み込みニューラルネットワーク (CNN) とリカレントニューラルネットワーク (RNN) からの深層学習 (DL) モデルの概要を示しました。彼らは表現学習の観点から DL を説明し、DL 技術がどのように機能するか、さまざまなアプリケーションでうまく使用できるか、教師なし学習 (UL) に基づいて未来を予測する方法を学習できるかを示します。彼らはまた、参考文献における DL の大きな進歩についても指摘しています。

Schmidhuber (2015) は、CNN、RNN、および深層強化学習 (RL) からの深層学習の概要を説明しました。彼は、基本的な DL と NN の限界とそれらを改善するためのヒントを指摘しながら、シーケンス処理のための RNN を強調しています。

Nielsen (2015) は、コードと例を使用してニューラルネットワークの詳細を説明しています。また、ディープニューラルネットワークとディープラーニングについてもある程度説明しています。

Schmidhuber (2014) は、時系列ベースのニューラルネットワークの歴史と進歩、機械学習手法を使用した分類、およびニューラルネットワークでの深層学習の使用について説明しています。

Deng と Yu (2014) は、深層学習のカテゴリと技術、およびいくつかの分野での DL の応用について説明しています。

Bengio (2013) は、表現学習の観点、つまり教師ありネットワークと教師なしネットワーク、最適化およびトレーニングモデルの観点から DL アルゴリズムの概要を説明しています。彼は、大規模なモデルやデータのアルゴリズムのスケーリング、最適化の難しさの軽減、効率的なスケーリング方法の設計など、深層学習の多くの課題に焦点を当てています。

Bengio et al (2013) は、表現と特徴学習、つまり深層学習について説明しました。彼らは、アプリケーション、テクノロジー、課題の観点からさまざまなアプローチとモデルを探求します。

Deng (2011) は、情報処理および関連分野の観点から、深層構造学習とそのアーキテクチャの概要を提供します。

Arel et al. (2010) は、近年の DL テクノロジーの概要を説明しています。

Bengio (2009) はディープアーキテクチャ、つまり人工知能のニューラルネットワークと生成モデルについて説明しています。

ディープラーニング (DL) に関する最近の論文はすべて、複数の観点からディープラーニングの焦点について説明しています。これはDL研究者にとって非常に必要です。しかし、DLは現在急成長している分野です。最近の DL 概要文書の後、多くの新しい技術とアーキテクチャが提案されています。さらに、以前の論文ではさまざまな観点からそれが研究されています。私たちの文書は主に、この分野に不慣れな学習者や初心者を対象としています。この目的を達成するために、私たちは、新しい研究者やこの分野に興味を持つすべての人に、深層学習の基礎と明確な概念を提供するよう努めていきます。

3. 最近の開発

このセクションでは、機械学習と人工ニューラルネットワーク (ANN) から派生した最近の進歩について説明します。主要な深層学習 (DL) 手法である人工ニューラルネットワークは、深層学習の最も一般的に使用される形式です。

3.1 深層アーキテクチャの進化

人工ニューラルネットワーク (ANN) は大きな進歩を遂げ、他の深層モデルももたらしました。第一世代の人工ニューラルネットワークは、限られた単純な計算しか実行できない単純なパーセプトロンニューラル層で構成されていました。第 2 世代では、バックプロパゲーションを使用して、エラー率に基づいてニューロンの重みを更新します。その後、サポートベクターマシン (SVM) が台頭し、しばらくの間 ANN を追い越しました。バックプロパゲーションの制限を克服するために、学習を容易にする制限付きボルツマンマシン (RBM) が提案されました。このとき、フィードフォワードニューラルネットワーク (FNN)、畳み込みニューラルネットワーク (CNN)、リカレントニューラルネットワーク (RNN) などのほか、ディープビリーフネットワーク、オートエンコーダーなどの他のテクノロジーやニューラルネットワークも登場しました。それ以来、ANN はさまざまな目的に合わせてさまざまな面で改良され、設計されてきました。

Schmidhuber (2014)、Bengio (2009)、Deng と Yu (2014)、Goodfellow et al. (2016)、Wang et al. (2017) ディープニューラルネットワーク (DNN) ) 進化と歴史、ディープラーニング (DL) について詳しく概説します。ほとんどの場合、ディープアーキテクチャは単純なアーキテクチャの多層非線形反復であり、入力から非常に複雑な関数を取得できます。

4. ディープラーニングの手法

ディープニューラルネットワークは、教師あり学習において大きな成功を収めています。さらに、深層学習モデルは、教師なし学習、ハイブリッド学習、強化学習において大きな成功を収めています。

4.1 深層教師あり学習

教師あり学習は、データのラベル付け、分類器の分類、数値予測の際に適用されます。 LeCun et al. (2015) は、教師あり学習方法と深い構造の形成について合理的に説明しています。 Deng と Yu (2014) は、ディープスタックネットワーク (DSN) とその亜種など、教師ありハイブリッド学習のための多くのディープネットワークについて言及し、説明しました。 Schmidthuber (2014) の研究は、初期のニューラルネットワークから、畳み込みニューラルネットワーク (CNN)、リカレントニューラルネットワーク (RNN)、長期短期記憶 (LSTM) およびそれらの改良による最近の成功に至るまで、すべてのニューラルネットワークを対象としています。

4.2 深い教師なし学習

入力データにラベルがない場合、教師なし学習手法を適用してデータから特徴を抽出し、それらを分類したりマークしたりできます。。 LeCun et al. (2015) は、深層学習における教師なし学習の将来を予測しています。 Schmidthuber (2014) では、教師なし学習のためのニューラルネットワークについても説明しています。 Deng と Yu (2014) は、教師なし学習のためのディープアーキテクチャを簡単に紹介し、ディープオートエンコーダについて詳しく説明しました。

4.3 深層強化学習

強化学習では、報酬と罰のシステムを使用して、学習モデルの次のステップを予測します。これは主に、一般的な意思決定の問題を解決するためにゲームやロボットで使用されます。 Schmidthuber (2014) は、強化学習 (RL) におけるディープラーニングの進歩と、RL におけるディープフィードフォワードニューラルネットワーク (FNN) およびリカレントニューラルネットワーク (RNN) のアプリケーションについて説明しています。 Li (2017) は、深層強化学習 (DRL)、そのアーキテクチャ (Deep Q-Network、DQN など)、およびさまざまな分野でのそのアプリケーションについて説明しています。

Mnih et al. (2016) は、非同期勾配降下法を使用した DNN 最適化のための DRL フレームワークを提案しました。

van Hasselt et al. (2015) は、ディープニューラルネットワーク (DNN) を使用した DRL アーキテクチャを提案しました。

5. ディープニューラルネットワーク

このセクションでは、ディープニューラルネットワーク (DNN) とその最近の改良点と画期的な進歩について簡単に説明します。。ニューラルネットワークは人間の脳と同じように機能します。それらは主にニューロンと接続で構成されています。ディープニューラルネットワークというと、入力から特徴を抽出し、複雑な関数を計算するために使用できるかなりの数の隠れ層があると想定できます。 Bengio (2009) は、畳み込みニューラルネットワーク (CNN)、オートエンコーダー (AE) などの深く構造化されたニューラルネットワークとその亜種について説明しています。 Deng と Yu (2014) は、AE やその亜種などのいくつかのニューラルネットワークアーキテクチャについて詳しく説明しています。 Goodfellow et al. (2016) は、ディープフィードフォワードネットワーク、畳み込みネットワーク、リカレントネットワークとそれらの改良点を紹介し、技術的に説明しました。 Schmidhuber (2014) は、初期のニューラルネットワークから最近の成功したテクノロジーに至るまで、ニューラルネットワークの完全な歴史について言及しています。

5.1 ディープオートエンコーダー

オートエンコーダー (AE) は、出力が入力となるニューラルネットワーク (NN) です。 AE は生の入力を取得し、それを圧縮表現にエンコードしてから、それをデコードして入力を再構築します。ディープ AE では、低位の隠れ層が符号化に使用され、上位の隠れ層が復号化に使用され、誤差逆伝播がトレーニングに使用されます。

5.1.1 変分オートエンコーダ

変分オートエンコーダ (VAE) はデコードデバイスとしてカウントできます。 VAE は標準的なニューラルネットワーク上に構築されており、確率的勾配降下法を介してトレーニングできます (Doersch、2016)。

5.1.2 多層ノイズ除去オートエンコーダ

初期のオートエンコーダ (AE) では、エンコード層のサイズは小さくなっています。入力レイヤーよりも（狭い）次元。マルチレイヤーノイズ除去オートエンコーダー (SDAE) では、エンコード層は入力層よりも幅が広くなります (Deng および Yu、2014)。

5.1.3 変革的なオートエンコーダー

ディープオートエンコーダー (DAE) は変革的な、つまり抽出された特徴を持つことができます。多層非線形処理から学習者のニーズに応じて変更できます。変換オートエンコーダ (TAE) は、入力ベクトルとターゲット出力ベクトルの両方を使用して変換不変プロパティを適用し、コードを望ましい方向に導くことができます (Deng および Yu、2014)。

5.2 ディープ畳み込みニューラルネットワーク

畳み込みニューラルネットワーク (CNN) は、ローカル接続、重みの共有、プーリングという 4 つの基本的な考え方で構成されます。そして多層的な使用法。 CNN の最初の部分は畳み込み層とプーリング層で構成され、後半の部分は主に全結合層です。畳み込み層は特徴のローカル接続を検出し、プーリング層は同様の特徴を 1 つにマージします。 CNN は、畳み込み層で行列乗算の代わりに畳み込みを使用します。

Krizhevsky et al. (2012) は、深層学習 (DL) の主要なステップとなる、AlexNet としても知られる深層畳み込みニューラルネットワーク (CNN) アーキテクチャを提案しました。ネットワークは 5 つの畳み込み層と 3 つの完全接続層で構成されます。このアーキテクチャでは、畳み込み演算にグラフィックスプロセッシングユニット (GPU)、アクティベーション関数として修正線形関数 (ReLU)、およびオーバーフィッティングを軽減するドロップアウトを使用します。

Iandola et al. (2016) は、「SqueezeNet」と呼ばれる小規模な CNN アーキテクチャを提案しました。

Szegedy et al. (2014) は、Inception という名前のディープ CNN アーキテクチャを提案しました。 Dai et al. (2017) は、Inception-ResNet の改善を提案しました。

Redmon et al. (2015) は、均一かつリアルタイムの物体検出のための YOLO (You Only Look Once) と呼ばれる CNN アーキテクチャを提案しました。

Zeiler and Fergus (2013) は、CNN 内の活性化を視覚化する方法を提案しました。

Gehring et al. (2017) は、シーケンス間学習のための CNN アーキテクチャを提案しました。

Bansal et al. (2017) は、ピクセルを使用して表現する PixelNet を提案しました。

Goodfellow et al. (2016) では、CNN の基本的なアーキテクチャと考え方について説明しています。 Gu et al. (2015) は、CNN の最近の進歩、CNN の複数のバリアント、CNN のアーキテクチャ、正則化の方法と機能、さまざまな分野での応用についての優れた概要を提供しています。

5.2.1 ディープマックスプーリング畳み込みニューラルネットワーク

最大プーリング畳み込みニューラルネットワーク (MPCNN) は、特にデジタル画像処理において、主に畳み込みと最大プーリングで動作します。 MPCNN は通常、入力層のほかに 3 つの層で構成されます。畳み込み層は入力画像を取得して特徴マップを生成し、非線形活性化関数を適用します。最大プーリング層は画像をダウンサンプリングし、サブ領域の最大値を保持します。全結合層は線形乗算を実行します。ディープ MPCNN では、入力層の後に畳み込みとハイブリッドプーリングが定期的に使用され、その後に完全接続層が続きます。

5.2.2 非常に深い畳み込みニューラルネットワーク

Simonyan と Zisserman (2014) は、非常に深い畳み込みニューラルネットワークを提案しました。ネットワーク畳み込みニューラルネットワーク (VDCNN) アーキテクチャ。VGG Net とも呼ばれます。 VGG Net は、16 ～ 19 層の深さの非常に小さな畳み込みフィルターを使用します。 Conneau et al. (2016) は、小さな畳み込みとプーリングを使用したテキスト分類のための別の VDCNN アーキテクチャを提案しました。彼らは、この VDCNN アーキテクチャがテキスト処理で使用されるのは初めてであり、文字レベルで機能すると主張しています。このアーキテクチャは 29 の畳み込み層で構成されています。

5.3 ネットワークインネットワーク

Lin et al. (2013) は、Network In Network (NIN) を提案しました。 NIN は、従来の畳み込みニューラルネットワーク (CNN) の畳み込み層を、複雑な構造を持つマイクロニューラルネットワークに置き換えます。これは、完全に接続された層の代わりに、多層パーセプトロン (MLPConv) 処理マイクロニューラルネットワークとグローバル平均プーリング層を使用します。ディープ NIN アーキテクチャは、NIN 構造を複数重ね合わせて構成できます。

5.4 領域ベースの畳み込みニューラルネットワーク

Girshick et al. (2014) は、領域ベースの畳み込みニューラルネットワーク (R-CNN) を提案しました。 )、認識に領域を使用します。 R-CNN は領域を使用してオブジェクトの位置を特定し、セグメント化します。このアーキテクチャは、候補領域のコレクションを定義するクラス独立領域提案、領域から特徴を抽出する大規模畳み込みニューラルネットワーク (CNN)、およびクラス固有の線形サポートベクターマシン (SVM) のセットの 3 つのモジュールで構成されます。

5.4.1 高速 R-CNN

Girshick (2015) は、高速領域ベースの畳み込みネットワーク (高速) を提案しました。 R-CNN）。この方法では、R-CNN アーキテクチャを利用して結果を迅速に生成します。 Fast R-CNN は、畳み込み層とプーリング層、領域提案層、および一連の全結合層で構成されます。

5.4.2 より高速な R-CNN

Ren et al. (2015) は、より高速な領域ベースの R-CNN を提案しました。畳み込みニューラルネットワーク (Faster R-CNN)。リアルタイムのターゲット検出に領域提案ネットワーク (RPN) を使用します。 RPN は、領域提案を正確かつ効率的に生成できる完全畳み込みネットワークです (Ren et al., 2015)。

5.4.3 マスク R-CNN

He Kaiming et al. (2017) は、地域ベースのマスク R-CNN を提案しました。マスク畳み込みネットワーク (マスク R-CNN) インスタンスオブジェクトのセグメンテーション。マスク R-CNN は R-CNN のアーキテクチャを拡張し、ターゲットマスクを予測するために追加のブランチを使用します。

5.4.4 マルチエキスパート R-CNN

Lee et al. (2017) は、次の領域を提案しました。ベースのマルチエキスパート畳み込みニューラルネットワーク (ME R-CNN) は、Fast R-CNN アーキテクチャを利用します。 ME R-CNN は、選択的かつ網羅的な検索から関心領域 (RoI) を生成します。また、RoI ごとの単一ネットワークの代わりに、RoI ごとのマルチエキスパートネットワークも使用します。各エキスパートは、Fast R-CNN の完全に接続されたレイヤーを備えた同じアーキテクチャです。

5.5 ディープ残差ネットワーク

He et al. (2015) によって提案された残差ネットワーク (ResNet) は 152 層で構成されています。 ResNet はエラーが少なく、残差学習によるトレーニングが簡単です。 ResNet が深くなるほど、パフォーマンスが向上します。深層学習の分野では、ResNet は重要な進歩であると考えられています。

5.5.1 Resnet の Resnet

Targ et al. (2016) Resnet の Resnet (RiR) ResNets と標準の畳み込みニューラルネットワーク (CNN) を組み合わせて、深い 2 ストリームアーキテクチャを構築することを提案しました。

5.5.2 ResNeXt

##Xie et al. (2016) は、ResNeXt アーキテクチャを提案しました。 ResNext は ResNets を活用して、分割、変換、マージ戦略を再利用します。

5.6 カプセルネットワーク

Sabour et al. (2017) は、2 つの畳み込み層と A から構成されるカプセルネットワーク (CapsNet) を提案しました。完全に接続された層アーキテクチャ。 CapsNet には通常、複数の畳み込み層が含まれており、最後にカプセル層が付いています。 CapsNet は、畳み込みニューラルネットワークの制限に基づいていると言われているため、深層学習における最新のブレークスルーの 1 つと考えられています。ニューロンの代わりにカプセルの層を使用します。アクティブ化された下位レベルのカプセルが予測を行い、複数の予測に同意した後、上位レベルのカプセルがアクティブになります。プロトコルルーティングメカニズムは、これらのカプセル層内で使用されます。ヒントンは後に、期待値最大化 (EM) アルゴリズムを使用して CapsNet を改良した EM ルーティングを提案しました。

5.7 リカレントニューラルネットワーク

リカレントニューラルネットワーク (RNN) は、音声、テキスト、生成されたシーケンスなどのシーケンス入力に適しています。時間内に展開されると、繰り返される隠れユニットは、同じ重みを持つ非常に深いフィードフォワードネットワークと考えることができます。 RNN は、勾配の消失と次元の爆発の問題により、トレーニングが困難でした。この問題を解決するために、その後多くの人が改良を提案しました。

Goodfellow et al. (2016) は、リカレントおよびリカレントニューラルネットワークとアーキテクチャ、および関連するゲートネットワークとメモリネットワークの詳細を詳細に分析しています。

Karpathy et al. (2015) は、文字レベルの言語モデルを使用して予測を分析および視覚化し、トレーニングのダイナミクス、RNN のエラータイプとそのバリアント (LSTM など) などを特徴付けます。

J´ozefowicz et al (2016) は、RNN モデルと言語モデルの限界を調査しています。

5.7.1 RNN-EM

Peng と Yao (2015) は、外部メモリ (RNN- EM) RNN の記憶能力を向上させます。これらは、他の RNN よりも優れた言語理解において最先端のパフォーマンスを達成すると主張しています。

5.7.2 GF-RNN

Chung et al. (2015) は、ゲート型フィードバックリカレントニューラルネットワーク ( GF-RNN) は、グローバルゲーティングユニットを使用して複数のリカレントレイヤーをオーバーレイすることにより、標準 RNN を拡張します。

5.7.3 CRF-RNN

Zheng et al. (2015) は、リカレントニューラルとして条件付きランダムフィールドを提案しました。ネットワーク (CRF-RNN) は、畳み込みニューラルネットワーク (CNN) と条件付きランダムフィールド (CRF) を組み合わせて、確率的グラフィカルモデリングを実現します。

5.7.4 Quasi-RNN

Bradbury et al. (2016) は、神経シーケンスモデリングの方法を提案しました。そして、時間ステップに沿った準リカレントニューラルネットワーク (QRNN) の並列適用。

5.8 メモリネットワーク

Weston et al. (2014) は、質問応答メモリネットワーク (QA) を提案しました。メモリネットワークは、メモリ、入力特徴マッピング、一般化、出力特徴マッピング、および応答で構成されます。

5.8.1 動的メモリネットワーク

Kumar et al. (2015) は、QA 用の動的メモリネットワークを提案しました。タスクメモリネットワーク (DMN)。 DMN には、入力、質問、エピソード記憶、出力の 4 つのモジュールがあります。

5.9 拡張ニューラルネットワーク

Olah と Carter (2016) は、注意と拡張リカレントニューラルネットワーク、つまりニューラルグラフ NTM (NTM) をうまく示しています。、アテンションインターフェイス、ニューラルエンコーダー、適応型計算時間。ニューラルネットワークは、標準的なニューラルネットワークアーキテクチャだけでなく、ロジスティック関数などの追加プロパティを使用して強化されることがよくあります。

5.9.1 ニューラルチューリングマシン

Graves et al. (2014) は、ニューラルチューリングマシン (NTM) を提案しました。 ) アーキテクチャはニューラルネットワークコントローラーとメモリバンクで構成されます。 NTM は通常、RNN と外部メモリバンクを組み合わせます。

5.9.2 ニューラル GPU

Kaiser と Sutskever (2015) は、NTM 並列の問題を解決するニューラル GPU を提案しました。問題。

5.9.3 ニューラルランダムアクセスマシン

Kurach et al. (2015) はニューラルランダムアクセスマシンを提案しました。外部の可変サイズランダムアクセスメモリを使用します。

5.9.4 ニューラルプログラマー

Neelakantan et al. (2015) は、ニューラルプログラマーである強化ニューラルを提案しました。算術および論理関数を備えたネットワーク。

5.9.5 ニューラルプログラマインタプリタ

Reed と de Freitas (2015) は、次のことを学習できることを提案しました。ニューラルプログラマインタプリタ (NPI)。 NPI には、定期的なカーネル、プログラムメモリ、およびドメイン固有のエンコーダが含まれます。

5.10 長短期記憶ネットワーク

Hochreiter と Schmidhuber (1997) は、長短期記憶 (LSTM) を提案しました。リカレントニューラルネットワーク (RNN) のエラー逆流問題。 LSTM はリカレントネットワークと勾配ベースの学習アルゴリズムであり、勾配を流すことができるようにするための自己ループ生成パスが導入されています。

Greff et al. (2017) は、音声認識、手書き認識、ポリフォニック音楽モデリングのそれぞれについて、標準 LSTM と 8 つの LSTM バリアントの大規模分析を実行しました。彼らは、LSTM の 8 つのバリアントには大きな改善が見られず、標準の LSTM だけが良好なパフォーマンスを示したと主張しました。

Shi et al. (2016b) は、特徴マップ学習表現のための LSTM ユニットのスタックであるディープ長期短期記憶ネットワーク (DLSTM) を提案しました。

5.10.1 バッチ正規化 LSTM

Cooijmans et al. (2016) はバッチ正規化 LSTM を提案しました。正規化 LSTM (BN-LSTM)。リカレントニューラルネットワークの隠れた状態に対してバッチ正規化を使用します。

5.10.2 ピクセル RNN

van den Oord et al. (2016b) は、ピクセルリカレントニューラルネットワーク (ピクセル -RNN)、12 の 2 次元 LSTM レイヤーで構成されます。

5.10.3 双方向 LSTM

#W¨ollmer et al. (2010) は、双方向 LSTM (BLSTM) を提案しました。リカレントネットワークは、コンテキスト依存のキーワード検出のためにダイナミックベイジアンネットワーク (DBN) とともに使用されます。

5.10.4 変分型 bi-LSTM

Shabanian et al. (2017) は変分型 bi-LSTM を提案しました(変分 Bi-LSTM)、双方向 LSTM アーキテクチャの変種です。変分 Bi-LSTM は、変分オートエンコーダ (VAE) を使用して、LSTM 間の情報交換チャネルを作成し、より良い表現を学習します。

5.11 Google Neural Machine Translation

Wu et al. (2016) は、Google Neural Machine Translation (GNMT) と呼ばれる自動翻訳システムを提案しました。このシステムは、共通のシーケンス間学習フレームワークに従って、エンコーダーネットワーク、デコーダーネットワーク、およびアテンションネットワークを組み合わせています。

5.12 フェーダーネットワーク

Lample et al. (2017) は、新しいエンコーダー/デコーダーアーキテクチャであるフェーダーネットワークを提案しました。属性値を変更することでリアルな入力画像が変化します。

5.13 ハイパーネットワーク

Ha et al. (2016) によって提案されたハイパーネットワークは、静的ハイパーネットワーク畳み込みネットワークなどの他のニューラルネットワークの重みを、リカレントの動的ハイパーネットワークに対して生成します。ネットワーク。

Deutsch(2018) ハイパーネットワークを使用したニューラルネットワークの生成。

5.14 ハイウェイネットワーク

Srivastava et al. (2015) は、ゲート付きユニット管理情報を使用して学習するハイウェイネットワークを提案しました。複数のレベルにわたる情報の流れは、情報ハイウェイと呼ばれます。

5.14.1 リカレントハイウェイネットワーク

Zilly et al. (2017) は、リカレントハイウェイネットワークを提案しました。 RHN)、長短期記憶 (LSTM) アーキテクチャを拡張します。 RHN は、定期的な遷移で高速道路レイヤーを使用します。

5.15 Highway LSTM RNN

Zhang et al. (2016) は、High-Long Short-Term Memory (HLSTM) RNN を提案しました。隣接する層のメモリユニット間の閉じた方向性接続 (つまり、ハイウェイ) を備えた深い LSTM ネットワーク。

5.16 長期リカレント CNN

Donahue et al. (2014) は、長期リカレント畳み込みネットワーク (LRCN) を提案しました。入力に CNN を使用し、LSTM を使用して再帰シーケンスモデリングを実行し、予測を生成します。

5.17 ディープニューラル SVM

Zhang et al. (2015) は、サポートベクターマシンを使用するディープニューラル SVM (DNSVM) を提案しました (サポートディープニューラルネットワーク (DNN) 分類の最上位レイヤーとしてのベクターマシン (SVM)。

5.18 畳み込み残差メモリネットワーク

Moniz と Pal (2016) は、メモリメカニズムを組み合わせた畳み込み残差メモリネットワークを提案しました。畳み込みニューラルネットワーク (CNN)。長期短期記憶メカニズムを使用して、畳み込み残差ネットワークを強化します。

5.19 フラクタルネットワーク

## Larsson et al. (2016) は、残差ネットワークの代替としてフラクタルネットワーク FractalNet を提案しました。彼らは、残余学習なしで超ディープニューラルネットワークをトレーニングできると主張しています。フラクタルは、単純な展開ルールによって生成される繰り返しアーキテクチャです。

5.20 WaveNet

van den Oord et al. (2016) は、生のオーディオを生成するためのディープニューラルネットワークである WaveNet を提案しました。 WaveNet は、出力用の一連の畳み込み層とソフトマックス分散層で構成されます。

Rethage et al. (2017) は、音声ノイズ除去のための WaveNet モデルを提案しました。

5.21 ポインターネットワーク

Vinyals et al. (2017) は、「The Softmax」と呼ばれる方法を使用してポインターネットワーク (Ptr-Nets) を提案しました。「ポインタ」の確率分布は、変数辞書を表現する問題を解決するために使用されます。

6. 深い生成モデル

このセクションでは、同様の複数の抽象化レイヤーとプレゼンテーションレイヤーを使用する他の深いアーキテクチャについて簡単に説明します。ディープ生成モデル (DGM) として知られています。 Bengio (2009) は、ボルツマンマシン (BM) や制限付きボルツマンマシン (RBM) などのディープアーキテクチャとそのバリアントについて説明しています。

Goodfellow et al. (2016) は、制限付きおよび制限なしのボルツマンマシンとそのバリアント、ディープボルツマンマシン、ディープビリーフネットワーク (DBN)、有向生成ネットワークなどの深い生成モデルを詳細に説明しています。生成ランダムネットワークなど。

Maaløe et al. (2016) は、補助変数を使用して深い生成モデルを拡張した、補助的な深い生成モデルを提案しました。補助変数は、ランダム層とスキップ接続を使用して変分分布を生成します。

Rezende et al. (2016) は、深い生成モデルのワンショット一般化を開発しました。

6.1 ボルツマンマシン

ボルツマンマシンは、最尤原理研究を使用して任意の確率分布を学習するためのコネクショニスト手法です。

6.2 制限付きボルツマンマシン

制限付きボルツマンマシン (RBM) はマルコフです。ランダムな隠れユニットの層を含む特別なタイプのランダムフィールドです。、つまり潜在変数と、観察可能な変数の層です。

Hinton and Salakhutdinov (2011) は、文書処理に制限付きボルツマンマシン (RBM) を利用した深層生成モデルを提案しました。

6.3 Deep Belief Networks

Deep Belief Networks (DBN) には、複数の基礎となるバイナリまたは実数の変数層があり、モデルを生成します。

Ranzato et al. (2011) は、深い信念ネットワーク (DBN) を使用して、画像認識のための深い生成モデルを確立しました。

6.4 ディープランバーティアンネットワーク

Tang et al. (2012) は、マルチレベルの生成ネットワークであるディープランバーティアンネットワーク (DLN) を提案しました。基礎となる変数がアルベド、表面法線、および光源であるモデル。 DLNis は、ランバート反射率とガウス制限ボルツマンマシンおよび深い信念ネットワークを組み合わせたものです。

6.5 敵対的生成ネットワーク

Goodfellow et al. (2014) は、生成モデルを評価するための敵対的手順を渡すための敵対的生成ネット (GAN) を提案しました。。 GAN アーキテクチャは、敵対者に対する生成モデル (つまり、データ分布の学習モデルまたは識別モデル) で構成されます。 Mao et al. (2016)、Kim et al. (2017) は GAN のさらなる改善を提案しました。

Salimans et al. (2016) は、GAN をトレーニングするためのいくつかの方法を提案しました。

6.5.1 ラプラシアン敵対的生成ネットワーク

Denton et al. (2015) は、ディープ生成モデル ( DGM) は、ラプラシアン敵対的生成ネットワーク (LAPGAN) と呼ばれ、敵対的生成ネットワーク (GAN) アプローチを使用します。このモデルは、ラプラシアンピラミッドフレームワークの畳み込みネットワークも使用します。

6.6 リカレントサポートベクターマシン

Shi et al. (2016a) は、リカレントニューラルネットワークを使用したリカレントサポートベクターマシン (RSVM) を提案しました。 ( RNN) は入力シーケンスから特徴を抽出し、標準サポートベクターマシン (SVM) を使用してシーケンスレベルのターゲット認識を行います。

7. トレーニングと最適化のテクニック

このセクションでは、ディープニューラルネットワークの正則化と最適化のための主要なテクニックのいくつかについて簡単に説明します。 (DNN)。

7.1 Dropout

Srivastava et al. (2014) は、ニューラルネットワークの過学習を防ぐために Dropout を提案しました。ドロップアウトは、隠れユニットにノイズを追加することによるニューラルネットワークモデルの平均正則化手法です。トレーニング中に、ニューラルネットワークからユニットと接続をランダムに描画します。ドロップアウトは、RBM (Srivastava et al., 2014) などのグラフィカルモデルまたは任意のタイプのニューラルネットワークで使用できます。 Dropout に関して最近提案された改良点は、Fraternal Dropout for Recurrent Neural Networks (RNN) です。

7.2 Maxout

Goodfellow et al. (2013) は、Dropout の新しい活性化関数である Maxout を提案しました。 Maxout の出力は入力セットの最大値であり、Dropout のモデル平均化に役立ちます。

7.3 Zoneout

Krueger et al. (2016) は、リカレントニューラルネットワーク (RNN) の正則化手法である Zoneout を提案しました。 Zoneout は、Dropout と同様に、トレーニング中にノイズをランダムに使用しますが、非表示のユニットは破棄されずに保持されます。

7.4 深層残差学習

He et al. (2015) は、低トレーニング Error ResNet と呼ばれる深層残差学習フレームワークを提案しました。

7.5 バッチ正規化

Ioffe と Szegedy (2015) は、内部共変量シフトを削減することによるバッチ正規化を提案し、ディープニューラルネットワークトレーニングを高速化する方法を提案しました。 Ioffe (2017) は、以前の方法を拡張したバッチ正規化を提案しました。

7.6 蒸留

Hinton et al. (2015) は、高度に正規化されたモデル (つまり、ニューラルネットワーク) のコレクションから知識を変換することを提案しました。小さなモデルを圧縮するためのメソッドに変換します。

7.7 層正規化

Ba et al. (2016) は、特に RNN のディープニューラルネットワーク向けの層正規化を提案しました。バッチ正規化の制限。

8. ディープラーニングフレームワーク

ディープラーニングに利用できるオープンソースライブラリとフレームワークが多数あります。それらのほとんどは、Python プログラミング言語用に構築されています。 Theano、Tensorflow、PyTorch、PyBrain、Caffe、Blocks and Fuel、CuDNN、Honk、ChainerCV、PyLearn2、Chainer、トーチなど。

9. ディープラーニングのアプリケーション

このセクションでは、ディープラーニングの最近の傑出したアプリケーションのいくつかについて簡単に説明します。深層学習 (DL) の始まり以来、DL 手法は教師あり学習、教師なし学習、半教師あり学習、または強化学習の形式でさまざまな分野で広く使用されてきました。分類および検出タスクから始まった DL アプリケーションは、あらゆるドメインに急速に拡大しています。

例:

画像分類と認識

ビデオ分類

シーケンス生成

欠陥分類

テキスト、音声、画像およびビデオの処理

テキスト分類

音声処理

音声認識および音声言語理解

Text-to -音声生成

クエリ分類

文分類

文モデリング

字句処理

事前選択

ドキュメントと文章の処理

画像テキスト説明の生成

フォトスタイル転送

自然画像マニホールド

画像カラーリング

画像 Q&A

テクスチャ付きおよび様式化された画像の生成

ビジュアルおよびテキスト Q&A

視覚認識と説明

オブジェクト認識

ドキュメント処理

人物アクションの合成と編集

歌の合成

アイデンティティ認識

顔認識と検証

ビデオアクション認識

人間のアクション認識

アクション認識

モーションキャプチャシーケンスの分類と視覚化

手書きの生成と予測

自動化と機械翻訳

固有表現の認識

モバイルビジョン

会話型エージェント

遺伝子変異の呼び出し

がん検出

X線CT再構成

発作予測

ハードウェアアクセラレーション

ロボット

など。

Deng と Yu (2014) は、音声処理、情報検索、オブジェクト認識、コンピュータビジョン、マルチモーダル、マルチタスク学習などの分野における DL アプリケーションの詳細なリストを提供しています。

深層強化学習 (DRL) を使用してゲームをマスターすることが、今日の話題になっています。時々、DNN と DRL を使用して、わずか数時間のトレーニングから戦略やその他のゲームで人間の世界チャンピオンやチェスのグランドマスターに勝つ AI ロボットが作成されます。たとえば、囲碁の AlphaGo や AlphaGo Zero です。

10. ディスカッション

ディープラーニングは多くの分野で大きな成功を収めていますが、その道のりはまだ長いです。改善すべき点はまだたくさんあります。制限に関しては、かなりの数の例があります。例: Nguyen らは、ディープニューラルネットワーク (DNN) が画像を認識する際に簡単に騙されてしまうことを示しました。 Yosinskiらによって提案された学習された特徴の伝達可能性など、他の問題もあります。 Huangらは、ニューラルネットワーク攻撃を防御するためのアーキテクチャを提案し、これらの攻撃を防御するには将来の研究が必要であると主張した。 Zhang らは、深層学習モデルを理解するための実験フレームワークを提案し、深層学習を理解するには再考と一般化が必要であると考えました。

Marcus は、2018 年にディープラーニング (DL) の役割、制限、性質について重要なレビューを提供しました。同氏は、より多くのデータを必要とする、容量が限られている、階層構造を扱えない、オープンな推論を実行できない、完全に透明化できない、事前知識と統合できない、原因と結果を区別できないなど、DL 手法の限界を強く指摘しました。同氏はまた、DL は安定した世界を前提としており、近似的な方法で実装され、設計が難しく、過度に宣伝する潜在的なリスクがあることにも言及しました。マーカス氏は、DL を再概念化し、教師なし学習、記号操作、ハイブリッドモデルの可能性を模索し、認知科学と心理学から洞察を得て、より大胆な挑戦を行う必要があると考えています。

11. 結論

ディープラーニング (DL) はこれまで以上に急速に世界を進歩させていますが、価値のある側面はまだたくさんあります。勉強する。私たちは深層学習、つまり機械をどのように賢くするか、人間に近づくか、人間よりも賢くすることができるか、あるいは人間と同じように学習できるのか、まだ完全には理解していません。 DLはテクノロジーをあらゆるものに応用しながら、多くの課題を解決してきました。しかし人類は依然として多くの問題に直面しており、飢餓や食糧危機、癌やその他の致命的な病気で依然として亡くなっている人々がいます。私たちは、ディープラーニングと人工知能が、最も困難な科学研究を実施することによって、人間の生活の質の向上にさらに専念することを願っています。最後になりましたが、私たちの世界がより良い場所になりますように。

以上が初心者に適したディープラーニングの 10,000 語のレビューの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。