論文: 深層学習の最近の進歩: 概要
##論文のアドレス: https://arxiv. org /pdf/1807.08169v1.pdf 要約: ディープ ラーニングは、機械学習と人工知能研究の最新トレンドの 1 つです。これは、今日最も人気のある科学研究トレンドの 1 つでもあります。ディープラーニング手法は、コンピュータービジョンと機械学習に革命的な進歩をもたらしました。新しいディープ ラーニング技術は常に作成されており、最先端の機械学習や既存のディープ ラーニング技術さえも上回っています。近年、世界中でこの分野で多くの大きな進歩が遂げられています。ディープラーニングは急速に発展しているため、特に新人研究者にとってはその進歩を追うのが困難です。この記事では、近年のディープラーニングの進歩について簡単に説明します。 1. はじめに 「ディープ ラーニング」(DL) という用語は、1986 年に初めて機械学習 (ML) に導入され、その後導入されました。 2000 年に人工ニューラル ネットワーク (ANN) で使用されました。深層学習手法は、複数の抽象化レベルでデータ特徴を学習するための複数の層で構成されています。 DL 手法を使用すると、コンピュータは比較的単純な概念を通じて複雑な概念を学習できます。人工ニューラル ネットワーク (ANN) の場合、ディープ ラーニング (DL) (階層学習とも呼ばれる) は、ネットワーク内の集合的なアクティベーションを変換するために、複数の計算段階にわたってクレジットを正確に割り当てることを指します。複雑な機能を学習するには、複数の抽象化レベル、つまり、多くの隠れ層を備えた ANN などの非線形演算でディープ アーキテクチャが使用されます。正確な言葉で要約すると、深層学習は、教師ありまたは教師なしの特徴学習、表現、分類、パターン認識に複数のレベルの非線形情報処理と抽象化を使用する機械学習のサブフィールドです。 ディープ ラーニング (表現学習) は、機械学習の分野または下位分野であり、最新のディープ ラーニング手法は 2006 年に開発されたとほとんどの人が信じています。この記事は最新のディープラーニング技術のレビューであり、主にこの分野に取り組もうとしている研究者に推奨されます。この記事では、DL の基本的な考え方、主な手法、最新の開発、および応用について説明します。 レビュー論文は、特に特定分野の新人研究者にとって非常に有益です。近い将来に大きな価値を持つ研究分野や関連応用分野の場合、最新の進捗状況をリアルタイムで追跡することは通常困難です。科学研究は、知識と教育がかつてないほど簡単に共有され、入手できるため、今日では魅力的な職業です。テクノロジー研究のトレンドに関する唯一の通常の想定は、あらゆる面で多くの改善が見られるということです。数年前の分野の概要は、今では時代遅れになっている可能性があります。 近年のディープ ラーニングの人気と推進を考慮して、ディープ ラーニングとニューラル ネットワーク (NN) の概要と、最近のその主な進歩と主要な進歩について説明します。年。この記事が、この分野の多くの初心者研究者が最近の深層学習の研究と技術を包括的に理解し、正しい方法で研究を始めるのに役立つことを願っています。同時に、私たちはこの作品を通じて、この時代の DL および ANN のトップ研究者に敬意を表したいと考えています: Geoffrey Hinton (Hinton)、Juergen Schmidhuber (Schmidhuber)、Yann LeCun (LeCun)、Yoshua Bengio (Bengio)、その他多くの研究者研究者 、その研究により現代の人工知能 (AI) が構築されました。また、DL および ML 研究における現在の最良の進歩を追跡するために、彼らの研究をフォローアップすることも重要です。 この論文では、まず過去の研究論文を簡単に説明し、深層学習のモデルと手法を検討します。次に、この分野における最近の進歩について説明します。深層学習 (DL) 手法、深層アーキテクチャ (つまり、ディープ ニューラル ネットワーク (DNN))、および深層生成モデル (DGM) について説明し、その後、重要な正則化および最適化手法について説明します。さらに、2 つの短いセクションを使用して、オープンソース DL フレームワークと重要な DL アプリケーションを要約します。最後の 2 章「考察」と「結論」では、ディープラーニングの現状と将来について説明します。 2. 関連研究 ここ数年、深層学習に関するレビュー論文が数多く出版されています。これらは、DL 手法、方法論、その応用、および将来の研究の方向性を適切に説明しています。ここでは、ディープラーニングに関する優れたレビュー論文を簡単に紹介します。 Young et al. (2017) は、主に自然言語処理 (NLP) 向けの DL モデルとアーキテクチャについて説明しています。さまざまな NLP ドメインでの DL アプリケーションを実証し、DL モデルを比較し、起こり得る将来の傾向について説明します。 Zhang et al. (2017) は、フロントエンドおよびバックエンドの音声認識システム向けの現在の最良の深層学習技術について説明しています。 Zhu et al. (2017) は、DL リモート センシング技術の最近の進歩をレビューしました。また、オープンソースの DL フレームワークやディープ ラーニングのその他の技術的な詳細についても説明します。Wang et al. (2017) は、深層学習モデルの進化を時系列で説明しています。この短い記事では、DL 研究におけるモデルとその画期的な進歩を簡単に紹介します。この記事では、進化的アプローチを使用して深層学習の起源を理解し、ニューラル ネットワークの最適化と今後の研究について説明します。
Goodfellow et al. (2016) は、ディープ ネットワークと生成モデルについて詳しく説明しており、機械学習 (ML) の基礎知識とディープ アーキテクチャの長所と短所から始めて、レビューしました。近年のDLの研究開発とその応用例をまとめました。
LeCun et al. (2015) は、畳み込みニューラル ネットワーク (CNN) とリカレント ニューラル ネットワーク (RNN) からの深層学習 (DL) モデルの概要を示しました。彼らは表現学習の観点から DL を説明し、DL 技術がどのように機能するか、さまざまなアプリケーションでうまく使用できるか、教師なし学習 (UL) に基づいて未来を予測する方法を学習できるかを示します。彼らはまた、参考文献における DL の大きな進歩についても指摘しています。
Schmidhuber (2015) は、CNN、RNN、および深層強化学習 (RL) からの深層学習の概要を説明しました。彼は、基本的な DL と NN の限界とそれらを改善するためのヒントを指摘しながら、シーケンス処理のための RNN を強調しています。
Nielsen (2015) は、コードと例を使用してニューラル ネットワークの詳細を説明しています。また、ディープ ニューラル ネットワークとディープ ラーニングについてもある程度説明しています。
Schmidhuber (2014) は、時系列ベースのニューラル ネットワークの歴史と進歩、機械学習手法を使用した分類、およびニューラル ネットワークでの深層学習の使用について説明しています。
Deng と Yu (2014) は、深層学習のカテゴリと技術、およびいくつかの分野での DL の応用について説明しています。
Bengio (2013) は、表現学習の観点、つまり教師ありネットワークと教師なしネットワーク、最適化およびトレーニング モデルの観点から DL アルゴリズムの概要を説明しています。彼は、大規模なモデルやデータのアルゴリズムのスケーリング、最適化の難しさの軽減、効率的なスケーリング方法の設計など、深層学習の多くの課題に焦点を当てています。
Bengio et al (2013) は、表現と特徴学習、つまり深層学習について説明しました。彼らは、アプリケーション、テクノロジー、課題の観点からさまざまなアプローチとモデルを探求します。
Deng (2011) は、情報処理および関連分野の観点から、深層構造学習とそのアーキテクチャの概要を提供します。
Arel et al. (2010) は、近年の DL テクノロジーの概要を説明しています。
Bengio (2009) はディープ アーキテクチャ、つまり人工知能のニューラル ネットワークと生成モデルについて説明しています。
ディープ ラーニング (DL) に関する最近の論文はすべて、複数の観点からディープ ラーニングの焦点について説明しています。これはDL研究者にとって非常に必要です。しかし、DLは現在急成長している分野です。最近の DL 概要文書の後、多くの新しい技術とアーキテクチャが提案されています。さらに、以前の論文ではさまざまな観点からそれが研究されています。私たちの文書は主に、この分野に不慣れな学習者や初心者を対象としています。この目的を達成するために、私たちは、新しい研究者やこの分野に興味を持つすべての人に、深層学習の基礎と明確な概念を提供するよう努めていきます。
このセクションでは、機械学習と人工ニューラル ネットワーク (ANN) から派生した最近の進歩について説明します。主要な深層学習 (DL) 手法である人工ニューラル ネットワークは、深層学習の最も一般的に使用される形式です。
人工ニューラル ネットワーク (ANN) は大きな進歩を遂げ、他の深層モデルももたらしました。第一世代の人工ニューラル ネットワークは、限られた単純な計算しか実行できない単純なパーセプトロン ニューラル層で構成されていました。第 2 世代では、バックプロパゲーションを使用して、エラー率に基づいてニューロンの重みを更新します。その後、サポート ベクター マシン (SVM) が台頭し、しばらくの間 ANN を追い越しました。バックプロパゲーションの制限を克服するために、学習を容易にする制限付きボルツマン マシン (RBM) が提案されました。このとき、フィードフォワード ニューラル ネットワーク (FNN)、畳み込みニューラル ネットワーク (CNN)、リカレント ニューラル ネットワーク (RNN) などのほか、ディープ ビリーフ ネットワーク、オートエンコーダーなどの他のテクノロジーやニューラル ネットワークも登場しました。それ以来、ANN はさまざまな目的に合わせてさまざまな面で改良され、設計されてきました。
Schmidhuber (2014)、Bengio (2009)、Deng と Yu (2014)、Goodfellow et al. (2016)、Wang et al. (2017) ディープ ニューラル ネットワーク (DNN) ) 進化と歴史、ディープラーニング (DL) について詳しく概説します。ほとんどの場合、ディープ アーキテクチャは単純なアーキテクチャの多層非線形反復であり、入力から非常に複雑な関数を取得できます。
ディープ ニューラル ネットワークは、教師あり学習において大きな成功を収めています。さらに、深層学習モデルは、教師なし学習、ハイブリッド学習、強化学習において大きな成功を収めています。
教師あり学習は、データのラベル付け、分類器の分類、数値予測の際に適用されます。 LeCun et al. (2015) は、教師あり学習方法と深い構造の形成について合理的に説明しています。 Deng と Yu (2014) は、ディープ スタック ネットワーク (DSN) とその亜種など、教師ありハイブリッド学習のための多くのディープ ネットワークについて言及し、説明しました。 Schmidthuber (2014) の研究は、初期のニューラル ネットワークから、畳み込みニューラル ネットワーク (CNN)、リカレント ニューラル ネットワーク (RNN)、長期短期記憶 (LSTM) およびそれらの改良による最近の成功に至るまで、すべてのニューラル ネットワークを対象としています。
入力データにラベルがない場合、教師なし学習手法を適用してデータから特徴を抽出し、それらを分類したりマークしたりできます。 。 LeCun et al. (2015) は、深層学習における教師なし学習の将来を予測しています。 Schmidthuber (2014) では、教師なし学習のためのニューラル ネットワークについても説明しています。 Deng と Yu (2014) は、教師なし学習のためのディープ アーキテクチャを簡単に紹介し、ディープ オートエンコーダについて詳しく説明しました。
強化学習では、報酬と罰のシステムを使用して、学習モデルの次のステップを予測します。これは主に、一般的な意思決定の問題を解決するためにゲームやロボットで使用されます。 Schmidthuber (2014) は、強化学習 (RL) におけるディープ ラーニングの進歩と、RL におけるディープ フィードフォワード ニューラル ネットワーク (FNN) およびリカレント ニューラル ネットワーク (RNN) のアプリケーションについて説明しています。 Li (2017) は、深層強化学習 (DRL)、そのアーキテクチャ (Deep Q-Network、DQN など)、およびさまざまな分野でのそのアプリケーションについて説明しています。
Mnih et al. (2016) は、非同期勾配降下法を使用した DNN 最適化のための DRL フレームワークを提案しました。
van Hasselt et al. (2015) は、ディープ ニューラル ネットワーク (DNN) を使用した DRL アーキテクチャを提案しました。
このセクションでは、ディープ ニューラル ネットワーク (DNN) とその最近の改良点と画期的な進歩について簡単に説明します。 。ニューラル ネットワークは人間の脳と同じように機能します。それらは主にニューロンと接続で構成されています。ディープ ニューラル ネットワークというと、入力から特徴を抽出し、複雑な関数を計算するために使用できるかなりの数の隠れ層があると想定できます。 Bengio (2009) は、畳み込みニューラル ネットワーク (CNN)、オートエンコーダー (AE) などの深く構造化されたニューラル ネットワークとその亜種について説明しています。 Deng と Yu (2014) は、AE やその亜種などのいくつかのニューラル ネットワーク アーキテクチャについて詳しく説明しています。 Goodfellow et al. (2016) は、ディープ フィードフォワード ネットワーク、畳み込みネットワーク、リカレント ネットワークとそれらの改良点を紹介し、技術的に説明しました。 Schmidhuber (2014) は、初期のニューラル ネットワークから最近の成功したテクノロジーに至るまで、ニューラル ネットワークの完全な歴史について言及しています。
オートエンコーダー (AE) は、出力が入力となるニューラル ネットワーク (NN) です。 AE は生の入力を取得し、それを圧縮表現にエンコードしてから、それをデコードして入力を再構築します。ディープ AE では、低位の隠れ層が符号化に使用され、上位の隠れ層が復号化に使用され、誤差逆伝播がトレーニングに使用されます。
5.1.1 変分オートエンコーダ
変分オートエンコーダ (VAE) はデコード デバイスとしてカウントできます。 VAE は標準的なニューラル ネットワーク上に構築されており、確率的勾配降下法を介してトレーニングできます (Doersch、2016)。
5.1.2 多層ノイズ除去オートエンコーダ
初期のオートエンコーダ (AE) では、エンコード層のサイズは小さくなっています。入力レイヤーよりも(狭い)次元。マルチレイヤーノイズ除去オートエンコーダー (SDAE) では、エンコード層は入力層よりも幅が広くなります (Deng および Yu、2014)。
5.1.3 変革的なオートエンコーダー
ディープ オートエンコーダー (DAE) は変革的な、つまり抽出された特徴を持つことができます。多層非線形処理から学習者のニーズに応じて変更できます。変換オートエンコーダ (TAE) は、入力ベクトルとターゲット出力ベクトルの両方を使用して変換不変プロパティを適用し、コードを望ましい方向に導くことができます (Deng および Yu、2014)。
畳み込みニューラル ネットワーク (CNN) は、ローカル接続、重みの共有、プーリングという 4 つの基本的な考え方で構成されます。そして多層的な使用法。 CNN の最初の部分は畳み込み層とプーリング層で構成され、後半の部分は主に全結合層です。畳み込み層は特徴のローカル接続を検出し、プーリング層は同様の特徴を 1 つにマージします。 CNN は、畳み込み層で行列乗算の代わりに畳み込みを使用します。
Krizhevsky et al. (2012) は、深層学習 (DL) の主要なステップとなる、AlexNet としても知られる深層畳み込みニューラル ネットワーク (CNN) アーキテクチャを提案しました。ネットワークは 5 つの畳み込み層と 3 つの完全接続層で構成されます。このアーキテクチャでは、畳み込み演算にグラフィックス プロセッシング ユニット (GPU)、アクティベーション関数として修正線形関数 (ReLU)、およびオーバーフィッティングを軽減するドロップアウトを使用します。
Iandola et al. (2016) は、「SqueezeNet」と呼ばれる小規模な CNN アーキテクチャを提案しました。
Szegedy et al. (2014) は、Inception という名前のディープ CNN アーキテクチャを提案しました。 Dai et al. (2017) は、Inception-ResNet の改善を提案しました。
Redmon et al. (2015) は、均一かつリアルタイムの物体検出のための YOLO (You Only Look Once) と呼ばれる CNN アーキテクチャを提案しました。
Zeiler and Fergus (2013) は、CNN 内の活性化を視覚化する方法を提案しました。
Gehring et al. (2017) は、シーケンス間学習のための CNN アーキテクチャを提案しました。
Bansal et al. (2017) は、ピクセルを使用して表現する PixelNet を提案しました。
Goodfellow et al. (2016) では、CNN の基本的なアーキテクチャと考え方について説明しています。 Gu et al. (2015) は、CNN の最近の進歩、CNN の複数のバリアント、CNN のアーキテクチャ、正則化の方法と機能、さまざまな分野での応用についての優れた概要を提供しています。
5.2.1 ディープ マックス プーリング畳み込みニューラル ネットワーク
最大プーリング畳み込みニューラル ネットワーク (MPCNN) は、特にデジタル画像処理において、主に畳み込みと最大プーリングで動作します。 MPCNN は通常、入力層のほかに 3 つの層で構成されます。畳み込み層は入力画像を取得して特徴マップを生成し、非線形活性化関数を適用します。最大プーリング層は画像をダウンサンプリングし、サブ領域の最大値を保持します。全結合層は線形乗算を実行します。ディープ MPCNN では、入力層の後に畳み込みとハイブリッド プーリングが定期的に使用され、その後に完全接続層が続きます。
5.2.2 非常に深い畳み込みニューラル ネットワーク
Simonyan と Zisserman (2014) は、非常に深い畳み込みニューラル ネットワークを提案しました。ネットワーク畳み込みニューラル ネットワーク (VDCNN) アーキテクチャ。VGG Net とも呼ばれます。 VGG Net は、16 ~ 19 層の深さの非常に小さな畳み込みフィルターを使用します。 Conneau et al. (2016) は、小さな畳み込みとプーリングを使用したテキスト分類のための別の VDCNN アーキテクチャを提案しました。彼らは、この VDCNN アーキテクチャがテキスト処理で使用されるのは初めてであり、文字レベルで機能すると主張しています。このアーキテクチャは 29 の畳み込み層で構成されています。
Lin et al. (2013) は、Network In Network (NIN) を提案しました。 NIN は、従来の畳み込みニューラル ネットワーク (CNN) の畳み込み層を、複雑な構造を持つマイクロ ニューラル ネットワークに置き換えます。これは、完全に接続された層の代わりに、多層パーセプトロン (MLPConv) 処理マイクロ ニューラル ネットワークとグローバル平均プーリング層を使用します。ディープ NIN アーキテクチャは、NIN 構造を複数重ね合わせて構成できます。
Girshick et al. (2014) は、領域ベースの畳み込みニューラル ネットワーク (R-CNN) を提案しました。 )、認識に領域を使用します。 R-CNN は領域を使用してオブジェクトの位置を特定し、セグメント化します。このアーキテクチャは、候補領域のコレクションを定義するクラス独立領域提案、領域から特徴を抽出する大規模畳み込みニューラル ネットワーク (CNN)、およびクラス固有の線形サポート ベクター マシン (SVM) のセットの 3 つのモジュールで構成されます。
5.4.1 高速 R-CNN
Girshick (2015) は、高速領域ベースの畳み込みネットワーク (高速) を提案しました。 R-CNN)。この方法では、R-CNN アーキテクチャを利用して結果を迅速に生成します。 Fast R-CNN は、畳み込み層とプーリング層、領域提案層、および一連の全結合層で構成されます。
5.4.2 より高速な R-CNN
Ren et al. (2015) は、より高速な領域ベースの R-CNN を提案しました。畳み込みニューラル ネットワーク (Faster R-CNN)。リアルタイムのターゲット検出に領域提案ネットワーク (RPN) を使用します。 RPN は、領域提案を正確かつ効率的に生成できる完全畳み込みネットワークです (Ren et al., 2015)。
5.4.3 マスク R-CNN
He Kaiming et al. (2017) は、地域ベースのマスク R-CNN を提案しました。マスク畳み込みネットワーク (マスク R-CNN) インスタンス オブジェクトのセグメンテーション。マスク R-CNN は R-CNN のアーキテクチャを拡張し、ターゲット マスクを予測するために追加のブランチを使用します。
5.4.4 マルチエキスパート R-CNN
Lee et al. (2017) は、次の領域を提案しました。ベースのマルチエキスパート畳み込みニューラル ネットワーク (ME R-CNN) は、Fast R-CNN アーキテクチャを利用します。 ME R-CNN は、選択的かつ網羅的な検索から関心領域 (RoI) を生成します。また、RoI ごとの単一ネットワークの代わりに、RoI ごとのマルチエキスパート ネットワークも使用します。各エキスパートは、Fast R-CNN の完全に接続されたレイヤーを備えた同じアーキテクチャです。
He et al. (2015) によって提案された残差ネットワーク (ResNet) は 152 層で構成されています。 ResNet はエラーが少なく、残差学習によるトレーニングが簡単です。 ResNet が深くなるほど、パフォーマンスが向上します。深層学習の分野では、ResNet は重要な進歩であると考えられています。
5.5.1 Resnet の Resnet
Targ et al. (2016) Resnet の Resnet (RiR) ResNets と標準の畳み込みニューラル ネットワーク (CNN) を組み合わせて、深い 2 ストリーム アーキテクチャを構築することを提案しました。
5.5.2 ResNeXt
##Xie et al. (2016) は、ResNeXt アーキテクチャを提案しました。 ResNext は ResNets を活用して、分割、変換、マージ戦略を再利用します。 5.6 カプセル ネットワーク Sabour et al. (2017) は、2 つの畳み込み層と A から構成されるカプセル ネットワーク (CapsNet) を提案しました。完全に接続された層アーキテクチャ。 CapsNet には通常、複数の畳み込み層が含まれており、最後にカプセル層が付いています。 CapsNet は、畳み込みニューラル ネットワークの制限に基づいていると言われているため、深層学習における最新のブレークスルーの 1 つと考えられています。ニューロンの代わりにカプセルの層を使用します。アクティブ化された下位レベルのカプセルが予測を行い、複数の予測に同意した後、上位レベルのカプセルがアクティブになります。プロトコル ルーティング メカニズムは、これらのカプセル層内で使用されます。ヒントンは後に、期待値最大化 (EM) アルゴリズムを使用して CapsNet を改良した EM ルーティングを提案しました。 5.7 リカレント ニューラル ネットワーク リカレント ニューラル ネットワーク (RNN) は、音声、テキスト、生成されたシーケンスなどのシーケンス入力に適しています。時間内に展開されると、繰り返される隠れユニットは、同じ重みを持つ非常に深いフィードフォワード ネットワークと考えることができます。 RNN は、勾配の消失と次元の爆発の問題により、トレーニングが困難でした。この問題を解決するために、その後多くの人が改良を提案しました。 Goodfellow et al. (2016) は、リカレントおよびリカレント ニューラル ネットワークとアーキテクチャ、および関連するゲート ネットワークとメモリ ネットワークの詳細を詳細に分析しています。Karpathy et al. (2015) は、文字レベルの言語モデルを使用して予測を分析および視覚化し、トレーニングのダイナミクス、RNN のエラー タイプとそのバリアント (LSTM など) などを特徴付けます。
J´ozefowicz et al (2016) は、RNN モデルと言語モデルの限界を調査しています。
5.7.1 RNN-EM
Peng と Yao (2015) は、外部メモリ (RNN- EM) RNN の記憶能力を向上させます。これらは、他の RNN よりも優れた言語理解において最先端のパフォーマンスを達成すると主張しています。
5.7.2 GF-RNN
Chung et al. (2015) は、ゲート型フィードバックリカレントニューラルネットワーク ( GF-RNN) は、グローバル ゲーティング ユニットを使用して複数のリカレント レイヤーをオーバーレイすることにより、標準 RNN を拡張します。
5.7.3 CRF-RNN
Zheng et al. (2015) は、リカレント ニューラルとして条件付きランダム フィールドを提案しました。ネットワーク (CRF-RNN) は、畳み込みニューラル ネットワーク (CNN) と条件付きランダム フィールド (CRF) を組み合わせて、確率的グラフィカル モデリングを実現します。
5.7.4 Quasi-RNN
Bradbury et al. (2016) は、神経シーケンス モデリングの方法を提案しました。そして、時間ステップに沿った準リカレント ニューラル ネットワーク (QRNN) の並列適用。
Weston et al. (2014) は、質問応答メモリ ネットワーク (QA) を提案しました。メモリ ネットワークは、メモリ、入力特徴マッピング、一般化、出力特徴マッピング、および応答で構成されます。
5.8.1 動的メモリ ネットワーク
Kumar et al. (2015) は、QA 用の動的メモリ ネットワークを提案しました。タスク メモリ ネットワーク (DMN)。 DMN には、入力、質問、エピソード記憶、出力の 4 つのモジュールがあります。
Olah と Carter (2016) は、注意と拡張リカレント ニューラル ネットワーク、つまりニューラル グラフ NTM (NTM) をうまく示しています。 、アテンション インターフェイス、ニューラル エンコーダー、適応型計算時間。ニューラル ネットワークは、標準的なニューラル ネットワーク アーキテクチャだけでなく、ロジスティック関数などの追加プロパティを使用して強化されることがよくあります。
5.9.1 ニューラル チューリング マシン
Graves et al. (2014) は、ニューラル チューリング マシン (NTM) を提案しました。 ) アーキテクチャはニューラル ネットワーク コントローラーとメモリ バンクで構成されます。 NTM は通常、RNN と外部メモリ バンクを組み合わせます。
5.9.2 ニューラル GPU
Kaiser と Sutskever (2015) は、NTM 並列の問題を解決するニューラル GPU を提案しました。問題。
5.9.3 ニューラル ランダム アクセス マシン
Kurach et al. (2015) はニューラル ランダム アクセス マシンを提案しました。外部の可変サイズ ランダム アクセス メモリを使用します。
5.9.4 ニューラル プログラマー
Neelakantan et al. (2015) は、ニューラル プログラマーである強化ニューラルを提案しました。算術および論理関数を備えたネットワーク。
5.9.5 ニューラル プログラマ インタプリタ
Reed と de Freitas (2015) は、次のことを学習できることを提案しました。ニューラル プログラマ インタプリタ (NPI)。 NPI には、定期的なカーネル、プログラム メモリ、およびドメイン固有のエンコーダが含まれます。
Hochreiter と Schmidhuber (1997) は、長短期記憶 (LSTM) を提案しました。リカレント ニューラル ネットワーク (RNN) のエラー逆流問題。 LSTM はリカレント ネットワークと勾配ベースの学習アルゴリズムであり、勾配を流すことができるようにするための自己ループ生成パスが導入されています。
Greff et al. (2017) は、音声認識、手書き認識、ポリフォニック音楽モデリングのそれぞれについて、標準 LSTM と 8 つの LSTM バリアントの大規模分析を実行しました。彼らは、LSTM の 8 つのバリアントには大きな改善が見られず、標準の LSTM だけが良好なパフォーマンスを示したと主張しました。
Shi et al. (2016b) は、特徴マップ学習表現のための LSTM ユニットのスタックであるディープ長期短期記憶ネットワーク (DLSTM) を提案しました。
5.10.1 バッチ正規化 LSTM
Cooijmans et al. (2016) はバッチ正規化 LSTM を提案しました。正規化 LSTM (BN-LSTM)。リカレント ニューラル ネットワークの隠れた状態に対してバッチ正規化を使用します。
5.10.2 ピクセル RNN
van den Oord et al. (2016b) は、ピクセルリカレントニューラルネットワーク (ピクセル -RNN)、12 の 2 次元 LSTM レイヤーで構成されます。
5.10.3 双方向 LSTM
#W¨ollmer et al. (2010) は、双方向 LSTM (BLSTM) を提案しました。リカレント ネットワークは、コンテキスト依存のキーワード検出のためにダイナミック ベイジアン ネットワーク (DBN) とともに使用されます。
5.10.4 変分型 bi-LSTM
Shabanian et al. (2017) は変分型 bi-LSTM を提案しました(変分 Bi-LSTM)、双方向 LSTM アーキテクチャの変種です。変分 Bi-LSTM は、変分オートエンコーダ (VAE) を使用して、LSTM 間の情報交換チャネルを作成し、より良い表現を学習します。
Wu et al. (2016) は、Google Neural Machine Translation (GNMT) と呼ばれる自動翻訳システムを提案しました。このシステムは、共通のシーケンス間学習フレームワークに従って、エンコーダー ネットワーク、デコーダー ネットワーク、およびアテンション ネットワークを組み合わせています。
Lample et al. (2017) は、新しいエンコーダー/デコーダー アーキテクチャであるフェーダー ネットワークを提案しました。属性値を変更することでリアルな入力画像が変化します。
Ha et al. (2016) によって提案されたハイパー ネットワークは、静的ハイパー ネットワーク畳み込みネットワークなどの他のニューラル ネットワークの重みを、リカレントの動的ハイパーネットワークに対して生成します。ネットワーク。
Deutsch(2018) ハイパーネットワークを使用したニューラル ネットワークの生成。
Srivastava et al. (2015) は、ゲート付きユニット管理情報を使用して学習するハイウェイ ネットワークを提案しました。複数のレベルにわたる情報の流れは、情報ハイウェイと呼ばれます。
5.14.1 リカレント ハイウェイ ネットワーク
Zilly et al. (2017) は、リカレント ハイウェイ ネットワークを提案しました。 RHN)、長短期記憶 (LSTM) アーキテクチャを拡張します。 RHN は、定期的な遷移で高速道路レイヤーを使用します。
Zhang et al. (2016) は、High-Long Short-Term Memory (HLSTM) RNN を提案しました。隣接する層のメモリユニット間の閉じた方向性接続 (つまり、ハイウェイ) を備えた深い LSTM ネットワーク。
Donahue et al. (2014) は、長期リカレント畳み込みネットワーク (LRCN) を提案しました。入力に CNN を使用し、LSTM を使用して再帰シーケンス モデリングを実行し、予測を生成します。
Zhang et al. (2015) は、サポート ベクター マシンを使用するディープ ニューラル SVM (DNSVM) を提案しました (サポートディープ ニューラル ネットワーク (DNN) 分類の最上位レイヤーとしてのベクター マシン (SVM)。
Moniz と Pal (2016) は、メモリ メカニズムを組み合わせた畳み込み残差メモリ ネットワークを提案しました。畳み込みニューラル ネットワーク (CNN)。長期短期記憶メカニズムを使用して、畳み込み残差ネットワークを強化します。
Salimans et al. (2016) は、GAN をトレーニングするためのいくつかの方法を提案しました。
6.5.1 ラプラシアン敵対的生成ネットワーク
Denton et al. (2015) は、ディープ生成モデル ( DGM) は、ラプラシアン敵対的生成ネットワーク (LAPGAN) と呼ばれ、敵対的生成ネットワーク (GAN) アプローチを使用します。このモデルは、ラプラシアン ピラミッド フレームワークの畳み込みネットワークも使用します。
Shi et al. (2016a) は、リカレント ニューラル ネットワークを使用したリカレント サポート ベクター マシン (RSVM) を提案しました。 ( RNN) は入力シーケンスから特徴を抽出し、標準サポート ベクター マシン (SVM) を使用してシーケンス レベルのターゲット認識を行います。
このセクションでは、ディープ ニューラル ネットワークの正則化と最適化のための主要なテクニックのいくつかについて簡単に説明します。 (DNN)。
Srivastava et al. (2014) は、ニューラル ネットワークの過学習を防ぐために Dropout を提案しました。ドロップアウトは、隠れユニットにノイズを追加することによるニューラル ネットワーク モデルの平均正則化手法です。トレーニング中に、ニューラル ネットワークからユニットと接続をランダムに描画します。ドロップアウトは、RBM (Srivastava et al., 2014) などのグラフィカル モデルまたは任意のタイプのニューラル ネットワークで使用できます。 Dropout に関して最近提案された改良点は、Fraternal Dropout for Recurrent Neural Networks (RNN) です。
Goodfellow et al. (2013) は、Dropout の新しい活性化関数である Maxout を提案しました。 Maxout の出力は入力セットの最大値であり、Dropout のモデル平均化に役立ちます。
Krueger et al. (2016) は、リカレント ニューラル ネットワーク (RNN) の正則化手法である Zoneout を提案しました。 Zoneout は、Dropout と同様に、トレーニング中にノイズをランダムに使用しますが、非表示のユニットは破棄されずに保持されます。
He et al. (2015) は、低トレーニング Error ResNet と呼ばれる深層残差学習フレームワークを提案しました。
Ioffe と Szegedy (2015) は、内部共変量シフトを削減することによるバッチ正規化を提案し、ディープ ニューラル ネットワーク トレーニングを高速化する方法を提案しました。 Ioffe (2017) は、以前の方法を拡張したバッチ正規化を提案しました。
Hinton et al. (2015) は、高度に正規化されたモデル (つまり、ニューラル ネットワーク) のコレクションから知識を変換することを提案しました。小さなモデルを圧縮するためのメソッドに変換します。
Ba et al. (2016) は、特に RNN のディープ ニューラル ネットワーク向けの層正規化を提案しました。バッチ正規化の制限。
ディープ ラーニングに利用できるオープン ソース ライブラリとフレームワークが多数あります。それらのほとんどは、Python プログラミング言語用に構築されています。 Theano、Tensorflow、PyTorch、PyBrain、Caffe、Blocks and Fuel、CuDNN、Honk、ChainerCV、PyLearn2、Chainer、トーチなど。
このセクションでは、ディープ ラーニングの最近の傑出したアプリケーションのいくつかについて簡単に説明します。深層学習 (DL) の始まり以来、DL 手法は教師あり学習、教師なし学習、半教師あり学習、または強化学習の形式でさまざまな分野で広く使用されてきました。分類および検出タスクから始まった DL アプリケーションは、あらゆるドメインに急速に拡大しています。
例:
画像分類と認識
ビデオ分類
シーケンス生成
欠陥分類
テキスト、音声、画像およびビデオの処理
テキスト分類
音声処理
音声認識および音声言語理解
Text-to -音声生成
クエリ分類
文分類
文モデリング
字句処理
事前選択
ドキュメントと文章の処理
画像テキスト説明の生成
フォト スタイル転送
自然画像マニホールド
画像カラーリング
画像 Q&A
テクスチャ付きおよび様式化された画像の生成
ビジュアルおよびテキスト Q&A
視覚認識と説明
オブジェクト認識
ドキュメント処理
人物アクションの合成と編集
歌の合成
アイデンティティ認識
顔認識と検証
ビデオ アクション認識
人間のアクション認識
アクション認識
モーション キャプチャ シーケンスの分類と視覚化
手書きの生成と予測
自動化と機械翻訳
固有表現の認識
モバイルビジョン
会話型エージェント
遺伝子変異の呼び出し
がん検出
X線CT再構成
発作予測
ハードウェアアクセラレーション
ロボット
など。
Deng と Yu (2014) は、音声処理、情報検索、オブジェクト認識、コンピュータ ビジョン、マルチモーダル、マルチタスク学習などの分野における DL アプリケーションの詳細なリストを提供しています。
深層強化学習 (DRL) を使用してゲームをマスターすることが、今日の話題になっています。時々、DNN と DRL を使用して、わずか数時間のトレーニングから戦略やその他のゲームで人間の世界チャンピオンやチェスのグランドマスターに勝つ AI ロボットが作成されます。たとえば、囲碁の AlphaGo や AlphaGo Zero です。
ディープ ラーニングは多くの分野で大きな成功を収めていますが、その道のりはまだ長いです。改善すべき点はまだたくさんあります。制限に関しては、かなりの数の例があります。例: Nguyen らは、ディープ ニューラル ネットワーク (DNN) が画像を認識する際に簡単に騙されてしまうことを示しました。 Yosinskiらによって提案された学習された特徴の伝達可能性など、他の問題もあります。 Huangらは、ニューラルネットワーク攻撃を防御するためのアーキテクチャを提案し、これらの攻撃を防御するには将来の研究が必要であると主張した。 Zhang らは、深層学習モデルを理解するための実験フレームワークを提案し、深層学習を理解するには再考と一般化が必要であると考えました。
Marcus は、2018 年にディープ ラーニング (DL) の役割、制限、性質について重要なレビューを提供しました。同氏は、より多くのデータを必要とする、容量が限られている、階層構造を扱えない、オープンな推論を実行できない、完全に透明化できない、事前知識と統合できない、原因と結果を区別できないなど、DL 手法の限界を強く指摘しました。同氏はまた、DL は安定した世界を前提としており、近似的な方法で実装され、設計が難しく、過度に宣伝する潜在的なリスクがあることにも言及しました。マーカス氏は、DL を再概念化し、教師なし学習、記号操作、ハイブリッド モデルの可能性を模索し、認知科学と心理学から洞察を得て、より大胆な挑戦を行う必要があると考えています。
ディープ ラーニング (DL) はこれまで以上に急速に世界を進歩させていますが、価値のある側面はまだたくさんあります。勉強する。私たちは深層学習、つまり機械をどのように賢くするか、人間に近づくか、人間よりも賢くすることができるか、あるいは人間と同じように学習できるのか、まだ完全には理解していません。 DLはテクノロジーをあらゆるものに応用しながら、多くの課題を解決してきました。しかし人類は依然として多くの問題に直面しており、飢餓や食糧危機、癌やその他の致命的な病気で依然として亡くなっている人々がいます。私たちは、ディープラーニングと人工知能が、最も困難な科学研究を実施することによって、人間の生活の質の向上にさらに専念することを願っています。最後になりましたが、私たちの世界がより良い場所になりますように。
以上が初心者に適したディープラーニングの 10,000 語のレビューの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。