機械学習オプティマイザーの概要 - 一般的なオプティマイザーの種類とアプリケーションについての説明-AI-php.cn

機械学習オプティマイザーの概要 - 一般的なオプティマイザーの種類とアプリケーションについての説明

PHPz

リリース： 2024-01-23 16:33:09

転載

1169 人が閲覧しました

机器学习中的优化器概念详解常见的优化器类型及使用情况

オプティマイザーは、モデルの精度を向上させるために誤差を最小限に抑えるパラメーター値を見つけるために使用される最適化アルゴリズムです。機械学習では、オプティマイザーはコスト関数を最小化または最大化することによって、特定の問題に対する最適な解決策を見つけます。

さまざまなアルゴリズムモデルには、さまざまなタイプのオプティマイザーがあり、それぞれに独自の長所と短所があります。最も一般的なオプティマイザーは、勾配降下法、確率的勾配降下法、運動量を伴う確率的勾配降下法、適応型勾配降下法、および二乗平均平方根です。各オプティマイザーには、パフォーマンスを向上させるために調整できるパラメーター設定がいくつかあります。

一般的なオプティマイザの種類

勾配降下法 (GD)

勾配降下法は基本的なものです損失関数の一次導関数に依存する一次最適化アルゴリズム。学習アルゴリズムの重みを更新することで最小コスト関数の値を検索し、グローバル最小値に対応する最適なパラメーター値を見つけます。バックプロパゲーションにより、損失はある層から別の層に伝達され、損失に応じてモデルのパラメータが調整されて損失関数が最小化されます。

これは、ニューラルネットワークで使用される最も古く、最も一般的なオプティマイザーの 1 つであり、凸最適化問題がある方法でデータが配置されている状況に最適です。

勾配降下法アルゴリズムは実装が非常に簡単ですが、極小値に陥るリスクがあります。つまり、極小値に収束しません。

確率的勾配降下法 (SGD)

勾配降下法アルゴリズムの拡張として、確率的勾配降下法は勾配の欠点の一部を克服します。降下アルゴリズム。確率的勾配降下法では、反復ごとにデータセット全体を取得するのではなく、データのバッチがランダムに選択されます。これは、データセットから少数のサンプルのみが取得されることを意味します。

したがって、確率的勾配降下アルゴリズムでは、極小値に到達するためにより多くの反復が必要になります。反復回数が増えると、全体の計算時間が増加します。ただし、反復回数を増やした後でも、計算コストは依然として勾配降下法オプティマイザーよりも低くなります。

勢いのある確率的勾配降下法

上記のことから、確率的勾配降下法がたどる経路は勾配降下法よりも大きな影響を与えることがわかります。 . ノイズが発生し、計算時間が長くなります。この問題を克服するために、運動量アルゴリズムを使用した確率的勾配降下法を使用します。

運動量の役割は、損失関数がより速く収束するのを助けることです。ただし、このアルゴリズムを使用する場合は、勢いが大きいと学習率が低下することに注意してください。

適応型勾配降下法 (Adagrad)

適応型勾配降下法アルゴリズムは、他の勾配降下法アルゴリズムとは少し異なります。これは、アルゴリズムが反復ごとに異なる学習率を使用するためです。学習率は学習時のパラメータの違いにより変化します。パラメータの変化が大きいほど、学習率の変化は小さくなります。

適応勾配降下法を使用する利点は、学習率を手動で変更する必要がなくなり、より早く収束に達し、適応勾配降下法が勾配降下法アルゴリズムとそのアルゴリズムよりも優れていることです。バリアントはより信頼性が高くなります。

しかし、適応型勾配降下法オプティマイザーは学習率を単調に減少させるため、学習率が非常に小さくなります。学習率が小さいため、モデルはそれ以上の改善を得ることができず、最終的にモデルの精度に影響を与えます。

二乗平均平方根 (RMS Prop) オプティマイザー

二乗平均平方根は、深層学習愛好家の間で人気のあるオプティマイザーの 1 つです。公式にはリリースされていませんが、コミュニティではまだよく知られています。二乗平均平方根は、単調減少する学習率を下げるため、適応型勾配降下法オプティマイザーよりも改善されていると考えられます。

二乗平均平方根アルゴリズムは、関数評価の数を減らして極小値に到達することで最適化プロセスを高速化することに主に焦点を当てています。このアルゴリズムは、各重みの二乗勾配の移動平均を保持し、平均二乗の平方根で勾配を除算します。

勾配降下法アルゴリズムと比較して、このアルゴリズムは迅速に収束し、必要な調整は少なくなります。二乗平均平方根オプティマイザーの問題は、学習率を手動で定義する必要があり、その推奨値がすべてのアプリケーションに適用されるわけではないことです。

Adam オプティマイザー

Adam という名前は、適応モーメント推定に由来しています。この最適化アルゴリズムは確率的勾配降下法をさらに拡張したもので、トレーニング中にネットワークの重みを更新するために使用されます。確率的勾配降下トレーニングを通じて単一の学習率を維持する代わりに、Adam オプティマイザーは各ネットワークの重みの学習率を個別に更新します。

Adam オプティマイザーは、適応型勾配降下法および二乗平均平方根アルゴリズムの特性を継承しています。このアルゴリズムは実装が簡単で、実行時間が短く、メモリ要件が低く、他の最適化アルゴリズムに比べて必要な調整が少なくなります。