この記事は、勾配降下法とは何かを理解するのに役立ちます-AI-php.cn

この記事は、勾配降下法とは何かを理解するのに役立ちます

勾配降下法は機械学習の力の源です。

前の 2 つのセクションを終えて、機械学習の力の源である勾配降下法について説明します。。

勾配降下法は、それほど複雑な数学ツールではありません。その歴史は 200 年以上あります。しかし、これほど単純な数学ツールが多くの機械学習アルゴリズムの基礎になるとは人々は予想していなかったかもしれません。 200年以上の歴史もあり、ニューラルネットワークとともにディープラーニング革命の火付け役となった。

1. 勾配とは

多変量関数の各パラメーターの偏導関数を求め、得られた各パラメーターの偏導関数をベクトルの形式で書き込みます。これが勾配です。。

具体的には、2 つの独立変数の関数 f (x1, x2) が機械学習データセットの 2 つの特徴に対応し、x1 と x2 についてそれぞれ偏導関数を取得すると、取得された勾配ベクトルが得られます。それは (∂f/∂x1, ∂f/∂x2) T であり、数学的には Δf (x1, x2) として表すことができます。それでは、勾配ベクトルを計算する意味は何でしょうか?その幾何学的意味は関数が変化する方向であり、最も速く変化する方向です。関数 f(x) の点 (x0, y0) における勾配ベクトルの方向は、y 値が最も速く増加する方向です。つまり、勾配ベクトルΔf(x0)の方向に沿って関数の最大値を求めることができる。一方、勾配ベクトルの逆方向、つまり -Δf(x0) の方向に沿って勾配は最も早く減少し、関数の最小値が見つかります。特定の点における勾配ベクトルの値が 0 の場合、導関数が 0 である関数の最低点 (または局所的最低点) に達しています。

2. 勾配降下: 下り坂のメタファー

機械学習では、勾配降下法のメタファーとして下り坂を使用することが非常に一般的です。あなたが大きな山のどこかに立って、遠くに果てしなく続く地形を眺めながら、遠くの場所がここよりもはるかに低いことだけを知っていると想像してください。山を下る方法を知りたいが、一歩ずつ下る、つまり、ある位置に到達するたびに現在位置の勾配を見つけることしかできません。次に、勾配の負の方向に沿って 1 歩降ります。つまり、最も急な場所を下り、新しい位置の勾配を解決し続け、新しい位置で最も急な場所に沿って 1 歩降り続けます。下の写真に示すように、山のふもとに到達するまで一歩ずつ歩いてください。

この記事は、勾配降下法とは何かを理解するのに役立ちます

上記の説明から、関数の凹凸について言及した理由を理解するのは難しくありません。非凸関数では山の底まで到達せず、ある谷で止まってしまう場合があるからです。言い換えれば、非凸関数の勾配降下法では、常に大域的な最適解が見つかるとは限らず、局所的な最適解しか得られない可能性があります。ただし、関数が凸の場合、勾配降下法は理論的には大域最適解を得ることができます。