モデルが収束しないのはなぜですか?
1. 逆伝播チェーンが壊れています。つまり、変数の一部が numpy 配列に変換されている可能性があります。変数は引き続き計算に参加できますが、勾配を伝播する能力を失い、その結果、勾配を次の値に伝播できなくなります。 2. 学習率 設定が無理 学習率を大きくしすぎると損失がnanになりやすくモデルが収束しなくなる 小さすぎるとモデルが学習してしまう3. パラメータの初期化はモデルのトレーニング速度に影響するため、ニューラル ネットワーク層のパラメータは適切に初期化されていません。
1. 逆伝播チェーンが壊れています。つまり、変数の一部が numpy 配列に変換されている可能性があります。変数は引き続き計算に参加できますが、勾配を伝播する能力を失い、その結果、勾配を次の値に伝播できなくなります。 2. 学習率 設定が無理 学習率を大きくしすぎると損失がnanになりやすくモデルが収束しなくなる 小さすぎるとモデルが学習してしまう3. パラメータの初期化はモデルのトレーニング速度に影響するため、ニューラル ネットワーク層のパラメータは適切に初期化されていません。