모델이 수렴하지 않는 이유는 무엇입니까?
모델이 수렴하지 않는 이유는 무엇인가요?
1. 역전파 체인이 손상되었습니다. 즉, 일부 변수는 여전히 계산에 참여할 수 있지만 기울기를 전파하는 기능을 상실하여 후속 변수에 기울기를 전파할 수 없습니다. 2. 학습률이 올바르게 설정되지 않았습니다. 학습률을 너무 크게 설정하면 손실이 발생하기 쉬워 모델이 수렴되지 않게 됩니다. 3. 매개변수 초기화로 인해 신경망 계층 매개변수가 제대로 초기화되지 않습니다.
1. 역전파 체인이 손상되었습니다. 즉, 일부 변수는 여전히 계산에 참여할 수 있지만 기울기를 전파하는 기능을 상실하여 후속 변수에 기울기를 전파할 수 없습니다. 2. 학습률이 올바르게 설정되지 않았습니다. 학습률을 너무 크게 설정하면 손실이 발생하기 쉬워 모델이 수렴되지 않게 됩니다. 3. 매개변수 초기화로 인해 신경망 계층 매개변수가 제대로 초기화되지 않습니다.