RNN, LSTM 및 GRU의 개념, 차이점, 장점 및 단점을 살펴보세요.-일체 포함-php.cn

RNN, LSTM 및 GRU의 개념, 차이점, 장점 및 단점을 살펴보세요.

WBOY

풀어 주다： 2024-01-22 19:51:19

앞으로

1149명이 탐색했습니다.

RNN, LSTM 및 GRU의 개념, 차이점, 장점 및 단점을 살펴보세요.

시계열 데이터에서는 관측값 간에 종속성이 있으므로 서로 독립적이지 않습니다. 그러나 기존 신경망은 각 관측값을 독립적인 것으로 취급하므로 시계열 데이터를 모델링하는 모델의 기능이 제한됩니다. 이 문제를 해결하기 위해 네트워크의 데이터 포인트 간의 종속성을 설정하여 시계열 데이터의 동적 특성을 캡처하는 메모리 개념을 도입한 RNN(Recurrent Neural Network)이 도입되었습니다. RNN은 반복 연결을 통해 이전 정보를 현재 관찰에 전달하여 미래 값을 더 잘 예측할 수 있습니다. 이는 RNN을 시계열 데이터와 관련된 작업을 위한 강력한 도구로 만듭니다.

그런데 RNN은 어떻게 이런 종류의 메모리를 달성하나요?

RNN은 신경망의 피드백 루프를 통해 메모리를 구현하는데, 이는 RNN과 기존 신경망의 주요 차이점입니다. 피드백 루프를 사용하면 레이어 내에서 정보가 전달될 수 있는 반면, 피드포워드 신경망은 레이어 간에만 정보가 전달됩니다. 따라서 RNN에는 다양한 유형이 있습니다.

Recurrent Neural Network (RNN)
Long Short-Term Memory Network (LSTM)
Gated Recurrent Unit Network (GRU)

이 기사에서는 RNN을 소개합니다. , LSTM GRU와 GRU의 개념, 유사점 및 차이점과 장점 및 단점.

반복 신경망(RNN)

피드백 루프를 통해 RNN 장치의 출력은 동일한 장치의 입력으로도 사용됩니다. 따라서 모든 RNN에는 과거와 현재라는 두 가지 입력이 있습니다. 과거 정보를 사용하면 단기 기억이 생성됩니다.

더 나은 이해를 위해 RNN 장치의 피드백 루프를 확장할 수 있습니다. 확장된 셀의 길이는 입력 시퀀스의 시간 단계 수와 같습니다.

과거 관측값이 숨겨진 상태로 펼쳐진 네트워크를 통해 어떻게 전달되는지 확인할 수 있습니다. 각 셀에서는 현재 시간 단계의 입력, 이전 시간 단계의 은닉 상태, 바이어스를 결합한 후 활성화 함수를 통해 제한하여 현재 시간 단계의 은닉 상태를 결정합니다.

RNN은 일대일, 일대다, 다대일, 다대다 예측에 사용할 수 있습니다.

RNN의 장점

단기 기억 덕분에 RNN은 순차적 데이터를 처리하고 과거 데이터의 패턴을 식별할 수 있습니다. 또한 RNN은 다양한 길이의 입력을 처리할 수 있습니다.

RNN의 단점

RNN은 경사 하강이 사라지는 문제가 있습니다. 이 경우 역전파 중에 가중치를 업데이트하는 데 사용되는 기울기는 매우 작아집니다. 0에 가까운 기울기로 가중치를 곱하면 네트워크가 새로운 가중치를 학습하는 것을 방지할 수 있습니다. 학습을 중단하면 RNN이 더 긴 시퀀스에서 본 내용을 잊어버리게 됩니다. Vanishing Gradient Descent 문제는 네트워크 계층의 수에 따라 증가합니다.

RNN은 최근 정보만 유지하므로 모델은 과거 관찰을 고려할 때 문제가 있습니다. 따라서 RNN에는 단기 기억만 있고 장기 기억은 없습니다.

또한 RNN은 역전파를 사용하여 시간에 맞춰 가중치를 업데이트하므로 네트워크도 그래디언트 폭발로 인해 어려움을 겪게 되며, ReLu 활성화 기능을 사용하면 죽은 ReLu 단위의 영향을 받게 됩니다. 전자는 융합 문제를 일으킬 수 있는 반면, 후자는 학습 중단을 유발할 수 있습니다.

장단기 기억(LSTM)

LSTM은 RNN의 경사 소멸 문제를 해결하는 특별한 유형의 RNN입니다.

LSTM의 핵심은 유닛의 입력에서 출력으로 전달되는 유닛 상태입니다. 셀 상태를 사용하면 세 개의 게이트를 통해 더 작은 선형 동작만으로 전체 체인을 따라 정보가 흐를 수 있습니다. 따라서 셀 상태는 LSTM의 장기 기억을 나타냅니다. 이 세 개의 게이트를 각각 망각 게이트, 입력 게이트, 출력 게이트라고 합니다. 이러한 게이트는 필터 역할을 하며 정보의 흐름을 제어하고 어떤 정보를 유지할지 또는 무시할지 결정합니다.

망각 관문은 장기 기억을 얼마나 유지해야 하는지를 결정합니다. 이를 위해 시그모이드 함수를 사용하여 세포 상태의 중요성을 설명합니다. 출력은 0과 1 사이에서 다양하며 0은 정보를 유지하지 않고 1은 셀 상태에 대한 모든 정보를 유지합니다.

입력 게이트는 어떤 정보가 셀 상태에 추가되어 장기 기억에 추가되는지 결정합니다.

출력 게이트는 셀 상태의 어느 부분이 출력을 생성하는지 결정합니다. 따라서 출력 게이트는 단기 기억을 담당합니다.

일반적으로 상태는 망각 게이트와 입력 게이트를 통해 업데이트됩니다.

LSTM의 장점

LSTM의 장점은 RNN과 유사하며, 가장 큰 장점은 시퀀스의 장기 및 단기 패턴을 모두 캡처할 수 있다는 것입니다. 따라서 가장 일반적으로 사용되는 RNN입니다.

LSTM의 단점

구조가 복잡하기 때문에 LSTM의 계산 비용이 더 높아서 훈련 시간이 길어집니다.

LSTM도 시간적 역전파 알고리즘을 사용하여 가중치를 업데이트하므로 LSTM은 데드 ReLu 단위, 경사 폭발 등의 역전파의 단점을 가지고 있습니다.

GRU(Gated Recurrent Unit)

LSTM과 유사하게 GRU는 간단한 RNN의 Vanishing Gradient 문제를 해결합니다. 그러나 LSTM과의 차이점은 GRU가 더 적은 수의 게이트를 사용하고 별도의 내부 메모리, 즉 셀 상태를 갖지 않는다는 점입니다. 따라서 GRU는 숨겨진 상태를 메모리로 전적으로 의존하므로 아키텍처가 더 단순해집니다.

리셋 게이트는 과거 정보가 얼마나 유지되고 무시되는지를 결정하므로 단기 기억을 담당합니다.

업데이트 게이트는 장기 기억을 담당하며 LSTM의 망각 게이트와 비슷합니다.

현재 시간 단계의 숨겨진 상태는 두 단계에 따라 결정됩니다.

먼저 후보 숨겨진 상태를 결정합니다. 후보 상태는 현재 입력과 이전 시간 단계의 은닉 상태 및 활성화 함수의 조합입니다. 후보 숨겨진 상태에 대한 이전 숨겨진 상태의 영향은 재설정 게이트에 의해 제어됩니다.

두 번째 단계는 후보 숨겨진 상태를 이전 시간 단계의 숨겨진 상태와 결합하여 현재 숨겨진 상태를 생성하는 것입니다. 이전 Hidden State와 후보 Hidden State가 어떻게 결합되는지는 업데이트 게이트에 의해 결정됩니다.

업데이트 게이트에서 제공하는 값이 0이면 이전 히든 상태는 완전히 무시되고 현재 히든 상태는 후보 히든 상태와 동일합니다. 업데이트 게이트가 1의 값을 제공하면 그 반대가 됩니다.