RLHF는 인간의 피드백을 바탕으로 한 강화 학습입니다. 이 기사에서는 LLM(대형 언어 모델)이 RLHF와 결합되는 방법을 소개합니다.
강화 학습은 환경과 상호 작용하여 최적의 전략을 학습하는 기계 학습의 한 분야입니다. 에이전트는 환경 상태의 전환에 영향을 미치는 작업을 선택하고 그에 따라 보상을 받습니다. 보상은 강화 학습 에이전트가 전략을 조정하기 위한 피드백 신호입니다. 훈련 단계에서 에이전트는 보상을 기반으로 전략을 조정하여 장기적인 수익을 극대화합니다.
따라서 강화학습의 핵심인 적절한 보상 시스템을 설계하는 것이 중요합니다. 반면 RLHF는 인간의 피드백을 통합하고 인간을 훈련 프로세스에 통합하여 강화 학습 에이전트의 훈련 효과를 향상시킵니다.
대형 언어 모델(LLM)의 강화 학습 미세 조정 프로세스는 일반적으로 세 단계로 구성됩니다. 먼저 사전 훈련된 언어 모델부터 시작합니다. LLM에는 많은 양의 훈련 데이터가 필요하기 때문에 수동 피드백으로 처음부터 훈련하는 것은 비현실적입니다. 따라서 비지도 학습을 통해 사전 훈련하고 출력 생성을 위해 기존 언어 모델을 사용할 수 있습니다. 사전 학습이 완료되면 다음 단계는 미세 조정 단계입니다. 이 단계에서는 강화 학습 알고리즘을 사용하여 LLM을 최적화합니다. LLM은 환경과 상호 작용함으로써 환경으로부터 피드백을 얻고 모델 매개변수를 조정하여 결과를 최적화할 수 있습니다. 마지막 단계는 후속 미세 조정입니다. 이 단계에서 LLM은 특정 작업과 상호 작용하고
를 통해 작업을 수행합니다. 다음으로 두 번째 단계로 들어가면 RL 시스템에 대한 보상 모델을 만들어야 합니다. 이 단계에서는 기본 모델에서 생성된 텍스트를 가져와 이에 대한 품질 점수를 생성하는 또 다른 기계 학습 모델을 교육합니다. 일반적으로 다른 LLM 모델을 사용하고 텍스트 토큰 시퀀스 대신 스칼라 값을 출력하도록 수정합니다. 이 품질 점수는 메인 모델이 더 높은 품질의 텍스트를 생성하도록 안내하는 보상 신호로 사용됩니다.
보상 모델을 훈련하려면 LLM 생성 텍스트가 포함된 품질 평가 데이터세트를 구축해야 합니다. 각 교육 예제는 LLM에서 생성된 힌트와 여러 출력으로 구성됩니다. 다음으로 우리는 인간에게 생성된 텍스트의 품질을 평가하도록 요청했습니다. 그런 다음 이러한 평가 결과를 사용하여 LLM 생성 텍스트의 점수를 예측하는 보상 모델을 교육합니다. 보상 모델은 LLM의 출력과 평가 간의 학습을 통해 인간 선호도에 대한 수학적 표현을 구축할 수 있습니다.
마지막 단계에서 우리는 강화 학습 루프를 미세 조정하고 만들었습니다. 마스터 LLM의 복제본이 RL 에이전트로 사용됩니다. 각 훈련 세트에서 LLM은 데이터 세트에서 여러 단서를 가져와 텍스트를 생성합니다. 그런 다음 텍스트는 인간 선호도와의 일관성을 평가하는 점수를 할당하는 보상 모델로 전달됩니다. 그런 다음 LLM을 업데이트하여 보상 모델에서 더 높은 점수를 받는 출력을 생성합니다.
이것은 언어 모델을 위한 일반적인 RLHF 프레임워크이지만 구현 목표에 따라 해당 수정이 필요합니다.
RLHF의 언어 모델에 대한 또 다른 고려 사항은 보상 최적화와 언어 일관성 간의 균형을 유지하는 것입니다. 보상 모델은 인간 선호도의 불완전한 근사치일 뿐이지만 에이전트 LLM은 대부분의 RL 시스템과 유사하게 구문적 또는 논리적 일관성을 위반하여 보상을 최대화할 수 있습니다. 이러한 일이 발생하지 않도록 ML 팀은 원본 LLM의 복사본을 보관하고 이를 RL 루프에서 사용합니다. 그들은 모델과 원래 출력 사이의 과도한 편차를 방지하기 위해 원래 LLM의 출력과 RL 훈련된 LLM의 출력(KL 발산)의 차이를 보상 신호에 음수 값으로 통합했습니다. 이 전략은 보상 최적화와 언어 일관성 간의 관계 균형을 맞추는 것을 목표로 합니다.
위 내용은 언어 모델에서 RLHF 기술의 기원과 적용은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!