대형 언어 모델 교육 : TRPO에서 GRPO까지
Feb 26, 2025 am 04:41 AM
사전 훈련 : 모델은 대규모 데이터 세트를 사용하여 선행 토큰의 순서로 다음 토큰을 예측하는 법을 배웁니다. 감독 된 미세 조정 (SFT) : 타겟팅 된 데이터는 모델을 개선하여 특정 지침과 정렬합니다. 강화 학습 (RLHF) : 이 단계,이 기사의 초점은 직접적인 피드백을 통해 인간 선호도를 더 잘 일치시키기 위해 응답을 더 개선합니다.
.
-
에이전트 :
- llm 자체 환경 : 사용자 프롬프트, 피드백 시스템 및 상황 정보와 같은 외부 요인. 조치 : LLM이 쿼리에 응답하여 생성하는 토큰. 상태 : 현재 쿼리와 생성 된 토큰 (부분 응답). 보상 :
- 는 일반적으로 인간이 주식화 된 데이터에 대해 훈련 된 별도의 보상 모델 에 의해 결정되며, 점수를 지정하기위한 응답 순위. 고품질 응답은 더 높은 보상을받습니다. DeepSeekMath와 같은 특정 경우에 더 간단하고 규칙 기반 보상이 가능합니다.
- 정책 는 어떤 행동을 취할 것인지 결정합니다. LLM의 경우 다음 토큰을 샘플링하는 데 사용되는 가능한 토큰보다 확률 분포입니다. RL 교육은 정책의 매개 변수 (모델 가중치)를 조정하여 더 높은 보상 토큰을 선호합니다. 정책은 종종 다음과 같이 표시됩니다
- .
trpo (신뢰 지역 정책 최적화)
trpo는 감독 학습에서 손실 함수와 유사하지만 보상에서 파생 된 이점 기능을 사용합니다. -
TRPO는 이전 반복에서 큰 정책 편차를 방지하기 위해 대리 목표를 최대화하여 안정성을 보장합니다. PPO (근위 정책 최적화) Chatgpt 및 Gemini와 같은 LLMS에 선호되는 PPO는 클리핑 된 대리 목표를 사용하여 정책 업데이트를 제한하고 계산 효율성을 향상시켜 TRPO를 단순화합니다. PPO 목적 함수는 다음과 같습니다 GRPO (그룹 상대 정책 최적화)
결론
, 2023. //m.sbmmt.com/link/b24b1810f41d38b55728a9f56b043d35
(참고 문헌은 동일하게 유지되며, 더 나은 가독성을 위해 재구성되었습니다)
//m.sbmmt.com/link/fbf8ca43dcc014c2c94549d6b8ca0375
[2] "강화 학습." 에나리스. //m.sbmmt.com/link/20e169b48c8f869887e2bbe1c5c3ea65
위 내용은 대형 언어 모델 교육 : TRPO에서 GRPO까지의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

인기 기사

인기 기사

뜨거운 기사 태그

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











MCP (Model Context Protocol) 란 무엇입니까?

Omniparser V2 및 Omnitool을 사용하여 지역 비전 에이전트 구축

활주로 ACT-One Guide : 나는 그것을 테스트하기 위해 스스로 촬영했다

Elon Musk & Sam Altman은 5 천억 달러 이상의 Stargate 프로젝트를 충돌시킵니다.

DeepSeek은 3FS 및 Smallpond 프레임 워크를 릴리스합니다

나는 Cursor AI와 함께 Vibe 코딩을 시도했는데 놀랍습니다!
