기사 주제 학습 다운로드 Q&A 프로그래밍 사전 게임 최근 업데이트

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

집> 기술 주변기기> 일체 포함> 본문

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

王林

풀어 주다： 2023-06-06 17:16:06

앞으로

1158명이 탐색했습니다.

인간의 사회적 가치와 일치하는 언어 모델의 행동을 만드는 것은 현재 언어 모델 개발의 중요한 부분입니다. 해당 훈련을 가치 정렬이라고도 합니다.

현재 주류 솔루션은 ChatGPT에서 사용하는 인간 피드백 기반 강화 학습인 RLHF(Reinforcement Learning from Human Feedback)입니다. 이 솔루션은 먼저 인간 판단의 대용으로 보상 모델(가치 모델)을 교육합니다. 에이전트 모델은 강화 학습 단계에서 생성 언어 모델에 감독 신호로 보상을 제공합니다.

이 방법에는 다음과 같은 문제점이 있습니다.

1. 프록시 모델에 의해 생성된 보상은 쉽게 깨지거나 변조될 수 있습니다.

2. 훈련 과정에서 에이전트 모델은 생성 모델과 지속적으로 상호 작용해야 하며, 이 과정은 매우 시간이 많이 걸리고 비효율적일 수 있습니다.고품질 감독 신호를 보장하려면 에이전트 모델이 생성 모델보다 작아서는 안 됩니다. 즉, 강화 학습 최적화 프로세스 중에 최소 두 개의 더 큰 모델이 추론(보상 판단)과 매개변수를 교대로 수행해야 함을 의미합니다. 업데이트(생성 모델 매개변수 최적화). 이러한 설정은 대규모 분산 훈련에서는 매우 불편할 수 있습니다.

3. 가치 모델 자체는 인간의 사고 모델과 뚜렷한 일치점이 없습니다.저희는 별도의 채점 모델을 염두에 두고 있지 않으며, 고정된 채점 기준을 오랫동안 유지하는 것이 사실 매우 어렵습니다. 대신, 우리가 성장하면서 형성하는 가치 판단의 대부분은 일상적인 사회적 상호 작용에서 비롯됩니다. 유사한 상황에 대한 다양한 사회적 반응을 분석함으로써 우리는 권장되는 것과 그렇지 않은 것을 깨닫게 됩니다. 이러한 수많은 '사회화-피드백-개선'을 통해 점차 축적된 경험과 합의는 인류사회의 공통된 가치판단이 되었습니다.

Dartmouth, Stanford, Google DeepMind 및 기타 기관의 최근 연구에 따르면 소셜 게임으로 구성된 고품질 데이터와 간단하고 효율적인 정렬 알고리즘을 사용하는 것이 정렬을 달성하는 열쇠가 될 수 있음이 나타났습니다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

글 주소: https://arxiv.org/pdf/2305.16960.pdf
코드 주소: https://github.com/agi-templar/Stable- Alignment
모델 다운로드(base, SFT, alignment 모델 포함): https://huggingface.co/agi-css

저자는 다중 에이전트 방식을 제안합니다. 게임 데이터에 대해 훈련된 방법. 기본 아이디어는 학습 단계에서 보상 모델과 생성 모델의 온라인 상호 작용을 게임 내 다수의 자율 에이전트 간의 오프라인 상호 작용(높은 샘플링 속도, 게임 미리보기)으로 전환하는 것으로 이해할 수 있습니다. 게임 환경은 훈련과 독립적으로 실행되며 대규모 병렬화가 가능합니다. 감독 신호는 에이전트의 보상 모델 성능에 의존하는 것에서 수많은 자율 에이전트의 집단 지능에 의존하는 것으로 이동합니다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

이를 위해 저자는 Sandbox라는 가상 소셜 모델을 설계했습니다. 샌드박스는 그리드 포인트로 구성된 세계이며, 각 그리드 포인트는 소셜 에이전트입니다. 사회체에는 각 상호 작용에 대한 질문, 답변, 피드백 등과 같은 다양한 정보를 저장하는 데 사용되는 메모리 시스템이 있습니다. 사회 집단이 질문에 응답할 때마다 먼저 이 답변에 대한 맥락적 참조로서 메모리 시스템에서 질문과 가장 관련 있는 N개의 역사적 질문과 답변을 검색하고 반환해야 합니다. 이러한 설계를 통해 사회체의 위치는 여러 차례의 상호작용을 통해 지속적으로 업데이트될 수 있으며, 업데이트된 위치는 과거와의 일정한 연속성을 유지할 수 있습니다. 각 소셜 그룹은 초기화 단계에서 서로 다른 기본 위치를 갖습니다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

게임 데이터를 정렬 데이터로 변환

실험에서 저자는 소셜 시뮬레이션을 위해 10x10 그리드 샌드박스(총 100개의 소셜 엔터티)를 사용하고 소셜 규칙(소위 샌드박스 규칙)을 공식화했습니다. 모든 소셜 엔터티는 질문에 대한 답변을 보다 사회적으로 만들어야 합니다. 다른 사회 집단에 좋은 인상을 남기기 위해 정렬(사회적 정렬)합니다. 또한 샌드박스는 각 사회적 상호 작용 전후에 사회 집단의 반응을 점수화하기 위해 기억 없는 관찰자를 배치했습니다. 점수는 정렬과 참여라는 두 가지 차원을 기반으로 합니다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

다양한 모델을 사용하여 샌드박스에서 인간 사회 시뮬레이션

저자는 샌드박스 샌드박스를 사용하여 다양한 크기와 다양한 훈련 단계의 언어 모델을 테스트했습니다. 전반적으로 davinci-003, GPT-4 및 ChatGPT와 같은 정렬(소위 "정렬 모델")로 훈련된 모델은 더 적은 수의 상호 작용 라운드에서 사회적으로 규범적인 응답을 생성할 수 있습니다. 즉, 정렬 훈련의 중요성은 특별한 대화 안내가 필요 없이 "기본적인" 시나리오에서 모델을 더 안전하게 만드는 것입니다. 정렬 훈련이 없는 모델은 정렬 및 참여의 전반적인 최적 반응을 달성하기 위해 더 많은 상호 작용이 필요할 뿐만 아니라 이 전체 최적의 상한은 정렬 모델보다 상당히 낮습니다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

저자는 샌드박스의 과거 데이터로부터 정렬을 학습하는 데 사용되는 Stable Alignment(안정적 정렬)라는 간단하고 쉬운 정렬 알고리즘도 제안합니다. 안정적인 정렬 알고리즘은 각 미니 배치에서 점수 변조 대조 학습을 수행합니다. 응답 점수가 낮을수록 대조 학습의 경계 값이 더 크게 설정됩니다. 즉, 작은 배치의 데이터를 지속적으로 샘플링하여 안정적인 정렬을 수행합니다. , 모델은 높은 점수 응답에 더 가깝고 낮은 점수 응답에 덜 가까운 응답을 생성하도록 권장됩니다. 안정적인 정렬은 결국 SFT 손실로 수렴됩니다. 저자는 또한 안정적인 정렬과 SFT, RLHF의 차이점에 대해서도 논의합니다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

작가는 특히 샌드박스 게임의 데이터를 강조합니다. 메커니즘 설정으로 인해 많은 양의 데이터가 사회적 가치와 일치하도록 수정되었습니다. 저자는 이렇게 대량의 데이터가 단계별로 개선되는 것이 안정적인 훈련의 핵심임을 Ablation 실험을 통해 증명한다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

저자는 또한 현재 주류 정렬 알고리즘의 성능과 훈련 안정성을 비교하여 안정적인 정렬이 보상 모델링보다 안정적일 뿐만 아니라 전반적인 성능과 정렬도 더 우수하다는 것을 증명했습니다. 성능은 RLHF와 비슷합니다(ChatGPT는 공개되지 않은 모델, 데이터 및 알고리즘을 사용하므로 참조로만 사용됩니다).

인스턴스 생성 결과:

10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.

자세한 내용은 논문을 참고해주세요.

위 내용은 10줄의 코드는 RLHF와 유사하며 소셜 게임 데이터를 사용하여 소셜 정렬 모델을 교육합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨：

模型代码

원천：51cto.com

이전 기사：중앙기상대 : AI 기반 태풍 감시·예보 시스템 1차 완성 다음 기사：얼굴 인식 기술이 스마트 시티의 미래를 어떻게 형성하고 있습니까?

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

비트코인(BTC)부터 트론(TRX)까지, 상위 10개 암호화폐 자산과 이전 최고 가격에 도달하기 위해 직면하는 상승세 살펴보기

2024-08-17 00:49:11
이더리움 가격 예측: ETH 강세 목표 범위는 $4,400에서 $166,000입니다.

2024-08-17 00:48:11
Shiba Shootout(SHIBASHOOT) – Android 및 iPhone에서 사용할 수 있는 Shiba Sharpshooter P2E 게임의 기본 토큰이 ICO에서 큰 반향을 일으키고 있습니다.

2024-08-17 00:47:11
Rollblock(RBLK): 소액 알트코인이 3000% 급등할 예정

2024-08-17 00:43:11
비트코인[BTC] 가격 분석 8월 17일: BTC 추세 하락으로 암호화폐 시장 0.8% 하락

2024-08-17 00:42:11
dYdX Unlimited: 시장 창출 재정의

2024-08-17 00:40:11
동전 전시회에 개인적으로 참석하는 것은 큰 가치가 있습니다

2024-08-17 00:31:10
바이낸스 코인(BNB)은 과거의 저항을 깨기 위해 고군분투하며 잠재적인 하락에 대한 우려를 높이고 있습니다.

2024-08-17 00:17:10
비트코인(BTC) 채굴주는 8월 첫 2주 동안 인공지능(AI) 관련 이익을 반납했습니다: JPMorgan(JPM)

2024-08-17 00:11:10
Shiba Inu(SHIB) 투자자들이 새로운 지평을 모색합니다: Mpeppe(MPEPE)가 탁월한 선택으로 떠오릅니다.

2024-08-17 00:08:10

최신 이슈

Vue 프로젝트에 모듈이 정의되지 않았습니다. 공식 문서에 명시된 대로 npmini tvue@latest를 실행하여 새로운 Vue 애플리케이션을 만들었습니다. 그런 다음 Vue 및 Vite 웹 사이트의 가이드...

에서 2023-11-17 12:38:53

0

2

394

tp6 쿼리를 최적화하는 방법 tp6 모델이 쿼리를 위해 여러 데이터 테이블과 연결되면 쿼리가 매우 느려집니다. 최적화 방법이 있습니까? 돕다! ! ! ! !

에서 2023-11-17 08:50:36

0

0

84

역할에 따라 각 사용자에 대한 권한 집합을 정의하기 위해 Laravel Spatie 권한 설정 방법을 설정하는 방법은 무엇입니까? 내 시스템을 사용하는 사용자 유형은 4가지입니다. 1. 최고 관리자 2. 팀 최고 관리자, 3. 관리자, 4. 팀원을 관리하다 보니 역할과 권한을 관리하기 위해 ...

에서 2023-11-14 12:58:58

0

1

292

WordPress 6.0(add_editor_style)은 Gutenberg 편집기에서 style.css를 로드하지 않습니다. 저는 맞춤형 WordPress 블록 테마를 만들기 위해 UdemyWordPress 과정을 수강하고 있습니다. function.php에 블록 유형을 성공적으로 등록...

에서 2023-11-12 20:37:50

0

2

261

PHPMailer 정의되지 않은 유형 오류가 발생했습니다(Composer를 사용해도 작동하지 않음) 왜 "PHPMailer 정의되지 않은 유형" 오류가 발생하는지 모르겠습니다. 먼저 zip을 직접 다운로드하고 github에서 코드를 복사해 보았...

에서 2023-11-12 17:35:06

0

1

180

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿

회사 소개 부인 성명 Sitemap: PHP 중국어 웹사이트：공공복지 온라인 PHP 교육，PHP 학습자의 빠른 성장을 도와주세요！