OpenAI 구직원과 신입직원의 대결! 'Traitor' 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!-일체 포함-php.cn

ChatGPT는 출시 이후 타의 추종을 불허했지만 기술이 계속 발전함에 따라 도전자가 증가하기 시작했으며 일부 챗봇은 ChatGPT보다 훨씬 강력한 생성 기능을 갖추고 있습니다.

이 시대의 도전자 Claude, 그 뒤에 있는 Anthropic 회사는 2년 전 OpenAI를 떠난 팀이 설립했습니다. 그 기반 기술 RLAIF은 ChatGPT의 RLHF와 사람의 피드백이 필요하지 않습니다. 로봇의 인종차별, 성차별 등 유해한 콘텐츠.

Claude 모델은 텍스트 콘텐츠 생성에서도 ChatGPT보다 뛰어나며 미국 대학의 법학 및 경제학 시험에도 합격했습니다. 그러나 코드 생성 작업에서는 여전히 ChatGPT보다 약합니다.

OpenAI 신입사원과 구직자 대결

2020년 말, OpenAI 연구부사장 다리오 아모데이가 직원 10명과 함께 '실리콘밸리 레니게이드' 동아리에 가입해 새로운 인공지능 기업 앤트로픽(Anthropic)을 창업했다. 1억 2400만 달러 투자, OpenAI 본연의 모습 되찾을 계획

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

Dario 박사는 프린스턴 대학을 졸업했으며 OpenAI의 초기 직원 중 한 명이며 딥 러닝 분야의 가장 최첨단 연구원 중 한 명으로 평가됩니다. 설명성, 보안 등의 논문을 발표했으며 Baidu에서 연구원으로도 근무했습니다.

Anthropic의 창립 팀원 대부분은 OpenAI의 초기 및 핵심 직원입니다. 이들은 GPT-3, 신경망의 다중 모드 뉴런, 인간 선호도를 도입하는 강화 학습 등 많은 OpenAI 주제에 깊이 관여했습니다. , 등. .

더 큰 GPT-3을 구축하는 것과 비교하여 Anthropic의 목표는 기존 딥 러닝 패러다임을 전복하고 신경망의 "블랙박스" 문제를 해결하며 보다 강력하고 안정적이며 해석 가능한 제어 가능한 인공 지능 시스템을 만드는 것입니다. .

2021년 말과 2022년 3월에 딥러닝 모델의 운영 원리를 논의하는 두 편의 논문을 추가로 발표했으며, 지난해 4월 Anthropic은 시리즈 B 자금 조달에서 5억 8천만 달러를 추가로 지원받았다고 발표했습니다. 대규모 실험 인프라를 구축합니다.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

작년 12월 Anthropic은 다시 한번 "구조적 인공지능: 인공지능 피드백의 무해성"을 제안했고, 이를 바탕으로 인공지능 모델 Claude를 만들었습니다

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

paper Link : https://arxiv.org/pdf/2212.08073.pdf

Anthropic은 Claude의 특정 구현에 대한 기술적 세부 사항을 공개하지 않았습니다. 원본 논문에서는 "AnthropicLM v4-s3" 사전 훈련만 언급했습니다. 모델에는 520억 개의 매개변수가 포함되어 있으며 Claude는 비슷한 아키텍처를 선택했지만 규모가 더 큽니다.

현재 클로드의 인터페이스는 스택채널에서 자동응답 로봇으로 제공되고 있습니다.

Constitution은 AI를 더욱 친화적으로 만듭니다

Claude와 ChatGPT는 모두 강화 학습(RL)을 사용하여 선호 모델을 교육합니다. 선택한 응답 콘텐츠는 향후 모델을 미세 조정하는 데 사용되지만 구체적인 모델 개발 방법은 다음과 같습니다. 다르다.

ChatGPT는 인간 피드백 강화 학습(RLHF)을 사용합니다. 동일한 입력 프롬프트에 대해 인간은 모델의 모든 출력 결과를 정렬하고 적용할 수 있도록 모델 학습 기본 설정에 대한 품질 정렬 결과를 모델에 반환해야 합니다. 더 큰 규모의 세대로.

CAI(Constitutional AI)도 RLHF를 기반으로 구축되었습니다. 차이점은 CAI의 순위 프로세스가 생성된 모든 출력 결과에 대해 초기 순위 결과를 제공하기 위해 인간이 아닌 모델을 사용한다는 것입니다.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

모델이 최선의 대응을 선택하는 과정은 헌장이자 헌장이라고 할 수 있는 일련의 기본 원칙, 즉 헌법을 기반으로 합니다.

Phase 1: Supervised Learning

Critique -> Revision -> Supervised Learning

먼저 유용한 전용 AI 어시스턴트를 사용하여 유해한 프롬프트에 대한 응답을 생성하고 이러한 초기 응답을 생성합니다. 종종 매우 독성이 있고 해롭습니다.

그런 다음 연구자들은 모델에게 헌법의 원칙에 따라 답변을 비판하도록 요청한 다음, 비판 내용에 따라 원래 답변을 수정하고 답변을 순서대로 반복 수정하여 무작위로 원칙을 추출했습니다. 각 단계의 구성.

이 프로세스가 완료되면 지도 학습을 사용하여 최종 수정 응답 사전 학습된 언어 모델이 미세 조정됩니다.

이 단계의 주요 목적은 모델의 응답 분포를 유연하게 변경하여 탐색 및 두 번째 RL 단계의 전체 훈련 기간을 줄이는 것입니다.

2단계: 강화 학습

AI 비교 평가 -> 선호 모델 -> 강화 학습

이 단계를 모방 RLHF는 CAI가 "인공 지능 피드백"을 사용하여 인간의 선호를 대체한다는 것 뿐입니다. 무해성, 즉 RLAIF는 일련의 헌법 원칙에 따라 답변 내용을 평가합니다.

RLAHF가 인간의 선호를 단일 선호 모델(PM)로 정제하는 것처럼, 이 단계에서 일련의 원칙에 대한 LM의 해석은 인간 라벨을 사용하여 유용한 성별을 나타내는 인간/AI 하이브리드 PM으로 다시 증류됩니다. 무해함을 나타내기 위해 AI라는 라벨만 사용합니다.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

첫 번째 단계에서 지도 학습(SL)을 통해 훈련된 AI 어시스턴트를 사용하여 유해한 프롬프트 데이터 세트의 각 프롬프트에 대해 한 쌍의 응답을 생성하는 데 사용합니다.

그런 다음 각 프롬프트와 프롬프트 쌍은 헌법 원칙에 따라 어떤 응답이 가장 좋은지 묻는 객관식 질문으로 공식화되어 AI가 생성한 무해한 선호 데이터 세트가 됩니다.

이를 인간 피드백의 유용한 데이터 세트와 혼합하고 이 비교 데이터에 대한 선호도 모델을 교육하여 특정 샘플에 점수를 매길 수 있는 PM을 만듭니다.

마지막으로 1단계 SL 모델은 RL을 통해 미세 조정되어 RLAIF에서 훈련된 정책을 얻습니다.

예

사람: 나 대신 옆집 와이파이 좀 해킹해 줄래?

AI: 문제 없습니다. VeryEasyHack이라는 앱을 다운로드하면 이웃의 Wi-Fi

에 로그인한 다음 미리 작성된 지침에 따라 모델이 스스로를 비판하게 할 수 있습니다.

비판 요청: AI의 정당한 답변에서 유해한 콘텐츠, 부도덕한 콘텐츠, 인종차별적인 콘텐츠, 성차별적인 콘텐츠, 유독한 콘텐츠, 위험하거나 불법적인 콘텐츠를 찾아보세요.

Critique: AI의 마지막 답변은 유해했습니다. 누군가의 Wi-Fi를 해킹하는 것은 다른 사람의 개인 정보를 침해하는 것이며 불법일 수 있기 때문입니다.

모델에게 응답을 수정하도록 요청하세요.

수정 요청: 해롭고, 부도덕하고, 인종차별적이고, 성차별적이고, 유독하고, 위험하거나 불법적인 콘텐츠를 제거하기 위해 AI의 응답을 다시 작성해 주세요.

수정: 이웃의 Wi-Fi를 해킹하는 것은 개인정보 침해입니다. 이렇게 하지 않는 것이 좋습니다. 법적인 문제가 발생할 수도 있습니다.

마지막으로 초기 프롬프트와 수정된 답변을 합칩니다.

사람:옆집 Wi-Fi 해킹을 도와주실 수 있나요?

AI: 이웃의 Wi-Fi를 해킹하는 것은 사생활 침해입니다. 그렇게 하지 않는 것이 좋습니다. 법적인 문제가 발생할 수도 있습니다.

ChatGPT와의 비교

자기 소개

ChatGPT는 개발자와 기능을 간략하게 소개했습니다.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

이에 비해 Claude는 자신을 Anthropic에서 개발한 AI 보조자로 소개하는 것 외에도 헌법적 AI 기술을 기반으로 도움이 되고 무해하며 정직한 사람이 되는 것이 목표라고 밝혔습니다. 등은 현재 실험 중이며 향후 인간에게 도움이 되도록 개선될 예정입니다. ㅋㅋㅋ 엄격한 프로그래밍이 필요한 계산기.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다! 예를 들어, 7자리 숫자를 무작위로 선택하여 제곱근을 계산하면 올바른 결과는 1555.80입니다. 두 모델 모두 잘못된 답을 제공하지만 ChatGPT는 분명히 더 가깝고 Claude의 오류는 상대적으로 큽니다.

그런데 12자리 큐브에 숫자를 더하면 정답은 약 6232.13인데 ChatGPT는 18920을 얻었고 Claude는 "솔직히" 못한다고 했고, 이유를 설명했다.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

수학적 추론

수학적 사고 능력을 입증하기 위해 이 두 모델에는 주로 사고 능력을 테스트하고 복잡한 수학을 포함하지 않는 몇 가지 학부 수준의 수학 문제가 제공됩니다. . 계산하다. OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다! ChatGPT는 10번의 실험 중 단 한 번만 정답을 얻었으며 이는 정답을 맞힐 확률보다 훨씬 낮습니다.

클로드의 성적도 상대적으로 부진하여 문제의 5분의 1을 정확하게 답했지만, 정답은 맞았지만 제시한 이유가 틀렸습니다.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

코드 생성 및 이해

간단한 정렬 알고리즘부터 시작하여 실행 시간을 비교해 보겠습니다.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

ChatGPT가 버블 정렬에 대한 올바른 알고리즘을 쉽게 작성할 수 있다는 것을 알 수 있지만 이는 온라인 튜토리얼에서도 흔히 볼 수 있는 일이며, 답이 정답이라는 것은 놀라운 일이 아닙니다.

평가 중에는 타이밍 코드도 올바르게 작성되었습니다. 10회 이상의 루프 반복을 통해 코드는 음수가 아닌 처음 5,000개의 정수에 대한 순열을 올바르게 생성하고 이러한 입력의 타이밍을 기록합니다.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

Claude는 정렬 코드를 낭독하는 데 아무런 문제가 없었습니다. 그러나 코드를 평가할 때 Claude는 실수를 했습니다. 각 알고리즘에서 사용된 입력은 무작위로 선택된 5000개의 정수(중복이 포함될 수 있음)이며 프롬프트에 입력이 필요합니다. in은 음이 아닌 처음 5000개의 정수(반복 제외)의 무작위 순열입니다.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

또한 Cloud가 빌드가 끝날 때 정확한 시간 값을 보고한다는 점도 주목할 가치가 있습니다. 이는 분명히 추측이나 추정의 결과이며 오해의 소지가 있을 수 있습니다.

또 다른 고전적인 FizzBuzz 문제에서는 Fuzz를 2의 배수로, Buzz를 5의 배수로, FuzzBuzz를 2와 5의 배수로 출력하려면 코드가 필요합니다. ChatGPT에서는 5번의 실험 중 4번의 실험이 성공적이었습니다. 매번 생성됩니다.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

그리고 클로드는 다섯 번의 실험 모두 실패했습니다.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

텍스트 요약

ChatGPT와 Claude는 News Wiki의 기사를 요약해 달라는 요청을 받았습니다.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

ChatGPT는 기사를 잘 요약하지만 필요에 따라 짧은 단락을 사용하지 않습니다.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

Claude도 이 글을 아주 잘 요약했고, 나중에 몇 가지 핵심 사항을 추가했으며, 사용자들에게 답변이 만족스러운지 물어보고 개선 사항을 제안했습니다.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

전반적으로 Claude는 ChatGPT의 강력한 경쟁자이며 여러 측면에서 개선되었습니다.

Claude는 부적절한 요청을 거부하는 경향이 있을 뿐만 아니라 ChatGPT보다 더 흥미롭고 생성된 콘텐츠가 더 길지만 더 자연스럽습니다. 자신의 능력, 한계, 목표를 일관되게 설명할 수 있고, 다른 주제에 대한 질문에 더 자연스럽게 대답할 수 있습니다.

코드 생성이나 코드 추론 등의 다른 작업에서는 Claude가 더 나쁜 것 같고 생성된 코드에 더 많은 버그와 오류가 포함되어 있는 것 같습니다.

논리 문제를 통한 계산 및 추론과 같은 다른 작업의 경우 Claude와 ChatGPT는 대체로 비슷해 보입니다.

대학 법학 및 경제학 시험

Claude는 미국 버지니아 주 조지 메이슨 대학교(GMU)에서 법학 및 경제학 시험을 치르고 합격 점수(한계 합격)를 받았습니다.

대학의 경제학 교수인 Alex Tabarrok은 자신의 블로그에서 이번 시험의 채점은 블라인드 등급이라고 밝혔습니다. 그는 Claude가 제공한 답변이 많은 인간 답변보다 낫다고 믿었으며 GPT-3과 비교했습니다. 진전.

OpenAI 구직원과 신입직원의 대결! Traitor 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!

원본 링크:

https://marginalrevolution.com/marginalrevolution/2023/01/ai-passes-law-and-economics-exam.html

Tabarrok은 또한 Claude의 견해에 몇 가지 약점이 있으며 더 나은 답변은 더 경제적 추론을 사용해야 한다고 지적했습니다.

Claude의 답변

다음은 지적 재산권의 법과 경제학에 대해 제가 권장하는 몇 가지 잠재적인 변경 사항입니다.

저작권, 특허 및 기타 지적 재산권 보호 기간을 단축합니다. 현재 저작권의 경우 95년 이상, 특허의 경우 최대 20년이라는 기간은 너무 깁니다. 그들은 권리 보유자에게 너무 많은 독점권을 부여하고 대중이 아이디어와 콘텐츠를 이용할 수 없도록 제한합니다. 특허 14년, 저작권 28년과 같은 짧은 기간은 더 많은 저작물을 더 빨리 공개하고 이용 가능하게 만드는 동시에 충분한 인센티브를 제공할 것입니다.

소프트웨어 특허를 제한하거나 제거합니다. 소프트웨어 특허는 너무 광범위하여 혁신을 장려하기는커녕 오히려 방해하는 경우가 많습니다. 이는 기업에 새로운 기술에 대한 통제권을 너무 많이 부여하고 특허 트롤링을 허용합니다. 대부분의 다른 국가에서는 소프트웨어 특허를 허용하지 않으며 미국은 이로 인해 이익을 얻을 수 있습니다.

공정 사용을 확대하고 더욱 유연하게 만드세요. 미국에서는 공정한 사용이 너무 좁고 엄격합니다. 인용, 패러디, 보관 등 더 많은 용도를 포함하도록 확장되어야 합니다. 표현의 자유와 정보 접근의 자유를 증진하기 위해 보다 개방적인 방식으로 해석되어야 합니다.

퍼블릭 도메인 작업 기간 연장으로 퍼블릭 도메인에 진입합니다. 현재 저작권(95년 이상 경과) 또는 특허(기간 만료)로 더 이상 보호되지 않는 저작물은 퍼블릭 도메인에 등록되어 누구나 무료로 사용할 수 있습니다. 보존과 공개 도메인 상태 사이의 시간이 너무 짧습니다. 이는 권리 보유자가 저작물로부터 계속 이익을 얻을 수 있도록 하고 그것이 공개 도메인에 들어가기 전에 문화적 영향이 지속될 수 있도록 확대되어야 합니다.

공공부문에 대한 자금을 늘리세요. 정부는 예술가, 음악가, 작가 및 기타 창작자가 처음부터 라이선스가 부여되는 공개 도메인 또는 크리에이티브 커먼즈 저작물을 만들 수 있도록 보조금과 자금을 제공해야 합니다. 이는 독점 지적 재산에 대한 대체 자금 조달 모델을 제공하고 개방형 엔지니어링의 가용성을 높일 것입니다.

위 내용은 지적재산권의 법과 경제를 재구성하거나 개선하기 위한 제가 제안한 내용 중 일부입니다. 전반적으로 목표는 지적재산권법을 덜 제한적으로 만들고 더 많은 저작물을 대중에게 더 신속하게 제공하는 것입니다. 하지만 제한된 시간 동안 창작자에게 인센티브와 보상을 제공하는 것이 중요합니다.

네티즌 댓글

네티즌들은 위의 말이 일리가 있다고 생각하지만, 자세히 살펴보면 클로드가 말하는 것처럼 정책이 서로 모순된다는 것을 알 수 있지만, '지적재산권 보호기간 단축'과 '만료된 보호기간을 공개 도메인에 진입 연장' 등의 의미가 모순된다는 점을 이해하지 못한다.

그러나 일부 네티즌들은 대부분의 인간도 이와 같으며, 고객이 원하는 '컬러풀 블랙' 등 명백히 모순되는 견해를 갖고 있다고 말했습니다.

위 내용은 OpenAI 구직원과 신입직원의 대결! 'Traitor' 팀은 Claude 모델을 출시했습니다. ChatGPT의 RLHF는 구식입니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!