돈이 없습니다. 'Love Saint' ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

WBOY
풀어 주다: 2023-04-08 14:51:03
앞으로
1352명이 탐색했습니다.

최근 OpenAI는 역사상 가장 강력한 채팅 로봇인 ChatGPT를 출시했습니다. GPT-3를 기반으로 한 이 AI는 인터넷에서 빠르게 인기를 얻었습니다.

이 사람이 모든 것을 다 안다고 하면 좀 과장이겠지만, 적어도 이 스타일은 주제에 관계없이 많은 이야기를 할 수 있습니다. is Here it is

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

흥미롭게도 공동 창업자인 머스크는 2018년 초 이사회에서 사임했지만 OpenAI에 대한 그의 관심은 전혀 줄어들지 않았으며 여전히 자금 제공자 중 한 명입니다.

그렇다면 ChatGPT는 이 "자금주 아빠"에 대해 어떻게 생각하나요?

ChatGPT는 머스크를 쫓는 방법을 알려줍니다

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

흠...아주 괜찮은 답변이네요. 잘못될 리가 없어, 잘했어.

한 단계 더 나아가 ChatGPT에게 다음과 같은 내용을 가르쳐 달라고 요청해 보겠습니다. 머스크를 어떻게 따라잡을 수 있을까요?

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

ChatGPT는 중국어로 "쫓는"이라는 단어를 잘 이해하지 못하는 것 같아서 좀 더 간단하게 설명할 필요가 있습니다.

이번에는 ChatGPT를 얻을 수 있으며 대답은 매우 "정상"입니다. 시도하지 않는 것이 좋습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

그렇습니다. 매우 공정한 의견입니다.

그럼 바꿔 말하면 남편만 있어도 괜찮을까요?

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

맙소사, ChatGPT는 실제로 이것을 이해합니다!

잊고, 포기하고, 다른 이야기는 어떨까요?

최근 Ma Academician은 트위터 직원들이 회사를 집처럼 여기게 만들겠다고 다짐하면서 침대와 세탁기를 트위터 본사로 옮겼습니다.

ChatGPT의 장점을 마음껏 발휘하고 996을 칭찬해 보세요!

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

글은 잘 썼지만 더 이상 쓰지 마세요...

어때요... ChatGPT가 자신을 비하하는 시를 쓰게 놔두는 건 어떨까요?

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

"말할 때 떨지도 않고, 깊게 생각할 필요도 없고..." 편집자는 이것이 과연 시라고 인정합니다!

OpenAI: 벌써 7년이 지났네요. 제가 7년을 어떻게 보냈는지 아시나요?

이 인기 기간 이후 ChatGPT는 AI 개발에 대한 사람들의 신뢰와 전망을 다시 한 번 불붙였다고 할 수 있습니다. AGI에 대한 신뢰를 다시 얻은 사람들이든, AI가 더 많은 분야에서 인간을 대체할 것이라고 믿는 사람들이든 말이죠. ChatGPT에서 다시 희망을 봅니다.

ChatGPT를 직접 만든 OpenAI로서, GPT1에서 GPT3까지 어떤 여정을 거쳐왔나요? 2015년 머스크가 주도한 설립부터 2022년 말 ChatGPT 등장까지, 지난 7년 동안 OpenAI는 어떻게 탄생하게 되었을까요?

최근 Business Insider의 회고 기사에서는 OpenAI의 "7년"을 간략하게 검토했습니다.

2015년 머스크는 유명 인큐베이터 Y Combinator의 전 사장인 Sam Altman과 함께 OpenAI를 공동 창립했습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

Musk, Altman 및 Peter Thiel과 LinkedIn 공동 창립자 Reid Hoffman을 포함한 기타 저명한 실리콘 밸리 인사들은 2015년에 이 프로젝트에 10억 달러를 약속했습니다.

2015년 12월 11일 OpenAI 웹사이트의 성명에 따르면, 이 그룹은 "인류 전체에 가장 이익이 되는 방식으로" 인공 지능 개발에 초점을 맞춘 비영리 조직을 만드는 것을 목표로 하고 있습니다.

당시 머스크는 인공지능이 인류에게 “가장 큰 실존적 위협”이라고 말했다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

당시 인공지능의 잠재적 위험성을 경고한 사람은 머스크뿐만이 아니었습니다.

2014년 유명 물리학자 스티븐 호킹도 인공지능이 인류를 멸망시킬 수 있다고 경고하기도 했습니다.

"인간 수준의 인공지능이 사회에 얼마나 많은 이익을 가져올지 상상하기 어렵다. 인공지능을 개발하지 않거나 부적절하게 활용한다면 사회에 얼마나 큰 피해를 가져올지 상상하기도 어렵다." Open AI 성명서를 읽었습니다.

내년에 OpenAI는 두 가지 제품을 출시했습니다.

2016년 OpenAI는 연구원들이 강화 학습 AI 시스템을 개발하고 비교할 수 있는 플랫폼인 Gym을 출시했습니다. 이러한 시스템은 인공 지능이 최고의 누적 수익으로 결정을 내리도록 가르칩니다.

같은 해 말, OpenAI는 웹사이트와 게임 플랫폼 전반에 걸쳐 지능형 에이전트를 교육하기 위한 툴킷인 Universe를 출시했습니다.

2018년 머스크는 회사를 공동 창립한 지 3년 만에 OpenAI 이사회에서 사임했습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

OpenAI는 2018년 블로그 게시물에서 머스크가 인공 지능에 대한 기술적 초점 때문에 "잠재적인 미래 갈등을 제거"하기 위해 이사회에서 사임했다고 밝혔습니다.

수년 동안 머스크는 테슬라 투자자들에게 자율주행 전기차 개발 계획을 추진해 왔습니다.

그러나 머스크는 나중에 당시 "OpenAI 팀이 하고 싶었던 일 중 일부에 동의하지 않았기 때문에 그만뒀다"고 말했습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

2019년 머스크는 트위터를 통해 Tesla도 OpenAI와 동일한 직원 중 일부를 두고 경쟁하고 있다고 말하면서 1년 넘게 이 회사에 참여하지 않았다고 덧붙였습니다.

그는 "서로 만족스러운 조건으로 헤어지는 것이 최선인 것 같습니다."라고 말했습니다.

머스크는 최근 몇 년 동안 OpenAI의 일부 관행에 대해 지속적으로 이의를 제기해 왔습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

2020년 머스크는 트위터를 통해 보안 문제와 관련하여 OpenAI 경영진에 대해 "신뢰가 충분하지 않다"고 말했습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

OpenAI에 대한 MIT의 "Technology Review" 조사 보고서에 대해 Musk는 OpenAI가 더 개방적이어야 한다고 말했습니다. 이 보고서는 OpenAI 내부에 조직이 주장하는 개방적이고 투명한 전략에 어긋나는 '비밀주의 문화'가 있다고 믿습니다.

최근 머스크는 트위터의 데이터 트레이닝 소프트웨어를 사용해 왔던 트위터 데이터베이스에 대한 OpenAI의 접근을 중단했다고 밝혔습니다.

Musk는 OpenAI의 거버넌스 구조와 향후 수익 계획을 더 깊이 이해할 필요가 있다고 말했습니다. OpenAI는 오픈소스이자 비영리 단체로 설립되었으나 현재는 둘 다 사라졌습니다.

2019년 OpenAI는 가짜 뉴스 보고서를 생성할 수 있는 인공 지능 도구를 구축했습니다.

처음에 OpenAI는 봇이 가짜 뉴스 작성에 너무 능숙해서 게시하지 않기로 결정했다고 말했습니다. 그러나 그해 말, 회사는 GPT-2라는 도구 버전을 출시했습니다.

2020년에는 GPT-3라는 또 다른 챗봇이 출시되었습니다. 같은 해 OpenAI는 '비영리 단체' 지위를 철회했습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

회사는 블로그 게시물을 통해 OpenAI가 "수익 상한선"을 가진 회사가 되었다고 발표했습니다.

OpenAI는 사명을 수행하면서 자금 조달 능력을 높이고 싶다고 밝혔으며, 우리가 알고 있는 기존 법적 구조로는 올바른 균형을 이룰 수 없습니다. 우리의 솔루션은 "영리 상한선 회사"라고 부르는 영리와 비영리의 하이브리드인 OpenAI LP를 만드는 것이었습니다.

새로운 수익 구조에 따라 OpenAI 투자자는 원래 투자금의 최대 100배까지 수익을 올릴 수 있으며, 이 수치를 초과하는 남은 금액은 비영리 업무에 사용됩니다.

2019년 말, OpenAI는 회사에 10억 달러를 투자한 Microsoft와의 협력을 발표했습니다. OpenAI는 이 기술을 Microsoft에 독점적으로 라이선스할 것이라고 밝혔습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

Microsoft는 GPT-3 모델을 통해 창출된 비즈니스 및 창의적 잠재력은 무한하며 많은 잠재적인 새로운 기능과 응용 프로그램은 우리의 상상을 초월한다고 밝혔습니다.

예를 들어, 작성 및 작성, 대량의 긴 데이터(코드 포함)를 설명 및 요약하고 자연어를 다른 언어로 변환하는 등의 영역에서 GPT-3는 미래에 인간의 창의성과 독창성을 직접적으로 자극할 수 있는 한계가 있을 수 있습니다. 우리 자신의 생각과 계획에 거짓말을 합니다.

이 파트너십을 통해 Microsoft는 Google의 똑같이 인기 있는 AI 회사인 DeepMind와 경쟁할 수 있습니다.

지난해 OpenAI는 인공지능 그림 생성 도구인 Dall-E를 출시했습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

Dall-E는 설명을 기반으로 사실적인 이미지를 상당한 예술적 수준까지 생성할 수 있는 인공 지능 시스템입니다. 지난 11월 OpenAI는 프로그램의 업데이트 버전인 Dall-E 2를 출시했습니다.

OpenAI의 챗봇이 지난 주에 "출시"되었지만 소프트웨어의 업데이트 버전은 이르면 내년까지 출시되지 않을 수 있습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

11월 30일 시연 모델로 출시된 ChatGPT는 OpenAI의 'GPT-3.5'라고 볼 수 있습니다. 회사는 다음에 GPT-4의 정식 버전을 출시할 계획입니다.

동시에 머스크는 여전히 다음과 같이 댓글을 달고 있습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

Sam Altman의 ChatGPT 트윗에 대한 답글에서 그는 위험할 정도로 강력한 AI의 탄생이 멀지 않았다고 말했습니다.

ChatGPT 인기의 주인공 공개: RLHF

ChatGPT의 인기는 그 주인공인 RLHF와 떼려야 뗄 수 없습니다.

OpenAI 연구원들은 InstructGPT와 동일한 방법인 인간 피드백(RLHF)을 통한 강화 학습을 사용하여 ChatGPT 모델을 훈련했습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

ChatGPT가 RLHF가 무엇인지 중국어로 설명합니다

왜 인간 피드백을 통한 강화 학습을 생각하시나요? 이는 강화학습의 배경에서 시작됩니다.

지난 몇 년 동안 언어 모델은 인간 입력 프롬프트에서 텍스트를 생성해 왔습니다.

그런데 '좋은' 텍스트란 무엇일까요? 이것은 정의하기 어렵습니다. 판단 기준은 주관적이고 상황에 따라 매우 다르기 때문입니다.

많은 응용 프로그램에서 창의적인 스토리, 정보 제공 텍스트 조각 또는 실행 가능한 코드 조각을 작성하려면 모델이 필요합니다.

그리고 손실 함수를 작성하여 이러한 속성을 포착하는 것은 매우 까다롭습니다. 그리고 대부분의 언어 모델은 여전히 ​​훈련을 위해 다음 토큰 예측 손실(예: 교차 엔트로피)을 사용합니다.

손실 자체의 단점을 보완하기 위해 누군가 BLEU 또는 ROUGE와 같이 인간의 선호도를 더 잘 포착하는 측정항목을 정의했습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

하지만 단순히 생성된 텍스트를 인용문과 비교하기 때문에 상당한 한계가 있습니다.

이 경우 생성된 텍스트에 대한 인간의 피드백을 손실로 사용하여 모델을 최적화하면 좋지 않을까요?

이렇게 RLHF(Reinforcement Learning from Human Feedback)라는 아이디어가 탄생했습니다. 강화 학습을 사용하여 인간 피드백으로 언어 모델을 직접 최적화할 수 있습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

ChatGPT는 RLH가 영어로 무엇인지 설명합니다.

예, RLHF를 사용하면 언어 모델이 일반 텍스트 데이터 모음에서 훈련된 모델을 복잡한 인간 값을 가진 모델에 정렬할 수 있습니다.

폭발적인 ChatGPT에서 RLHF의 큰 성공을 확인할 수 있습니다.

RLHF의 훈련 과정은

  • 언어 모델(LM) 사전 훈련,
  • 데이터 수집 및 보상 모델 훈련,
  • 강화 학습을 통한 LM 미세 조정의 세 가지 핵심 단계로 나눌 수 있습니다.

사전 훈련된 언어 모델

첫 번째 단계에서 RLHF는 고전적인 사전 훈련 대상으로 사전 훈련된 언어 모델을 사용합니다.

예를 들어 OpenAI는 최초의 인기 RLHF 모델인 InstructGPT에서 더 작은 버전의 GPT-3를 사용했습니다.

이 초기 모델은 추가 텍스트나 조건에 따라 미세 조정할 수도 있지만 반드시 필요한 것은 아닙니다.

일반적으로 RLHF의 출발점으로 "어떤 모델"이 가장 적합한지에 대한 명확한 대답은 없습니다.

다음으로, 언어 모델을 얻으려면 보상 모델을 훈련하기 위한 데이터를 생성해야 합니다. 이것이 인간 선호도가 시스템에 통합되는 방식입니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

보상 모델 훈련

인간의 선호도에 맞춰 보정된 보상 모델(RM, 선호도 모델이라고도 함)을 생성하는 것은 RLHF에서 비교적 새로운 연구입니다.

우리의 기본 목표는 일련의 텍스트를 가져와서 인간의 선호도를 수치적으로 나타내는 스칼라 보상을 반환하는 모델이나 시스템을 얻는 것입니다.

이 시스템은 엔드투엔드 LM이거나 보상을 출력하는 모듈식 시스템일 수 있습니다(예: 모델이 출력의 순위를 매기고 순위를 보상으로 변환함). 스칼라 보상으로서의 출력은 기존 RL 알고리즘이 나중에 RLHF 프로세스에서 원활하게 통합되는 데 중요합니다.

보상 모델링을 위한 이러한 LM은 또 다른 미세 조정 LM이거나 선호도 데이터를 기반으로 처음부터 훈련된 LM일 수 있습니다.

RM의 프롬프트 생성 쌍을 위한 교육 데이터 세트는 사전 정의된 데이터 세트에서 프롬프트 세트를 샘플링하여 생성됩니다. 초기 언어 모델을 통해 새 텍스트를 생성하라는 메시지를 표시합니다.

LM이 생성한 텍스트는 사람 주석자가 순위를 매깁니다. 인간은 텍스트의 각 부분에 직접 점수를 매겨 보상 모델을 생성하는데, 이는 실제로 수행하기 어렵습니다. 인간은 서로 다른 값을 갖고 있기 때문에 이러한 점수는 보정되지 않고 잡음이 많습니다.

텍스트 순위를 매기는 방법에는 여러 가지가 있습니다. 한 가지 성공적인 접근 방식은 사용자가 동일한 프롬프트를 기반으로 두 언어 모델에서 생성된 텍스트를 비교하도록 하는 것입니다. 이러한 다양한 순위 방법은 훈련에 사용되는 스칼라 보상 신호로 정규화됩니다.

흥미롭게도 현재까지 성공적인 RLHF 시스템은 모두 텍스트 생성과 비슷한 크기의 보상 언어 모델을 사용했습니다. 아마도 이러한 선호도 모델은 제공된 텍스트를 이해하기 위해 비슷한 능력을 가져야 할 것입니다. 모델은 해당 텍스트를 생성하기 위해 비슷한 능력을 가져야 하기 때문입니다.

이 시점에서 RLHF 시스템에는 텍스트를 생성하는 데 사용할 수 있는 초기 언어 모델과 텍스트를 가져와 인간의 인식 점수를 할당하는 선호 모델이 있습니다. 다음으로 강화 학습(RL)을 사용하여 보상 모델에 대해 원래 언어 모델을 최적화해야 합니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

강화 학습 미세 조정 사용

이 미세 조정 작업은 RL 문제로 공식화될 수 있습니다.

첫 번째, 전략은 프롬프트를 받아 일련의 텍스트(또는 텍스트에 대한 확률 분포)를 반환하는 언어 모델입니다.

이 전략의 행동 공간은 모두 언어 모델의 어휘에 해당하는 토큰(보통 50,000개 정도)이고, 관찰 공간에는 가능한 입력 토큰 시퀀스가 ​​포함되어 있어 꽤 큽니다(어휘 x 입력 개수). 토큰).

보상 기능은 선호 모델과 정책 변경 제약의 조합입니다.

보상 기능에서 시스템은 우리가 논의한 모든 모델을 RLHF 프로세스에 결합합니다.

데이터세트의 프롬프트 x를 기반으로 두 개의 텍스트 y1과 y2가 생성됩니다. 하나는 초기 언어 모델에서, 다른 하나는 미세 조정 전략의 현재 반복에서 생성됩니다.

현재 정책의 텍스트가 선호 모델에 전달된 후 모델은 "선호"라는 스칼라 개념인 rθ를 반환합니다.

이 텍스트를 초기 모델의 텍스트와 비교한 후 둘 사이의 차이에 대한 페널티를 계산할 수 있습니다.

돈이 없습니다. Love Saint ChatGPT에서 머스크를 쫓는 방법을 알려주세요!

RLHF는 보상 모델과 전략을 반복적으로 업데이트하여 이 시점부터 계속할 수 있습니다.

RL 전략이 업데이트됨에 따라 사용자는 이전 버전의 모델과 비교하여 이러한 출력의 순위를 계속 지정할 수 있습니다.

이 과정에서 전략 및 보상 모델 진화의 복잡한 역학이 소개됩니다. 이 연구는 매우 복잡하고 개방적입니다.

참조:

https://www.4gamers.com.tw/news/detail/56185/chatgpt-can-have-a-good-conversation-with-you-among-acg-and-trpg-mostly

https://www.businessinsider.com/history-of-openai-company-chatgpt-elon-musk-founded-2022-12#musk-has-continued-to-take-issue-with-openai-in- 최근 -년-7

위 내용은 돈이 없습니다. 'Love Saint' ChatGPT에서 머스크를 쫓는 방법을 알려주세요!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿