ChatGPT 주제 1 GPT 제품군 발전 내역-일체 포함-php.cn

타임라인

2018년 6월

OpenAI가 1억 1천만 개의 매개변수를 갖춘 GPT-1 모델을 출시합니다.

2018년 11월

OpenAI는 15억 개의 매개변수를 갖춘 GPT-2 모델을 출시했지만, 남용 우려로 인해 모델의 모든 코드와 데이터는 대중에게 공개되지 않습니다.

2019년 2월

OpenAI는 GPT-2 모델의 일부 코드와 데이터를 공개했지만 여전히 액세스가 제한되어 있습니다.

2019년 6월 10일

OpenAI는 1,750억 개의 매개변수를 갖춘 GPT-3 모델을 출시하고 일부 파트너에게 액세스를 제공했습니다.

2019년 9월

OpenAI는 GPT-2의 모든 코드와 데이터를 공개하고 더 큰 버전을 출시했습니다.

2020년 5월

OpenAI는 1,750억 개의 매개변수를 갖고 있으며 현재까지 최대 규모의 자연어 처리 모델인 GPT-3 모델의 베타 버전 출시를 발표했습니다.

2022년 3월

OpenAI는 Instruction Tuning을 사용한 InstructGPT를 출시했습니다

2022년 11월 30일

OpenAI는 GPT-3.5 시리즈의 대규모 언어 모델을 미세 조정했으며, 새로운 대화형 AI 모델인 ChatGPT가 공식 출시되었습니다.

2022년 12월 15일

ChatGPT가 처음으로 업데이트되어 전반적인 성능이 향상되고 과거 대화 기록을 저장하고 볼 수 있는 새로운 기능이 추가되었습니다.

2023년 1월 9일

ChatGPT가 두 번째로 업데이트되어 답변의 신뢰성이 향상되고 새로운 '생성 중지' 기능이 추가되었습니다.

2023년 1월 21일

OpenAI는 일부 사용자에게만 제한된 ChatGPT Professional 유료 버전을 출시했습니다.

2023년 1월 30일

ChatGPT가 세 번째로 업데이트되어 답변의 신뢰성뿐만 아니라 수학적 능력도 향상되었습니다.

2023년 2월 2일

OpenAI가 ChatGPT 유료 버전 구독 서비스를 공식 출시했습니다. 무료 버전에 비해 새 버전은 더 빠르게 응답하고 더 안정적으로 실행됩니다.

2023년 3월 15일

OpenAI가 텍스트를 읽을 수 있을 뿐만 아니라 이미지를 인식하고 텍스트 결과를 생성할 수 있는 대규모 멀티모달 모델 GPT-4를 충격적으로 출시했습니다. 이제 ChatGPT에 연결되어 Plus에 공개됩니다. 사용자.

GPT-1: 단방향 Transformer 기반 사전 훈련된 모델

GPT가 등장하기 전에 NLP 모델은 주로 특정 작업에 대해 주석이 달린 대량의 데이터를 기반으로 훈련되었습니다. 이로 인해 몇 가지 제한 사항이 발생합니다.

대규모 고품질 주석 데이터는 얻기가 쉽지 않습니다.

모델은 받은 교육으로 제한되며 일반화 능력이 부족합니다. 기본 작업으로 인해 모델 적용이 제한됩니다.

이러한 문제를 극복하기 위해 OpenAI는 대형 모델을 사전 훈련하는 길에 나섰습니다. GPT-1은 OpenAI가 2018년에 출시한 최초의 사전 훈련 모델입니다. 단방향 Transformer 모델을 채택하고 훈련에 40GB 이상의 텍스트 데이터를 사용합니다. GPT-1의 주요 기능은 생성적 사전 훈련(비지도) + 차별적 작업 미세 조정(지도)입니다. 먼저, 비지도 학습 사전 훈련을 사용하고 8개의 GPU에서 1개월 동안 레이블이 지정되지 않은 대량의 데이터로부터 AI 시스템의 언어 기능을 향상시키고 많은 양의 지식을 얻은 다음 지도 미세 조정을 수행했습니다. NLP 작업에서 시스템 성능을 향상시키기 위해 통합되었습니다. GPT-1은 텍스트 생성 및 이해 작업에서 뛰어난 성능을 보여 당시 가장 발전된 자연어 처리 모델 중 하나가 되었습니다.

GPT-2: 다중 작업 사전 훈련 모델

단일 작업 모델의 일반화가 부족하고 다중 작업 학습을 위한 효과적인 훈련 쌍이 많이 필요하기 때문에 GPT-2가 확장되었습니다. GPT-1을 기반으로 최적화되어 지도 학습이 제거되고 비지도 학습만 유지됩니다. GPT-2는 훈련을 위해 더 큰 텍스트 데이터와 더 강력한 컴퓨팅 리소스를 사용하며 매개변수 크기는 1억 5천만 개에 달해 GPT-1의 1억 1천만 개 매개변수를 훨씬 초과합니다. 학습을 위해 더 큰 데이터 세트와 더 큰 모델을 사용하는 것 외에도 GPT-2는 사전 훈련된 모델을 많은 다운스트림 작업에 직접 적용하는 제로샷 학습(제로샷)이라는 새롭고 더 어려운 작업도 제안합니다. GPT-2는 텍스트 생성, 텍스트 분류, 언어 이해 등 다양한 자연어 처리 작업에서 탁월한 성능을 입증했습니다.

ChatGPT 주제 1 GPT 제품군 발전 내역 GPT-3: 새로운 자연어 생성 및 이해 기능 생성

GPT-3은 더 큰 매개변수 규모와 풍부한 교육 데이터를 사용하는 GPT 모델 시리즈의 최신 모델입니다. GPT-3의 매개변수 규모는 GPT-2의 100배가 넘는 1조 7500억에 이른다. GPT-3는 자연어 생성, 대화 생성 및 기타 언어 처리 작업에서 놀라운 기능을 보여 주었으며 일부 작업에서는 새로운 형태의 언어 표현도 만들 수 있습니다.

GPT-3은 매우 중요한 개념을 제안합니다. 구체적인 내용은 다음 트윗에서 설명하겠습니다.

InstructGPT & ChatGPT

InstructGPT/ChatGPT의 훈련은 3단계로 나누어지며, 각 단계에 필요한 데이터가 조금씩 다릅니다. 아래에서 별도로 소개하겠습니다.

사전 훈련된 언어 모델로 시작하여 다음 세 단계를 적용하세요.

1단계: 감독된 미세 조정 SFT: 데모 데이터를 수집하고 감독된 정책을 훈련합니다. 우리의 태거는 입력 프롬프트 배포에서 원하는 동작을 보여줍니다. 그런 다음 지도 학습을 사용하여 이러한 데이터에 대해 사전 훈련된 GPT-3 모델을 미세 조정합니다.

2단계: 모델 훈련 보상. 비교 데이터를 수집하고 보상 모델을 훈련합니다. 우리는 모델 출력 간의 비교 데이터 세트를 수집했습니다. 여기서 라벨러는 주어진 입력에 대해 선호하는 출력을 나타냅니다. 그런 다음 인간이 선호하는 결과를 예측하기 위해 보상 모델을 훈련합니다.

3단계: 보상 모델에서 PPO(근위 정책 최적화)를 통한 강화 학습: RM의 출력을 스칼라 보상으로 사용합니다. 우리는 PPO 알고리즘을 사용하여 감독 전략을 미세 조정하여 이 보상을 최적화합니다.

2단계와 3단계는 지속적으로 반복될 수 있으며, 새로운 RM을 교육하는 데 사용되는 현재 최적의 전략과 새로운 전략에 대해 더 많은 비교 데이터가 수집됩니다.

처음 두 단계에 대한 프롬프트는 OpenAI 온라인 API의 사용자 사용 데이터에서 나오며 고용된 주석자가 직접 작성합니다. 마지막 단계는 모두 API 데이터에서 샘플링됩니다.

1. SFT 데이터 세트

SFT 데이터 세트는 첫 번째 단계, 즉 새로운 모델을 사용하여 훈련하는 데 사용됩니다. 수집된 데이터는 GPT-3의 훈련 방법에 따라 GPT-3를 미세 조정합니다. GPT-3는 프롬프트 학습을 기반으로 한 생성 모델이므로 SFT 데이터 세트도 프롬프트-응답 쌍으로 구성된 샘플입니다. SFT 데이터의 일부는 OpenAI의 PlayGround 사용자로부터 제공되고, 다른 일부는 OpenAI에 고용된 40명의 라벨러로부터 제공됩니다. 그리고 그들은 라벨러를 훈련시켰습니다. 이 데이터세트에서 주석 작성자의 임무는 콘텐츠를 기반으로 지침을 직접 작성하는 것입니다.

2. RM 데이터 세트

RM 데이터 세트는 2단계에서 보상 모델을 훈련하는 데 사용됩니다. 또한 InstructGPT/ChatGPT 훈련을 위한 보상 목표를 설정해야 합니다. 이 보상 목표는 차별화 가능해야 할 필요는 없지만, 모델이 생성해야 하는 것과 최대한 포괄적이고 현실적으로 일치해야 합니다. 당연히 수동 주석을 통해 이러한 보상을 제공할 수 있으며, 인간이 좋아하지 않는 콘텐츠를 생성하지 않도록 모델이 편향과 관련된 생성된 콘텐츠에 낮은 점수를 부여할 수 있습니다. InstructGPT/ChatGPT의 접근 방식은 먼저 모델이 후보 텍스트 배치를 생성하도록 한 다음 라벨러를 사용하여 생성된 데이터의 품질에 따라 생성된 콘텐츠를 정렬하는 것입니다.

3. PPO 데이터 세트

InstructGPT의 PPO 데이터는 주석이 없으며 GPT-3 API 사용자로부터 제공됩니다. 다양한 사용자가 제공하는 다양한 유형의 생성 작업이 있으며 생성 작업(45.6%), QA(12.4%), 브레인스토밍(11.2%), 대화(8.4%) 등을 포함하는 비율이 가장 높습니다.

부록:

ChatGPT의 다양한 기능 소스:

ChatGPT 주제 1 GPT 제품군 발전 내역