ChatGPT는 정말 '일반주의자'인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.-일체 포함-php.cn

ChatGPT는 정말 일반주의자인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.

논문 링크: https://arxiv.org/pdf/2302.06476.pdf

대형 언어 모델(LLM)은 다양한 자연어 처리(NLP)를 해결할 수 있는 것으로 입증되었습니다. 특정 다운스트림 작업의 경우 교육 데이터에 의존하지 않으며 적절한 프롬프트를 통해 모델 조정을 수행할 수 있습니다. 명령에 따라 새로운 작업을 수행하는 이러한 능력은 일반 인공 지능을 향한 중요한 단계로 볼 수 있습니다.

현재 LLM은 어떤 경우에는 좋은 성능을 발휘하지만 여전히 제로샷 학습에서 다양한 오류가 발생하기 쉽습니다. 또한 프롬프트의 형식도 상당한 영향을 미칠 수 있습니다. 예를 들어, 프롬프트에 "단계적으로 생각해보자"를 추가하면 모델 성능이 획기적으로 향상될 수 있습니다. 이러한 제한 사항은 현재 LLM이 진정한 범용 언어 시스템이 아님을 보여줍니다.

최근 OpenAI에서 출시한 ChatGPT LLM이 NLP 커뮤니티에서 큰 주목을 받았습니다. ChatGPT는 "RLHF(Reinforcement Learning with Human Feedback)"를 통해 GPT-3.5 시리즈 모델을 학습하여 만들어졌습니다. RLHF는 주로 지도 학습을 사용하여 언어 모델을 훈련하고, 비교 데이터를 수집하고, 인간 선호도를 기반으로 보상 모델을 훈련하고, 보상 모델에 대한 언어 모델을 최적화하는 세 단계로 구성됩니다. RLHF 교육을 통해 ChatGPT는 인간 입력에 대한 고품질 응답 생성, 부적절한 질문 거부, 후속 대화를 기반으로 이전 오류 자체 수정 등 다양한 측면에서 인상적인 기능을 갖는 것으로 관찰되었습니다.

ChatGPT가 강력한 대화 기능을 보여주지만 NLP 커뮤니티에서는 ChatGPT가 기존 LLM에 비해 더 나은 제로샷 일반화 기능을 달성하는지 여부가 여전히 불분명합니다. 이러한 연구 격차를 메우기 위해 연구원들은 7가지 대표적인 작업 범주를 포괄하는 수많은 NLP 데이터 세트를 평가하여 ChatGPT의 제로샷 학습 기능을 체계적으로 연구했습니다. 이러한 작업에는 추론, 자연어 추론, 질문 답변(독해), 대화, 요약, 명명된 엔터티 인식 및 감정 분석이 포함됩니다. 광범위한 실험의 도움으로 연구원들은 다음 질문에 답하는 것을 목표로 했습니다.

ChatGPT는 NLP 작업을 위한 범용 해결사입니까? ChatGPT는 어떤 유형의 작업을 잘 수행하나요?
ChatGPT가 일부 작업에서 다른 모델보다 뒤처진다면 그 이유는 무엇입니까?

이러한 질문에 답하기 위해 저자는 실험 결과를 바탕으로 ChatGPT와 최신 GPT-3.5 모델(text-davinci-003)의 성능을 비교했습니다. 또한 FLAN, T0 및 PaLM과 같은 최근 작업의 제로 샷, 미세 조정 또는 소수 샷 미세 조정 결과를 보고합니다.

주요 결론

저자들은 그들이 아는 한, 누군가가 다음과 같은 예비 개요를 제공하는 것을 목표로 다양한 NLP 작업에서 ChatGPT의 제로샷 기능을 연구한 것은 이번이 처음이라고 밝혔습니다. 채팅GPT. 주요 결과는 다음과 같습니다.

ChatGPT는 일반 모델로서 여러 작업을 수행하는 능력을 어느 정도 보여주지만 일반적으로 특정 작업에 맞게 미세 조정된 모델보다 성능이 떨어집니다(그림 1 및 섹션 4.3 참조).
ChatGPT의 우수한 추론 능력은 산술 추론 작업에서 실험적으로 확인되었습니다(섹션 4.2.1). 그러나 ChatGPT는 불확실한 응답 생성(섹션 4.2.2)에서 볼 수 있듯이 일반적으로 상식, 기호 및 논리적 추론 작업에서 GPT-3.5보다 성능이 떨어집니다.
ChatGPT는 텍스트 쌍 관계의 논리 결정과 같은 추론 기능을 선호하는 자연어 추론 작업(섹션 4.2.3) 및 질문 및 답변(독해) 작업(섹션 4.2.4)에서 GPT-3.5보다 성능이 뛰어납니다. 특히 ChatGPT는 사실과 일치하는 텍스트를 처리하는 데 더 좋습니다(즉, 암시적이지 않은 것보다 의미를 분류하는 데 더 좋습니다).
ChatGPT는 대화 작업에서 GPT-3.5보다 성능이 뛰어납니다(섹션 4.2.5).
요약 작업 측면에서 ChatGPT는 더 긴 요약을 생성하고 GPT-3.5보다 성능이 떨어집니다. 그러나 제로샷 지시문에서 다이제스트 길이를 명시적으로 제한하면 다이제스트 품질이 손상되어 성능이 저하됩니다(섹션 4.2.6).
일반 모델로서의 가능성을 보여주지만 ChatGPT와 GPT-3.5는 모두 시퀀스 주석(섹션 4.2.7)과 같은 특정 작업에 대한 과제에 직면합니다.
ChatGPT의 감정 분석 기능은 GPT-3.5(섹션 4.2.8)에 가깝습니다.

ChatGPT는 정말 일반주의자인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.

방법

위에서 언급한 것처럼 본 연구에서는 주로 ChatGPT와 GPT-3.5(textdavinci-003)의 제로샷 학습 성능을 서로 다른 작업에서 비교합니다. 구체적으로, 작업 지침 P와 테스트 질문 X를 입력으로 취하고 모델은 f로 표현된 다음 테스트 질문을 해결하기 위해 대상 텍스트 Y = f(P, X)를 생성합니다. 다양한 작업에 대한 지침과 입력 형식은 그림 2와 3에 나와 있습니다.

ChatGPT는 정말 일반주의자인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.

6가지 작업(감정 분석, 자연어 추론, 명명된 엔터티 인식, 질문 응답, 대화 및 요약)에 대한 지침 및 입력 형식이 포함되어 있습니다. 지침은 파란색 글꼴로 표시됩니다.

ChatGPT는 정말 일반주의자인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.

추론 작업 설명.

예를 들어 모델이 감정 분석 작업을 수행할 때 작업 지시 P는 텍스트에 포함된 감정을 긍정적 또는 부정적으로 표시하고 출력 답변은 긍정적 또는 부정적입니다. 모델이 명령 P와 입력 내용 X(내용은 상당한 힘과 진정성을 지닌 놀라운 서정적 작품임)를 읽으면 모델은 Y를 긍정적으로 출력할 것으로 예상되는 것으로 판단됩니다.

위에서 언급한 1단계 프롬프트 방식과 달리, 본 연구에서는 2단계 프롬프트(Kojima et al. 제안)를 사용하여 Zero-Shot-CoT를 완료합니다.

첫 번째 단계는 “단계적으로 생각해보자”를 채택하고, P_1 명령은 모델 생성의 기본 원리 R을 유도합니다.

두 번째 단계에서는 첫 번째 단계에서 생성된 기본 원리 R과 원래 입력 X 및 명령 P_1을 새로운 입력으로 사용하여 모델이 최종 답변을 생성하도록 안내합니다.

이후 새로운 명령어 P_2가 답을 추출하기 위한 트리거 문으로 사용됩니다. 모든 작업 지침은 Brown, Ouyang, Zhang 등의 연구에서 가져오거나 영감을 받았습니다. 마지막으로 주목해야 할 점은 ChatGPT에 새로운 쿼리를 할 때마다 이전 예시의 영향을 피하기 위해 미리 대화를 지워야 한다는 것입니다.

Experiment

실험에서는 20가지 데이터 세트를 사용하여 7가지 유형의 작업을 다루는 ChatGPT 및 GPT-3.5를 평가합니다.

산술추리

6개의 산술 추론 데이터 세트에서 CoT가 있거나 없는 ChatGPT 및 GPT-3.5의 정확도는 표 2에 나와 있습니다. CoT가 없는 실험에서 ChatGPT는 5개 데이터 세트에서 GPT-3.5보다 성능이 뛰어나 강력한 산술 추론 기능을 보여주었습니다.

ChatGPT는 정말 일반주의자인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.

그림 4는 GPT-3.5가 잘못된 답을 제공하는 경우를 보여줍니다. 사진 왼쪽에 "웬디는 비디오 게임을 하고 있으며 생명이 43개 있습니다. 게임이 진행되는 동안 8개의 생명을 잃었습니다. 다음 단계에서 39개의 생명을 더 얻으면 생명은 몇 개 될까요?"라고 질문하세요. ?”ChatGPT가 정답을 제시했습니다. 그러나 GPT-3.5는 잘못된 답변을 생성했습니다. CoT를 사용할 때 ChatGPT가 GPT-3.5보다 훨씬 더 나은 성능을 발휘하는 것을 볼 수 있습니다.

ChatGPT는 정말 일반주의자인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.

상식, 기호 및 논리적 추론

표 3은 상식, 기호 및 논리적 추론 데이터 세트에 대한 ChatGPT와 인기 있는 LLM의 정확성을 보고합니다. 다음과 같은 관찰이 가능합니다. 첫째, CoT를 사용하면 상식 추론 작업에서 항상 더 나은 성능을 제공할 수는 없으며 더 세분화된 배경 지식이 필요할 수 있습니다. 둘째, 산술 추론과 달리 ChatGPT는 많은 경우 GPT-3.5보다 성능이 떨어지며 이는 GPT-3.5가 해당 기능이 더 강력하다는 것을 나타냅니다.

ChatGPT는 정말 일반주의자인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.

이유를 분석하기 위해 연구에서는 그림 5에 ChatGPT의 여러 실패 사례를 보여줍니다. ChatGPT는 정의되지 않은 응답을 쉽게 생성하여 성능이 저하될 수 있음을 관찰할 수 있습니다.

ChatGPT는 정말 일반주의자인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.

자연어 추론

표 4는 두 가지 자연어 추론 작업인 RTE와 CB에 대한 다양한 모델의 결과를 보여줍니다. 제로샷 설정에서 ChatGPT는 GPT-3.5, FLAN, T0 및 PaLM보다 더 나은 성능을 달성할 수 있음을 알 수 있습니다. 이는 ChatGPT가 NLP 추론 작업에서 제로샷 성능이 더 우수하다는 것을 증명합니다.

ChatGPT는 정말 일반주의자인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.

Q&A

표 6은 BoolQ 데이터 세트에 대한 다양한 모델의 정확도를 보고하며 ChatGPT는 GPT-3.5보다 낫습니다. 이는 ChatGPT가 추론 작업을 더 잘 처리할 수 있음을 보여줍니다.

ChatGPT는 정말 일반주의자인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.

Conversation

표 8은 MuTual 데이터세트(다중 대화 추론)에서 ChatGPT 및 GPT-3.5의 정확도를 보여줍니다. 예상대로 ChatGPT는 GPT-3.5보다 성능이 훨씬 뛰어납니다.

그림 6은 구체적인 예입니다. ChatGPT가 주어진 상황에 대해 더 효과적으로 추론할 수 있음을 알 수 있습니다. 이는 ChatGPT의 뛰어난 추론 기능을 다시 한 번 확인시켜 줍니다.

ChatGPT는 정말 일반주의자인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.

요약 생성

표 9는 SAMSum 데이터 세트에서 ChatGPT 및 GPT-3.5의 ROUGE 점수를 보고합니다. 놀랍게도 ChatGPT는 모든 지표에서 GPT-3.5보다 열등합니다.

ChatGPT는 정말 일반주의자인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.

명명된 엔터티 인식

표 10은 CoNLL03에서 ChatGPT 및 GPT-3.5의 제로샷 성능을 보고합니다. ChatGPT와 GPT-3.5의 전반적인 성능이 매우 유사하다는 것을 알 수 있습니다.

ChatGPT는 정말 일반주의자인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.

감정 분석

표 11은 감성 분석 데이터 세트 SST2에 대한 다양한 모델의 정확도를 비교합니다. 놀랍게도 ChatGPT는 GPT-3.5보다 성능이 약 1% 더 나쁩니다.

ChatGPT는 정말 일반주의자인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.

자세한 내용은 원문을 참고해주세요.

위 내용은 ChatGPT는 정말 '일반주의자'인가요? Yang Di와 다른 사람들은 철저한 테스트를 거쳤습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!