Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?-일체 포함-php.cn

언어 모델은 자연어 처리 분야의 연구와 실무를 근본적으로 변화시켰습니다. 최근 몇 년 동안 대형 모델은 여러 분야에서 중요한 발전을 이루었습니다. 적절한 지침이나 프롬프트를 통해 후속 작업을 미세 조정할 필요가 없으며 때로는 놀라운 성능을 발휘할 수도 있습니다.

예를 들어 GPT-3[1]은 러브레터, 스크립트를 작성할 수 있고 데이터를 사용하여 복잡한 수학적 추론 문제를 해결할 수 있으며 PaLM[2]은 농담을 설명할 수 있습니다. 위의 예는 대형 모델 기능의 빙산의 일각에 불과합니다. OpenAI 웹사이트[3]에서 많은 관련 데모를 볼 수 있지만 이러한 기능은 소형 모델에 거의 반영되지 않습니다.

오늘 소개한 논문에서는 소형 모델에는 없지만 대형 모델에는 있는 능력을 창발능력(Emergent Abilities)이라고 하는데, 모델의 규모가 일정 수준에 도달한 후 갑자기 획득되는 능력을 말합니다. . 이는 양적 변화가 질적 변화를 가져오는 과정이다.

창발능력의 출현은 예측하기 어렵습니다. 규모가 커짐에 따라 모델이 갑자기 특정 기능을 획득하는 이유는 여전히 대답하기 위해 추가 연구가 필요한 공개 질문입니다. 이 기사에서 저자는 대형 모델을 이해하는 데 있어 최근 진행 상황을 정리하고 이와 관련된 몇 가지 생각을 여러분과 논의하기를 기대합니다.

대형모델의 창발능력

대형모델이란? "큰" 것으로 간주되는 크기는 무엇입니까? 이는 명확한 정의가 없습니다.

일반적으로 소형 모델의 제로샷, 퓨샷과는 확연히 다른 성능을 보여주기 위해서는 모델 매개변수가 수십억 수준에 도달해야 할 수도 있습니다. 최근 몇 년 동안 일련의 작업에서 SOTA 성능을 달성한 수천억, 수조 개의 매개변수를 가진 여러 모델이 있었습니다. 일부 작업에서는 규모가 커짐에 따라 모델의 성능이 안정적으로 향상되는 반면, 다른 작업에서는 특정 규모에서 모델의 성능이 갑자기 증가하는 것을 보여줍니다. 서로 다른 작업을 분류하는 데 두 가지 지표를 사용할 수 있습니다[4]:

선형성: 규모가 커짐에 따라 작업에 대한 모델의 성능이 안정적으로 향상되는 정도를 측정하는 것을 목표로 합니다.

혁신성: 모델 크기가 임계 값을 초과할 때 작업을 얼마나 잘 학습할 수 있는지 측정하도록 설계되었습니다.

이 두 지표는 모델 크기와 모델 성능의 함수입니다. 구체적인 계산 내용은 [4]를 참조하세요. 아래 그림은 높은 선형성과 높은 혁신성 작업의 몇 가지 예를 보여줍니다.

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

선형성이 높은 대부분의 작업은 지식 기반입니다. 즉, 사실적 질문에 답하는 것과 같이 훈련 데이터에 있는 정보를 기억하는 데 주로 의존한다는 의미입니다. 모델이 클수록 일반적으로 훈련에 더 많은 데이터를 사용하고 더 많은 지식을 기억할 수 있으므로 모델은 규모가 커짐에 따라 이러한 작업에서 꾸준한 개선을 보여줍니다. 혁신성이 높은 작업에는 여러 가지 다른 능력을 사용하거나 수학적 추론과 같이 정답에 도달하기 위해 여러 단계를 실행해야 하는 보다 복잡한 작업이 포함됩니다. 소형 모델은 이러한 작업을 수행하는 데 필요한 모든 기능을 확보하는 데 어려움을 겪습니다.

다음 그림은 일부 획기적인 작업에 대한 다양한 모델의 성능을 추가로 보여줍니다.

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

특정 모델 크기에 도달하지 못한 경우 해당 작업에 대한 모델의 성능은 무작위입니다. 어느 정도 규모에서는 상당한 개선이 있었습니다.

부드럽나요 아니면 갑작스럽나요?

앞서 본 것은 모델 규모가 일정 수준까지 증가한 후 갑자기 특정 기능을 획득한다는 것입니다. 작업별 지표의 관점에서는 이러한 기능이 출현하지만 다른 관점에서는 모델 기능의 잠재적 변화가 더 큽니다. 매끄러운. 이 문서에서는 다음 두 가지 관점에 대해 설명합니다. (1) 더 부드러운 지표 사용, (2) 복잡한 작업을 여러 하위 작업으로 분해합니다.

다음 그림 (a)는 일부 혁신성이 높은 작업에 대한 실제 목표의 로그 확률 변화 곡선을 보여줍니다. 모델 크기가 증가함에 따라 실제 목표의 로그 확률이 점차 증가합니다.

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

그림 (b)는 특정 객관식 작업의 경우 모델 크기가 증가함에 따라 정답의 로그 확률이 점차 증가하는 반면, 오답의 로그 확률은 특정 수준임을 보여줍니다. 특정 크기 이전에는 점차 증가하고 그 이후에는 안정됩니다. 이 척도 이후에는 정답 확률과 오답 확률 사이의 격차가 커지고 모델의 성능이 크게 향상됩니다.

또한 특정 작업에 대해 Exact Match와 BLEU를 사용하여 모델의 성능을 평가할 수 있다고 가정해 보겠습니다. BLEU는 Exact Match보다 더 부드러운 지표입니다. 서로 다른 지표를 사용하여 나타나는 추세는 크게 다를 수 있습니다. .

일부 작업의 경우 모델은 다양한 규모에서 이 작업을 수행하는 부분적인 능력을 얻을 수 있습니다. 아래 그림은 일련의 이모티콘을 통해 영화 이름을 추측하는 작업입니다.

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

모델이 어느 정도 규모에서 영화 이름을 추측하기 시작하고, 어느 정도 단계에서 이모티콘의 의미를 인식하는 것을 볼 수 있습니다. 더 큰 규모로, 가장 큰 규모로 정답을 만들어 보세요.

대형 모델은 작업이 어떻게 형식화되는지에 매우 민감합니다

모델의 능력이 갑자기 향상되는 정도는 작업이 형식화되는 방식에 따라 달라집니다. 예를 들어, 복잡한 수학적 추론 작업에서 표준 프롬프트를 사용하여 질문 및 답변 작업으로 처리하면 모델 크기가 증가함에 따라 성능 향상이 매우 제한됩니다. 아래 그림과 같이 사용하면 질문 및 답변 작업으로 처리됩니다. 다단계 추론 작업으로 처리하면 특정 규모에서 상당한 성능 향상이 나타납니다.

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

또한 연구원들은 "단계적으로 생각해보자"라는 간단한 프롬프트를 추가함으로써 GPT-3의 제로샷 추론 능력이 크게 향상될 수 있음을 발견했습니다.[6] 아래 그림에서

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

때때로 대형 모델이 특정 작업을 잘 수행하지 못하는 경우가 있지만 실제로는 잘 수행하지 못하는 것이 아니라 적절한 자극 방법이 필요하다는 영감을 받았습니다. 그것.능력.

모델이 클수록 반드시 더 강한가요?

이전 논의에서는 모델 크기가 커질수록 성능이 향상되어야 한다는 직관적인 느낌을 받았는데, 과연 그럴까요? 실제로 일부 작업의 경우 아래 그림과 같이 모델이 커질수록 성능이 실제로 저하될 수 있습니다

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

뉴욕대학교의 몇몇 연구자들도 모델 성능이 좋은 작업을 찾기 위해 대회를 조직했습니다. 모델이 커질수록 성능이 저하됩니다.

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

예를 들어 질문 및 답변 작업에서 질문과 함께 자신의 신념을 추가하면 대형 모델이 더 쉽게 영향을 받습니다. 관심 있는 학생들은 주목하시기 바랍니다.

요약 및 생각

대부분의 작업에서는 모델의 크기가 커질수록 모델의 성능이 좋아지지만 몇 가지 반례도 있을 것입니다. 모델의 동작을 더 잘 이해하려면 더 많은 연구가 필요합니다.

대형 모델의 능력은 적절한 방법으로 자극되어야 합니다.

대형 모델이 정말 추론을 하고 있는 걸까요? 앞서 살펴보았듯이, “단계적으로 생각해보자”라는 프롬프트를 추가함으로써 대형 모델은 다단계 추론을 수행하고 수학적 추론 작업에서 만족스러운 결과를 얻을 수 있습니다. 모델은 이미 인간의 추론 능력을 보유하고 있는 것 같습니다. 그러나 아래와 같이 GPT-3에게 의미 없는 질문을 주고 다단계 추론을 하게 하면 GPT-3가 추론을 하는 것처럼 보이지만 실제로는 의미 없는 출력물이다. "쓰레기는 들어가면 쓰레기가 나온다"라는 말이 있듯이요. 이에 비해 인간은 질문이 합리적인지, 즉 주어진 조건에서 현재 질문에 답할 수 있는지 여부를 판단할 수 있습니다. "단계적으로 생각해보자"는 것이 통할 수 있다고 생각합니다. GPT-3는 훈련 과정에서 유사한 데이터를 많이 봤기 때문입니다. 인간과 달리, 단지 이전 토큰을 기반으로 다음 토큰을 예측하는 것뿐입니다. 사고 방식에는 여전히 근본적인 차이가 있습니다. 물론, GPT-3가 질문이 합리적인지 판단할 수 있도록 적절한 프롬프트가 제공된다면 어느 정도 그렇게 할 수는 있겠지만, '사고'와 '추론' 사이에는 여전히 상당한 거리가 있습니다. 이는 단순한 문제가 아닙니다. 모델의 크기를 늘리면 해결될 수 있습니다. 모델은 인간처럼 생각할 필요는 없지만 모델 크기를 늘리는 것 이외의 경로를 탐색하려면 더 많은 연구가 시급히 필요합니다.

Google과 Stanford는 공동으로 다음과 같은 기사를 발행했습니다. 왜 대형 모델을 사용해야 하는가?

시스템 1 또는 시스템 2? 인간의 두뇌에는 서로 협력하는 두 가지 시스템이 있습니다. 시스템 1(직관)은 빠르고 자동적인 반면, 시스템 2(합리성)는 느리고 제어 가능합니다. 많은 실험을 통해 사람들은 판단과 결정을 내리기 위해 직관을 사용하는 것을 선호하며 합리성은 직관으로 인한 편견을 바로잡을 수 있다는 것이 입증되었습니다. 현재 대부분의 모델은 시스템 1 또는 시스템 2를 기반으로 설계되었습니다. 향후 모델도 이중 시스템을 기반으로 설계할 수 있습니까?