ChatGPT의 '출발' 능력은 이모티콘을 기반으로 영화를 추측할 수 있는 이유는 무엇입니까?-일체 포함-php.cn

이제 ChatGPT와 같은 대규모 언어 모델은 충분히 강력하므로 놀랍고 예측할 수 없는 동작을 보이기 시작했습니다.

본 글을 정식으로 소개하기에 앞서, 아래 사진 속 이모티콘은 어떤 영화를 묘사하고 있는지 질문을 던져보겠습니다.

ChatGPT의 출발 능력은 이모티콘을 기반으로 영화를 추측할 수 있는 이유는 무엇입니까?

이 네 가지 기호로 대표되는 영화가 "니모를 찾아서"라는 사실조차 짐작하지 못할 수도 있습니다. 이 프롬프트 작업은 작년에 LLM(대형 언어 모델)을 평가하는 데 사용된 204개 작업 중 하나였습니다. 가장 단순한 LLM 모델의 경우 주어진 대답은 다소 무작위이며 비교적 복잡한 중간 크기 모델의 경우 이 영화가 남자의 이야기를 전한다고 생각합니다. 주어진 대답은 "The Emoji Movie"입니다. . 그러나 가장 복잡한 모델은 이를 올바르게 추측하여 "니모를 찾아서"라는 답을 제시했습니다.

Google 컴퓨터 과학자 Ethan Dyer는 다음과 같이 말했습니다. "모델의 이러한 동작은 놀랍습니다. 더욱 놀라운 것은 이러한 모델이 지침만 사용한다는 것입니다. 즉, 문자열 문자열을 입력으로 받아들인 다음 다음에 무슨 일이 일어날지 예측합니다. 전적으로 통계를 바탕으로 이 프로세스를 반복해서 반복합니다.” 일부 학자들은 모델을 확장하면 알려진 작업의 성능이 향상될 것이라고 기대하기 시작했지만 이러한 모델이 갑자기 그렇게 많은 새로운 작업을 처리할 수 있을 것이라고는 예상하지 못했습니다. 예측할 수 없는 작업.

Ethan Dyer가 실시한 최근 설문 조사에 따르면 LLM은 수백 가지의 "긴급" 기능, 즉 소형 모델이 완료할 수 없는 특정 작업을 대형 모델이 완료할 수 있는 능력을 생성할 수 있는 것으로 나타났습니다. 분명히 모델을 확장하는 능력은 단순한 곱셈에서 실행 가능한 컴퓨터 코드 생성, 이모티콘 기반 영화 디코딩에 이르기까지 증가합니다. 새로운 분석에 따르면 특정 작업과 특정 모델의 경우 모델 로켓의 우주 발사 능력보다 더 높은 복잡성 임계값이 있는 것으로 나타났습니다. 그러나 연구자들은 모델 스케일링의 부정적인 영향도 지적했습니다. 즉, 복잡성이 증가함에 따라 일부 모델은 응답에서 새로운 편향과 부정확성을 나타냅니다.

작년에 수십 가지 모델 창발적 행동 목록을 작성하는 데 도움을 준 Stanford University의 컴퓨터 과학자 Rishi Bommasani는 다음과 같이 말했습니다. "내가 아는 모든 문헌에서 이러한 작업을 수행하는 언어 모델에 대한 논의는 한 번도 없습니다. things." 에는 Ethan Dyer의 프로젝트에서 확인된 여러 행동이 포함되어 있습니다. 오늘날 목록은 계속 늘어나고 있습니다.

오늘날 연구자들은 대형 모델의 출현 가능성을 판단할 뿐만 아니라 이러한 현상이 발생하는 이유와 방법을 파악하기 위해 경쟁하고 있습니다. 본질적으로 예측 불가능성을 예측하려고 노력하고 있습니다. 그 창발적 성격을 이해하면 복잡한 모델이 실제로 새로운 일을 하고 있는지 아니면 단순히 통계에 매우 능숙해지는지와 같은 인공 지능 및 기계 학습과 관련된 심오한 질문에 대한 답을 밝힐 수 있습니다. 또한 연구자가 잠재적인 이점을 활용하고 새로운 위험을 줄이는 데 도움이 될 수 있습니다.

Emergence

생물학자, 물리학자, 생태학자 및 기타 과학자들은 출현이라는 용어를 사용하여 많은 수의 사물이 전체적으로 작용할 때 발생하는 자기 조직적 집단 행동을 설명합니다. 무생물 원자의 결합은 살아있는 세포를 만들고, 물 분자는 끊임없이 변화하지만 알아볼 수 있는 형태로 하늘을 날아다니는 찌르레기 무리의 놀라운 자연 광경을 만듭니다. 결정적으로, 창발적 역량은 많은 독립적인 부분을 포함하는 시스템에서 발생합니다. 그러나 모델이 이제 막 충분히 큰 규모로 성장했기 때문에 연구원들은 LLM의 이러한 새로운 힘을 최근에야 문서화할 수 있었습니다.

언어 모델은 수십 년 동안 존재해 왔습니다. 약 5년 전까지만 해도 가장 강력한 모델은 순환 신경망을 기반으로 했습니다. 이러한 모델은 기본적으로 텍스트 문자열을 가져와 다음 단어가 무엇인지 예측합니다. 모델 루프를 만드는 것은 자체 출력에서 학습한다는 것입니다. 모델의 예측은 향후 성능을 개선하기 위해 네트워크로 피드백됩니다.

2017년 Google Brain의 연구원들은 Transformer라는 새로운 아키텍처를 도입했습니다. 순환 네트워크가 문장을 단어별로 분석하는 동안 Transformer는 모든 단어를 동시에 처리합니다. 이는 Transformer가 많은 양의 텍스트를 병렬로 처리할 수 있음을 의미합니다.

Brown University의 Ellie Pavlick은 "모델이 더 작은 모델에서는 학습하지 못했던 근본적으로 새롭고 다른 것을 학습했을 가능성이 높습니다."라고 말합니다.

Transformers는 무엇보다도 모델의 매개변수 수를 늘려 언어 모델의 복잡성을 빠르게 확장할 수 있습니다. 이러한 매개변수는 단어 사이의 연결로 간주될 수 있으며, 훈련 중에 텍스트를 섞음으로써 변환기는 이러한 연결을 조정하여 모델을 개선할 수 있습니다. 모델에 매개변수가 많을수록 더 정확하게 연결할 수 있고 인간의 음성을 모방하는 데 더 가까워집니다. 예상대로 OpenAI 연구원의 2020년 분석에 따르면 모델이 확장됨에 따라 정확도와 기능이 향상되는 것으로 나타났습니다.

하지만 대규모 언어 모델의 출현은 정말 예상치 못한 일도 많이 가져옵니다. 1,750억 개의 매개변수가 있는 GPT-3이나 5,400억 개의 매개변수로 확장되는 Google PaLM과 같은 모델의 출현으로 사용자는 점점 더 긴급한 행동을 설명하기 시작했습니다. 한 DeepMind 엔지니어는 ChatGPT가 Linux 터미널임을 인정하고 간단한 수학 코드를 실행하여 처음 10개의 소수를 계산하도록 설득할 수 있다고 보고했습니다. 놀랍게도 실제 Linux 시스템에서 동일한 코드를 실행하는 것보다 훨씬 빠르게 작업을 완료합니다.

이모지를 통해 영화를 설명하는 작업과 마찬가지로 연구원들은 텍스트를 예측하기 위해 구축된 언어 모델이 컴퓨터 터미널을 모방하는 데 사용되도록 설득될 것이라고 생각할 이유가 없습니다. 이러한 긴급 행동의 대부분은 제로 샷 또는 소수 샷 학습을 보여주며 이전에 한 번도(또는 거의) 발생하지 않은 문제를 해결하는 LLM의 능력을 설명합니다. 이는 인공지능 연구의 장기적인 목표였다고 Ganguli는 말했습니다. 또한 GPT-3가 명시적인 훈련 데이터 없이도 제로샷 설정에서 문제를 해결할 수 있다는 것을 보여주었다고 Ganguli는 말했습니다. "이 때문에 하던 일을 그만두고 이 연구에 더 많이 참여하게 되었습니다." 이 연구 분야. LLM이 훈련 데이터의 한계를 뛰어넘을 수 있다는 첫 번째 단서는 출현의 모습과 발생 방식을 더 잘 이해하기 위해 노력하는 다수의 연구자에 의해 발견되었습니다. 그리고 첫 번째 단계는 이를 철저하고 포괄적으로 문서화하는 것입니다.

Ethan Dyer는 대형 언어 모델의 예상치 못한 기능과 이들이 제공하는 기능을 탐색하는 데 도움을 줍니다. -Gabrielle Lurie

Beyond Imitation

2020년에 Dyer와 Google Research의 다른 연구원들은 대규모 언어 모델이 혁신적인 영향을 미칠 것이라고 예측했습니다. 그러나 그러한 영향이 무엇인지는 여전히 공개적인 질문으로 남아 있습니다. 따라서 그들은 추적 LLM이 수행할 수 있는 작업의 외부 한계를 문서화하기 위해 어렵고 다양한 작업의 예를 제공하도록 연구 커뮤니티에 요청했습니다. Alan Turing의 모방 게임에서 이름을 빌려 BIG-bench(Beyond the Imitation Game Benchmark) 프로젝트로 알려진 이 노력은 컴퓨터가 설득력 있게 인간적인 방식으로 질문에 답할 수 있는지 테스트하기 위해 설계되었습니다. (이것은 Turing 테스트로 알려지게 되었습니다.) 연구 그룹은 LLM이 갑자기 새롭고 전례 없는 기능을 획득한 사례에 특히 관심이 있었습니다.

예상할 수 있듯이 일부 작업에서는 복잡성이 증가함에 따라 모델 성능이 더욱 일관되고 예측 가능하게 향상됩니다. 다른 작업에서는 매개변수 수를 확장해도 모델 성능이 향상되지 않았습니다. 그리고 약 5%의 작업에 대해 연구원들은 돌파구라고 부르는 것을 발견했습니다. 즉, 특정 임계값 내에서 성능이 빠르고 극적으로 향상되는 것입니다. 그러나 이 임계값은 작업 및 모델에 따라 달라집니다.

예를 들어, 상대적으로 적은 수(수백만 개)의 매개변수를 가진 모델은 세 자리 덧셈이나 두 자리 곱셈 문제를 성공적으로 완료하지 못할 수도 있지만, 수백억 개의 매개변수를 사용하면 일부 모델의 정확도가 떨어집니다. 솟아오를 것이다. 국제 음성 알파벳 해독, 단어 문자 해독, 인도어(힌디어와 영어의 조합)로 된 구절에서 공격적인 내용 식별, 스와힐리어 관련 텍스트 생성 등을 포함한 여러 다른 작업에서도 유사한 성능 향상이 나타났습니다. 영어로 된 속담.

그러나 연구자들은 곧 모델의 복잡성이 성능의 유일한 동인이 아니라는 것을 깨달았습니다. 데이터 품질이 충분히 높으면 더 적은 수의 매개변수를 사용하거나 더 작은 데이터 세트로 훈련된 더 작은 모델에서 예상치 못한 일부 기능이 유도될 수 있습니다. 또한 쿼리가 표현되는 방식도 모델 응답의 정확성에 영향을 미칠 수 있습니다. 예를 들어 Dyer와 동료들이 영화 이모티콘 작업에 객관식 형식을 사용했을 때 정확도는 갑작스러운 점프에서 향상되지 않았지만 모델 복잡성이 증가함에 따라 점차 향상되었습니다. 작년에 해당 분야 최고의 학술 컨퍼런스인 NeurIPS에서 발표된 논문에서 Google Brain의 연구원들은 프롬프트가 있는 모델이 어떻게 스스로를 설명할 수 있는지(사고 연쇄 추론으로 알려진 능력) 보여주었습니다. 프롬프트가 없는 동일한 모델은 문제를 해결할 수 없습니다.

모델 크기의 영향을 연구하기 전까지는 모델의 기능과 결함이 무엇인지 알 수 없습니다.

Google Brain의 체계적 연구 과학자인 Yi Tay는 최근 연구에 따르면 사고 체인 프롬프트가 확장 곡선을 변경하여 모델이 나타나는 노드를 변경하는 것으로 나타났습니다. NeurIPS 논문에서 Google 연구자들은 사고 사슬 프롬프트를 사용하면 BIG 벤치 연구에서 확인되지 않은 새로운 행동을 유도할 수 있음을 보여줍니다. 추론을 설명하기 위해 모델이 필요한 이러한 프롬프트는 연구자가 출현이 발생하는 이유를 조사하기 시작하는 데 도움이 될 수 있습니다.

이러한 최근 연구 결과는 창발이 발생하는 이유에 대해 적어도 두 가지 가능성을 시사한다고 브라운 대학의 컴퓨터 과학자이자 언어 계산 모델을 연구하는 Ellie Pavlick은 말합니다. 첫 번째 가능성은 생물학적 시스템과의 비교에서 알 수 있듯이 더 큰 모델이 자발적으로 새로운 기능을 획득한다는 것입니다. 모델이 더 작은 규모의 모델에는 없는 완전히 새롭고 다른 것을 학습했을 수도 있습니다. 이것이 바로 모델의 규모가 확대될 때 근본적인 일이 발생하기를 바라는 것입니다.

Ellie Pavlick은 또한 상대적으로 정상적이고 객관적인 또 다른 가능성은 출현하는 것처럼 보이는 것이 정신적 연쇄 추론을 통해 작동하는 내부 통계 기반 프로세스의 정점일 수도 있다는 점을 지적합니다. 대규모 LLM은 단순히 매개변수가 적거나 데이터 품질이 낮은 소규모 모델에서는 이해할 수 없는 경험적 학습일 수 있습니다.

그러나 Pavlick은 우리가 모델의 기본 작동 메커니즘을 모르기 때문에 무슨 일이 일어나고 있는지 알 수 없다고 믿습니다.

예측할 수 없는 기능과 결함

하지만 대형 모델에도 결함이 있습니다. 예를 들어 Google이 얼마 전 출시한 인공지능 채팅 로봇인 Bard는 제임스 웹 우주 망원경과 관련된 질문에 답변할 때 사실과 다른 오류를 범했습니다.

출발은 예측 불가능성을 초래하며, 모델의 크기가 커질수록 증가하는 것처럼 보이는 예측 불가능성은 연구자가 제어하기 어렵습니다.

Ganguli는 "이러한 모델이 어떻게 사용되거나 배포될지 미리 알기가 어렵습니다."라고 말했습니다. "창출 현상을 연구하려면 상황을 고려해야 합니다. 모델 크기의 영향을 연구하기 전에는 그것이 어떤 기능을 가질 수 있는지, 어떤 결함이 있는지 알 수 없습니다."

지난해 6월에 발표된 LLM의 분석에서는, 인류학 연구자들은 이러한 모델이 이전에 어떤 전과자가 재범죄를 저지를지 예측하는 데 사용된 비 LLM 기반 알고리즘에서 보고된 것과 다른 특정 유형의 인종적 또는 사회적 편견을 나타낼 수 있는지 조사했습니다. 이 연구는 출현과 직접적으로 관련된 명백한 역설에서 영감을 얻었습니다. 모델이 확장됨에 따라 성능이 향상됨에 따라 편견으로 이어지거나 해를 끼칠 수 있는 현상을 포함하여 예측할 수 없는 현상의 가능성도 높아질 수 있습니다.

Ganguli는 “특정 모델에서는 특정 유해한 행동이 나타날 수 있습니다.”라고 말했습니다. 그는 BBQ 벤치마크라고도 알려진 LLM의 최근 분석을 지적하며, 이는 사회적 편견이 광범위한 매개변수에 걸쳐 나타난다는 것을 보여줍니다. "더 큰 모델은 갑자기 더 편향적이 됩니다"라고 그는 말했습니다. 이러한 위험은 해결되지 않으면 이러한 모델의 사용을 위태롭게 할 수 있습니다.

그러나 그는 또한 대위법을 제시했습니다. 즉, 연구자가 모델에게 고정관념이나 사회적 편견에 의존하지 말라고 말 그대로 이러한 지침을 제공하면 모델의 예측과 반응이 덜 편향됩니다. 이는 편향을 줄이기 위해 일부 창발적 속성이 사용될 수도 있음을 시사합니다. 2월에 발표된 논문에서 Anthropic 팀은 사용자가 프로그램이 도움이 되고 정직하며 무해하도록 유도하는 새로운 도덕적 자기 교정 모드를 보고했습니다.

Ganguli는 출현이 대규모 언어 모델의 놀라운 잠재력과 예측할 수 없는 위험을 모두 드러낸다고 말했습니다. 이러한 LLM의 적용이 확산되었으므로 이러한 이중성을 더 잘 이해하면 언어 모델 기능의 다양성을 활용하는 데 도움이 될 것입니다.

Ganguli는 다음과 같이 말했습니다. "우리는 사용자가 이러한 시스템을 실제로 어떻게 사용하는지 연구하고 있지만 사용자도 지속적으로 이러한 시스템을 수정하고 개선하고 있습니다. 우리는 모델이 더 잘 작동하도록 하기 위해 모델과 채팅하는 데 많은 시간을 보냅니다. 그리고 실제로 그 때가 바로 우리가 할 때입니다. 이 모델들을 믿기 시작했어요.”

위 내용은 ChatGPT의 '출발' 능력은 이모티콘을 기반으로 영화를 추측할 수 있는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!