OpenAI가 GPT-4를 출시한 이후 '인간 노동을 대체하는 AI'에 대한 논의가 점점 더 치열해지고 있습니다. 이 모델의 강력한 기능과 잠재적인 사회적 영향은 많은 사람들의 우려를 불러일으켰습니다. Musk, Bengio 및 기타 사람들은 모든 AI 기관에 최소 6개월 동안 AI 모델 교육을 중단할 것을 요청하는 공개 서한을 작성하기도 했습니다. .
하지만 한편으로는 GPT-4의 성능에 대한 의구심도 속속 높아지고 있습니다. 며칠 전 Turing Award 수상자 Yann LeCun은 토론에서 GPT 계열이 채택한 자동 회귀 경로에 자연스러운 결함이 있으며 계속해서 앞으로 나아갈 미래가 없다는 점을 직접 지적했습니다.
동시에 일부 연구원과 실무자들은 GPT-4가 OpenAI가 보여준 것만큼 강력하지 않을 수 있다고 말했습니다. 특히 프로그래밍에서는 GPT-4가 OpenAI가 모델을 테스트하는 데 사용하는 이전 질문만 기억할 수도 있습니다. 프로그래밍 능력 질문은 다음과 같습니다. 이는 훈련 세트에 이미 존재하며 이는 기계 학습의 기본 규칙을 위반합니다. 또한, 각종 시험에서 GPT-4 순위를 보고 AI가 일부 직업을 대체할 것이라고 판단하는 것은 엄밀하지 않다는 지적도 있다.
최근 블로그에서는 위의 아이디어를 자세히 설명했습니다.
GPT-4의 프로그래밍 능력을 벤치마킹하기 위해 OpenAI는 프로그래밍 대회 웹사이트 Codeforces의 질문을 사용하여 이를 평가했습니다. 놀랍게도 GPT-4는 2021년 이전 문제를 10/10, 최근 쉬운 수업 문제를 0/10 해결했습니다. 아시다시피 GPT-4의 학습 데이터 마감일은 2021년 9월입니다. 이는 모델이 훈련 세트의 솔루션을 기억할 수 있거나 적어도 부분적으로 기억할 수 있다는 강력한 표시입니다. 이는 기억하지 못하는 부분을 채우기에 충분합니다.
출처: https://twitter.com/cHHillee/status/1635790330854526981
이 가설을 더욱 입증하기 위해 블로거 Arvind Narayanan과 Sayash Kapoor는 2021년 서로 다른 시기에 Codeforces 문제에 대한 GPT-4를 분석했습니다. 테스트한 결과 다음과 같은 사실이 발견되었습니다. 9월 5일 이전에는 간단한 범주의 문제를 해결할 수 있지만 9월 12일 이후에는 문제를 해결할 수 없습니다.
저자들은 실제로 GPT-4가 훈련 세트의 질문을 기억했다는 것을 명확하게 보여줄 수 있다고 말합니다. Codeforces 질문의 제목이 프롬프트에 추가되면 GPT-4의 답변에는 다음 링크가 포함됩니다. 문제가 발생한 링크와 정확히 일치합니다(라운드 번호는 거의 정확합니다. 일회성입니다). 당시 GPT-4는 인터넷에 연결되어 있지 않았기 때문에 메모리가 유일한 설명이라는 점에 유의하세요.
GPT-4는 교육 마감일 전에 Codeforces 질문을 기억합니다.
OpenAI가 최신 문제를 사용하기 때문에 논문의 Codeforces 결과는 이에 영향을 받지 않습니다(물론 GPT-4의 성능은 좋지 않습니다). 프로그래밍 이외의 벤치마크의 경우 작성자는 문제를 기간별로 구분하는 명확한 방법을 알지 못하므로 OpenAI가 오염을 피할 가능성이 없다고 생각합니다. 그러나 마찬가지로 그들은 다른 날에 성능이 어떻게 변했는지 테스트하기 위한 실험을 수행할 수 없었습니다.
그러나 그들은 여전히 숨길 수 없는 징후를 찾을 수 있습니다. 기억의 또 다른 징후: GPT는 질문의 표현에 매우 민감합니다. Melanie Mitchell은 MBA 시험 문제의 예를 제시했습니다. 그녀는 이 예의 일부 세부 사항을 변경했습니다. 이 변경 사항은 누구도 속일 수 없었지만 ChatGPT(GPT-3.5 실행)는 성공적으로 속였습니다. 이 라인에 따른 보다 자세한 실험은 가치가 있을 것입니다.
OpenAI의 투명성 부족으로 인해 저자는 오염 질문에 확실하게 답할 수 없습니다. 그러나 확실한 것은 오염 감지에 대한 OpenAI의 접근 방식이 피상적이고 엉성하다는 것입니다.
부분 문자열 일치를 사용하여 평가 데이터 세트와 사전 훈련 데이터 간의 교차 오염을 측정합니다. 평가 및 학습 데이터 모두 공백과 기호를 모두 제거하고 문자(숫자 포함)만 남겨 처리됩니다. 각 평가 인스턴스에 대해 50자 하위 문자열 3개를 무작위로 선택합니다(50자 미만인 경우 전체 인스턴스가 사용됩니다). 세 개의 샘플링된 평가 하위 문자열 중 하나라도 처리된 훈련 예시의 하위 문자열인 경우 일치가 식별됩니다. 그러면 오염된 예제 목록이 생성됩니다. 오염되지 않은 점수를 얻기 위해 이를 폐기하고 다시 실행합니다.
이것은 취약한 접근 방식입니다. 훈련 세트에 테스트 문제가 나타나지만 이름과 번호가 변경되면 감지되지 않습니다. 매립 거리와 같이 덜 부서지기 쉬운 방법을 쉽게 사용할 수 있습니다.
OpenAI가 거리 기반 방법을 사용한다면 얼마나 유사하면 너무 유사합니까? 이 질문에는 객관적인 답변이 없습니다. 따라서 객관식 표준화 시험 성적처럼 겉으로는 단순해 보이는 것에도 주관적인 결정이 내포되어 있습니다.
그러나 OpenAI가 이러한 시험을 통해 무엇을 측정하려고 하는지 물어보면 명확하게 알 수 있습니다. 언어 모델이 실제 작업에서 어떻게 수행될지 예측하는 것이 목표라면 문제가 있습니다. 어떤 의미에서 두 개의 변호사 시험 또는 건강 검진 문제는 제한된 공간에서 그려지기 때문에 실제 전문가가 직면하는 두 가지 유사한 작업보다 더 유사합니다. 따라서 훈련 코퍼스에 시험 문제를 포함하면 실제 세계에서 모델의 유용성에 대한 추정치가 부풀려질 위험이 있습니다.
실제 유용성의 관점에서 이 질문을 설명하면 또 다른 더 깊은 문제(질문 2)가 강조됩니다.
질문 2: 전문 시험은 인간과 로봇의 능력을 비교하는 효과적인 방법이 아닙니다.
기억은 스펙트럼입니다. 언어 모델이 훈련 세트에서 정확한 질문을 보지 못하더라도 훈련 코퍼스의 크기 때문에 필연적으로 매우 가까운 예를 보게 됩니다. 이는 보다 피상적인 수준의 추론으로 탈출할 수 있음을 의미합니다. 따라서 벤치마크 결과는 언어 모델이 인간 응시자에게 요구되는 심층적 추론 기술을 습득한 후 이러한 기술을 실제 세계에 적용한다는 증거를 제공하지 않습니다.
일부 실제 작업에서는 얕은 추론만으로도 충분할 수 있지만 항상 그런 것은 아닙니다. 세상은 끊임없이 변화하고 있기 때문에 로봇에게 새로운 기술이나 새로운 사법 결정의 법적 영향을 분석하도록 요청하면 얻을 수 있는 것이 거의 없습니다. 요약하자면, Emily Bender가 지적했듯이 인간을 위해 설계된 테스트는 로봇에 적용할 때 구성 타당성이 부족합니다.
그 외에도 전문 시험, 특히 변호사 시험은 주제 지식을 지나치게 강조하고 표준화된 컴퓨터 기반 관리에서 측정하기 어려운 실제 기술을 과소평가합니다. 즉, 이러한 시험은 잘못된 것을 강조할 뿐만 아니라 언어 모델이 잘하는 것을 지나치게 강조합니다.
AI 분야에서는 다양한 모델을 비교하기 위해 벤치마크가 과도하게 사용됩니다. 이러한 벤치마크는 다차원 평가를 단일 숫자로 압축한다는 비판을 받아왔습니다. 인간과 로봇을 비교하는 데 사용하면 결과는 잘못된 정보입니다. 불행하게도 OpenAI는 GPT-4 평가에서 이러한 유형의 테스트를 많이 사용하기로 결정했으며 오염 문제를 해결하기 위한 적절한 시도를 하지 않았습니다.
사람들은 업무 중에 인터넷에 접속할 수 있지만 표준화된 테스트 중에는 인터넷에 접속할 수 없습니다. 따라서 언어 모델이 인터넷에 접근할 수 있는 전문가만큼 수행할 수 있다면 이는 실제 수행에 대한 더 나은 테스트가 될 것입니다.
하지만 이것은 여전히 잘못된 질문입니다. 독립형 벤치마크를 사용하는 대신 언어 모델이 전문가가 수행해야 하는 모든 실제 작업을 얼마나 잘 수행할 수 있는지 측정해야 할 수도 있습니다. 예를 들어, 학계에서는 우리가 익숙하지 않은 분야의 논문을 자주 접하는데, 이는 전문적인 용어로 가득 차 있으며, ChatGPT가 그러한 논문을 보다 이해하기 쉽게 정확하게 요약할 수 있다면 유용할 것입니다. 일부는 동료 검토를 위해 이러한 도구를 테스트하기도 했습니다. 그러나 이 시나리오에서도 테스트에 사용된 질문이 훈련 세트에 포함되지 않았는지 확인하기가 어렵습니다.
ChatGPT가 전문가를 대체할 수 있다는 생각은 아직 무리입니다. 1950년 인구조사에서는 자동화로 인해 270개의 일자리 중 단 1개의 일자리, 즉 엘리베이터 운전사가 제거되었습니다. 지금 우리가 평가해야 할 것은 AI 도구를 사용하여 업무 수행을 돕는 전문가입니다. 두 가지 초기 연구가 유망합니다. 하나는 GitHub의 프로그래밍 부조종사에 관한 것이고 다른 하나는 ChatGPT의 글쓰기 지원에 관한 것입니다.
이 단계에서는 도구가 너무 새롭기 때문에 올바른 정량적 질문이 무엇인지조차 모르기 때문에 정량적 연구보다 질적 연구가 더 필요합니다. 예를 들어 Microsoft의 Scott Guthrie는 GitHub Copilot 사용자가 검사한 코드의 40%가 AI로 생성되었으며 수정되지 않은 놀라운 수치를 보고합니다. 그러나 모든 프로그래머는 코드의 상당 부분이 특히 엔터프라이즈 애플리케이션에서 자주 복사하여 붙여넣을 수 있는 템플릿과 기타 일상적인 논리로 구성되어 있다고 말할 것입니다. 이것이 Copilot이 자동화한 것이라면 생산성 향상은 미미할 것입니다.
분명히 말씀드리자면 Copilot이 쓸모없다고 말하는 것이 아니라, 전문가가 AI를 사용하는 방식에 대한 질적인 이해가 없으면 기존 지표가 의미가 없다는 것입니다. 게다가 AI 지원 코딩의 주요 이점은 생산성 향상이 아닐 수도 있습니다.
아래 이미지는 기사를 요약하고 OpenAI 보고서 종류의 측정 지표에서 벗어나려는 이유와 방법을 설명합니다.
GPT-4는 정말 흥미롭습니다. 자동화를 통해 간단하고 위험이 적지만 힘든 작업을 수행하는 등 다양한 방법으로 전문가의 고충을 해결할 수 있습니다. 지금은 이러한 이점을 실현하고 언어 모델의 많은 위험을 완화하는 데 집중하는 것이 더 나을 것입니다.
위 내용은 GPT-4는 전혀 프로그래밍할 수 없나요? 누군가 보여줬어의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!