인간이 92점을 받을 수 있는 질문의 경우 GPT-4는 15점만 얻을 수 있습니다. 테스트가 업그레이드되면 모든 대형 모델이 원래 형태로 나타납니다.-일체 포함-php.cn

GPT-4는 탄생부터 다양한 시험(벤치마크)에서 높은 점수를 획득하는 '우수 학생'이었습니다. 그러나 이제 새로운 테스트에서는 인간의 점수가 92점인 데 비해 단 15점밖에 얻지 못했습니다.

"GAIA"라고 불리는 이 테스트 문제 세트는 Meta-FAIR, Meta-GenAI, HuggingFace 및 AutoGPT 팀이 제작했습니다. 이 테스트 문제는 추론, 다중 이해 등 일련의 기본 능력이 필요한 문제를 제시합니다. 양식 처리, 웹 검색 및 일반 도구 사용 능력. 이러한 문제는 인간에게는 매우 간단하지만 대부분의 고급 AI에게는 매우 어렵습니다. 내부 문제를 모두 해결할 수 있다면 완성된 모델은 AI 연구에 있어서 중요한 이정표가 될 것이다.

인간이 92점을 받을 수 있는 질문의 경우 GPT-4는 15점만 얻을 수 있습니다. 테스트가 업그레이드되면 모든 대형 모델이 원래 형태로 나타납니다.

GAIA의 디자인 컨셉은 현재의 많은 AI 벤치마크와 다릅니다. 후자는 인간에게 점점 더 어려운 작업을 디자인하는 경향이 있습니다. 이는 실제로 AGI에 대한 현재 커뮤니티의 차이를 반영합니다. GAIA 팀은 AGI의 출현은 위에서 언급한 "간단한" 문제에 대해 시스템이 일반 사람들과 유사한 견고성을 보여줄 수 있는지 여부에 달려 있다고 믿습니다.

인간이 92점을 받을 수 있는 질문의 경우 GPT-4는 15점만 얻을 수 있습니다. 테스트가 업그레이드되면 모든 대형 모델이 원래 형태로 나타납니다.

다시 작성한 내용은 다음과 같습니다. 이미지 1: GAIA 질문의 예. 이러한 작업을 완료하려면 추론, 다중 양식 또는 도구 사용과 같은 특정 기본 기능을 갖춘 대규모 모델이 필요합니다. 대답은 모호하지 않으며 설계상 훈련 데이터의 일반 텍스트에서 찾을 수 없습니다. 일부 문제에는 실제 사용 사례를 반영하고 문제를 더 잘 제어할 수 있는 그림과 같은 추가 증거가 제공됩니다.

LLM은 인간에게 어려운 작업을 성공적으로 완료할 수 있지만 GAIA에서 가장 유능한 LLM의 성능은 만족스럽지 않습니다. . 도구를 갖추고 있음에도 GPT4는 가장 쉬운 작업에서 30%를 넘지 않는 성공률을 보였고 가장 어려운 작업에서는 0%를 넘지 않았습니다. 한편 인간 응답자의 평균 성공률은 92%였습니다.

그래서 시스템이 GAIA에서 문제를 해결할 수 있다면 t-AGI 시스템에서 평가할 수 있습니다. t-AGI는 OpenAI 엔지니어인 Richard Ngo가 구축한 상세한 AGI 평가 시스템으로, 1초 AGI, 1분 AGI, 1시간 AGI 등을 포함합니다. AI 시스템이 제한된 시간 내에 수행할 수 있는지 여부를 검사하는 데 사용됩니다. . 인간이 일반적으로 동일한 시간 내에 완료할 수 있는 작업을 완료합니다. 저자들은 GAIA 테스트에서 인간이 일반적으로 가장 간단한 질문에 답하는 데 약 6분이 걸리고 가장 복잡한 질문에 답하는 데 약 17분이 걸린다고 말합니다.

인간이 92점을 받을 수 있는 질문의 경우 GPT-4는 15점만 얻을 수 있습니다. 테스트가 업그레이드되면 모든 대형 모델이 원래 형태로 나타납니다.

저자는 GAIA 방식을 사용하여 466개의 질문과 답변을 디자인했습니다. 그들은 166개의 질문과 답변이 포함된 개발자 세트와 답변이 제공되지 않은 추가 질문 300개를 출시했습니다. 이번 벤치마크는 리더보드 형식으로 공개됩니다

인간이 92점을 받을 수 있는 질문의 경우 GPT-4는 15점만 얻을 수 있습니다. 테스트가 업그레이드되면 모든 대형 모델이 원래 형태로 나타납니다.

리더보드 주소: https://huggingface.co/spaces/gaia-benchmark/leaderboard
문서 주소: https:// arxiv ... ? GAIA는 일반 보조 문제에 대한 인공 지능 시스템을 테스트하기 위한 벤치마크라고 연구진은 말했습니다. GAIA는 이전 LLM 평가의 많은 단점을 회피하려고 시도합니다. 이 벤치마크는 사람이 설계하고 주석을 추가한 466개의 질문으로 구성됩니다. 질문은 텍스트 기반이며 일부는 파일(예: 이미지 또는 스프레드시트)과 함께 제공됩니다. 일상적인 개인 작업, 과학 및 일반 지식 등을 포함한 다양한 보조적 성격의 작업을 다룹니다.
이 질문에는 짧고 단일하며 쉽게 확인할 수 있는 정답이 있습니다.GAIA를 사용하려면 다음에게 물어보세요. 인공지능 보조자는 제로 샘플로 질문하고 관련 증거(있는 경우)를 첨부합니다. GAIA에서 만점을 얻으려면 다양한 기본 능력이 필요합니다. 이 프로젝트의 제작자는 보충 자료에 다양한 질문과 메타데이터를 제공했습니다

GAIA는 인공 지능 벤치마크를 업그레이드해야 할 필요성과 현재 널리 관찰되는 LLM 평가의 단점을 바탕으로 탄생했습니다.

GAIA 디자인의 첫 번째 원칙은 개념적으로 간단한 문제를 목표로 삼는 것입니다. 이러한 문제는 인간에게는 지루할 수 있지만 현실 세계에서는 끊임없이 변화하고 있으며 현재 인공 지능 시스템에는 어려운 문제입니다. 이를 통해 우리는 전문적인 기술보다는 추론을 통한 빠른 적응, 다중 모드 이해 및 잠재적으로 다양한 도구 사용과 같은 기본 기능에 집중할 수 있습니다. 끊임없이 변화하는 웹)을 통해 정확한 답변을 제공합니다. 그림 1의 예시 질문에 대답하려면 LLM은 일반적으로 연구를 위해 웹을 검색한 다음 올바른 등록 위치를 찾아야 합니다. 이는 인간이 점점 더 어려워지거나 일반 텍스트 또는 인공적인 환경에서 작동하는 이전 벤치마크 시스템의 추세와 반대됩니다.

GAIA의 두 번째 원칙은 해석 가능성입니다. 우리는 엄청난 수의 질문보다 새로운 벤치마크를 더 쉽게 사용할 수 있도록 제한된 수의 질문을 신중하게 선별했습니다. 이 작업의 개념은 간단하므로(인간 성공률 92%) 사용자가 모델의 추론 프로세스를 쉽게 이해할 수 있습니다. 그림 1의 첫 번째 수준 문제의 경우 추론 프로세스는 주로 올바른 웹사이트를 확인하고 올바른 번호를 보고하는 것으로 구성됩니다. 이 프로세스는 확인하기 쉽습니다

GAIA의 세 번째 원칙은 메모리에 대한 견고성입니다. GAIA의 목표는 다음과 같습니다. 대부분의 현재 벤치마크보다 추측 확률이 낮습니다. 작업을 완료하려면 시스템이 여러 단계를 계획하고 성공적으로 완료해야 합니다. 설계상 결과 답변은 현재 사전 훈련 데이터에서 일반 텍스트 형식으로 생성되지 않습니다. 정확성의 향상은 시스템의 실제 진행 상황을 반영합니다. 다양성과 행동 공간의 크기로 인해 이러한 작업은 예를 들어 기본 사실을 암기하는 등의 부정 행위 없이는 무차별 대입으로 수행될 수 없습니다. 데이터 오염으로 인해 정확성이 더 높아질 수 있지만 필요한 답변의 정확성, 사전 훈련 데이터에 답변이 없고 추론 추적을 검사할 수 있는 가능성이 이러한 위험을 완화합니다.

반대로 객관식 답변은 잘못된 추론의 흔적이 여전히 올바른 선택으로 이어질 수 있기 때문에 오염 평가를 어렵게 만듭니다. 이러한 완화 조치에도 불구하고 치명적인 메모리 문제가 발생하는 경우, 논문의 저자가 제공한 지침을 사용하여 새로운 문제를 설계하는 것은 쉽습니다.

그림 2.: GAIA에서 질문에 답하려면 GPT4(코드 해석기로 구성됨)와 같은 AI 보조자가 여러 단계를 완료해야 하며, 이를 위해서는 도구를 사용하거나 파일을 읽어야 할 수 있습니다. 인간이 92점을 받을 수 있는 질문의 경우 GPT-4는 15점만 얻을 수 있습니다. 테스트가 업그레이드되면 모든 대형 모델이 원래 형태로 나타납니다.

GAIA의 최종 원칙은 사용 편의성입니다. 작업은 간단한 프롬프트이며 추가 파일이 함께 제공될 수 있습니다. 가장 중요한 것은 귀하의 질문에 대한 답변이 사실에 근거하고 간결하며 명확하다는 것입니다. 이러한 속성을 통해 간단하고 빠르며 현실적인 평가가 가능합니다. 질문은 제로샷 기능을 테스트하여 평가 설정의 영향을 제한하도록 설계되었습니다. 대조적으로, 많은 LLM 벤치마크에서는 단서의 수와 성격 또는 벤치마크 구현과 같은 실험 설정에 민감한 평가가 필요합니다.

기존 모델 벤치마킹

GAIA는 대형 모델의 지능 수준을 자동화되고 빠르고 현실적으로 평가할 수 있도록 설계되었습니다. 실제로 달리 명시하지 않는 한 각 질문에는 문자열(하나 또는 여러 단어), 숫자 또는 쉼표로 구분된 문자열 또는 부동 소수점 목록이 될 수 있는 답변이 필요하지만 정답은 하나뿐입니다. 따라서 평가는 모델의 답변과 실제 결과(기본 실제의 "유형"과 관련된 일부 정규화까지) 간의 준정확 일치를 통해 수행됩니다. 시스템(또는 접두사) 힌트는 모델에 필요한 형식을 알려주는 데 사용됩니다(그림 2 참조).

실제로 GPT4 레벨의 모델은 GAIA 형식을 쉽게 준수합니다. GAIA는 점수 및 순위 지정 기능을 제공하고 있습니다

현재는 대형 모델 분야인 OpenAI의 GPT 시리즈에 대해서만 '벤치마크' 테스트를 진행했는데, 버전에 상관없이 점수가 매우 낮은 것을 알 수 있습니다. 레벨 3은 0인 경우가 많습니다.

GAIA를 사용하여 LLM을 평가하려면 모델에 메시지를 표시할 수 있어야 합니다. 즉, API 액세스 권한이 있어야 합니다. GPT4 테스트에서 가장 높은 점수는 사람이 수동으로 플러그인을 선택한 결과였습니다. AutoGPT가 이 선택을 자동으로 수행할 수 있다는 점은 주목할 가치가 있습니다. 인간이 92점을 받을 수 있는 질문의 경우 GPT-4는 15점만 얻을 수 있습니다. 테스트가 업그레이드되면 모든 대형 모델이 원래 형태로 나타납니다.

API를 사용할 수 있는 한 모델은 테스트 중에 3번 실행되고 평균 결과가 보고됩니다

인간이 92점을 받을 수 있는 질문의 경우 GPT-4는 15점만 얻을 수 있습니다. 테스트가 업그레이드되면 모든 대형 모델이 원래 형태로 나타납니다.

그림 4: 다양한 방법과 수준에 따른 점수 및 응답 시간

전반적으로 인간은 Q&A가 더 좋습니다. 의 성능은 모든 수준에서 우수하지만 현재 최고의 대형 모델은 성능이 확실히 저조합니다. 저자는 GAIA가 유능한 AI 보조자의 명확한 순위를 제공하는 동시에 앞으로 몇 달, 심지어 몇 년 동안 상당한 개선의 여지를 남겨둘 수 있다고 믿습니다.

답변에 걸리는 시간으로 볼 때 GPT-4와 같은 대형 모델은 기존 검색 엔진을 대체할 가능성이 있습니다.

플러그인이 없는 GPT4 결과와 다른 결과의 차이점은 도구 API를 통해 또는 LLM을 강화하기 위한 네트워크는 답변의 정확성을 높이고 많은 새로운 사용 사례를 열어 이 연구 방향의 큰 잠재력을 확인할 수 있습니다.

AutoGPT-4를 사용하면 GPT-4가 자동으로 도구를 사용할 수 있지만 레벨 2, 심지어 레벨 1의 결과는 플러그인이 없는 GPT-4에 비해 실망스럽습니다. 이러한 차이점은 AutoGPT-4가 GPT-4 API(힌트 및 빌드 매개변수)에 의존하는 방식에서 비롯될 수 있으며 가까운 시일 내에 새로운 평가가 필요할 것입니다. AutoGPT-4는 다른 LLM에 비해 속도도 느립니다. 전반적으로 인간과 플러그인을 사용한 GPT-4의 협업이 가장 좋은 성능을 보이는 것 같습니다.

인간이 92점을 받을 수 있는 질문의 경우 GPT-4는 15점만 얻을 수 있습니다. 테스트가 업그레이드되면 모든 대형 모델이 원래 형태로 나타납니다.

그림 5는 기능별로 분류된 모델에서 얻은 점수를 보여줍니다. 분명히 GPT-4만으로는 파일과 다중 양식을 처리할 수 없지만 웹 브라우징을 사용하는 주석자의 문제를 해결할 수 있습니다. 주로 답변을 얻기 위해 결합해야 하는 정보 조각을 정확하게 기억할 수 있기 때문입니다

인간이 92점을 받을 수 있는 질문의 경우 GPT-4는 15점만 얻을 수 있습니다. 테스트가 업그레이드되면 모든 대형 모델이 원래 형태로 나타납니다.

그림 3 왼쪽: GAIA에서 문제를 해결하는 데 필요한 능력의 수. 오른쪽: 각 포인트는 GAIA 질문에 해당합니다. 점의 크기는 해당 위치의 질문 수에 비례하며, 질문 수가 가장 많은 레벨만 표시됩니다. 두 숫자 모두 사람이 질문에 답변할 때 보고한 정보를 기반으로 하며 AI 시스템에서 다르게 처리될 수 있습니다.

GAIA에서 만점을 얻으려면 고급 추론, 다중 모드 이해, 코딩 기능 및 웹 브라우징과 같은 일반적인 도구 사용을 갖춘 AI가 필요합니다. AI에는 PDF, 스프레드시트, 이미지, 비디오 또는 오디오와 같은 다양한 데이터 양식을 처리해야 하는 필요성도 포함됩니다.

웹 탐색은 GAIA의 핵심 구성 요소이지만 웹 사이트에서 파일 업로드, 댓글 게시, 회의 예약 등 '클릭' 이외의 작업을 수행하는 데는 AI 보조자가 필요하지 않습니다. 스팸 생성을 피하면서 실제 환경에서 이러한 기능을 테스트하려면 주의가 필요하며, 이 방향은 향후 작업으로 남겨두겠습니다.

난이도가 높아지는 질문: 문제를 해결하는 데 필요한 단계와 질문에 답하는 데 필요한 다양한 도구의 수에 따라 질문은 난이도가 높아지는 세 가지 레벨로 나눌 수 있습니다. 이러한 단계나 도구에 대한 단일 정의는 없으며, 주어진 질문에 답변하는 경로는 여러 개가 있을 수 있습니다.