마지막으로 누군가 작은 모델의 과적합을 조사했습니다. 그 중 2/3는 데이터 오염이 있었고 Microsoft Phi-3 및 Mixtral 8x22B라는 이름이 지정되었습니다.-일체 포함-php.cn

현재 가장 인기 있는 대형 모델의 3분의 2가 과적합 문제를 겪고 있나요?

방금 발표된 연구는 해당 분야의 많은 연구자들을 놀라게 했습니다.

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

대형 언어 모델의 추론 능력을 향상시키는 것은 현재 연구의 가장 중요한 방향 중 하나입니다. 이러한 유형의 작업에서는 최근 출시된 많은 소형 모델이 이러한 작업을 잘 수행하고 잘 대처할 수 있는 것으로 보입니다. 예를 들어 Microsoft의 Phi-3, Mistral 8x22B 및 기타 모델이 있습니다.

연구원들은 현재 대형 모델 연구 분야에 중요한 문제가 있다고 지적했습니다. 즉, 많은 연구가 기존 LLM의 기능을 정확하게 벤치마킹하지 못한다는 것입니다. 이는 현재 LLM 기능 수준을 평가하고 테스트하는 데 더 많은 시간을 투자해야 함을 의미합니다.

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

이는 대부분의 최근 연구가 GSM8k, MATH, MBPP, HumanEval, SWEBench 등과 같은 테스트 세트를 벤치마크로 사용하기 때문입니다. 모델은 인터넷에서 스크랩한 대규모 데이터 세트를 기반으로 훈련되므로 훈련 데이터 세트에는 벤치마크의 질문과 매우 유사한 샘플이 포함될 수 있습니다.

이러한 오염으로 인해 모델의 추론 능력이 잘못 평가될 수 있습니다. - 단순히 학습 과정에서 질문에 혼란스러워서 정답을 암송하게 될 수도 있습니다.

방금 Scale AI의 논문에서는 OpenAI의 GPT-4, Gemini, Claude, Mistral, Llama, Phi, Abdin 및 다양한 매개변수 양을 갖는 기타 시리즈를 포함하여 가장 인기 있는 대형 모델에 대한 심층 조사를 실시했습니다. . 모델.

테스트 결과는 광범위한 의혹을 확인시켜줍니다. 많은 모델이 벤치마크 데이터에 의해 오염되었습니다.

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

논문 제목: A Careful Examination of Large Language Model Performance on Grade School Arithmetic
논문 링크: https://arxiv.org/pdf/2405.00332

데이터를 피하기 위해 오염 문제로 인해 Scale AI의 연구원들은 LLM이나 기타 합성 데이터 소스를 사용하지 않고 전적으로 수동 주석에 의존하여 GSM1k 데이터 세트를 생성했습니다. GSM8k와 유사하게 GSM1k에는 1250개의 초등 수준 수학 문제가 포함되어 있습니다. 공정한 벤치마크 테스트를 보장하기 위해 연구원들은 GSM1k의 난이도 분포가 GSM8k와 유사한지 확인하기 위해 최선을 다했습니다. GSM1k에서 연구원들은 일련의 주요 오픈 소스 및 폐쇄 소스 대규모 언어 모델을 벤치마킹한 결과 최악의 성능 모델이 GSM8k보다 GSM1k에서 13% 더 낮은 성능을 발휘한다는 사실을 발견했습니다.

특히, 소량, 고품질로 유명한 Mistral 및 Phi 모델 시리즈는 GSM1k의 테스트 결과에 따르면 거의 모든 버전에서 일관된 과적합 증거를 보여줍니다.

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

추가 분석에서는 모델이 GSM8k 샘플을 생성할 확률과 GSM8k와 GSM1k 사이의 성능 격차(상관 계수 r^2 = 0.32) 사이에 양의 상관 관계가 있는 것으로 나타났습니다. 이는 과적합의 주요 원인이 모델이 GSM8k의 샘플을 부분적으로 잘못 판단한다는 점을 강력하게 시사합니다.

그러나 Gemini, GPT, Claude 및 Llama2 시리즈는 피팅 징후가 거의 나타나지 않았습니다. 또한 가장 과적합된 모델을 포함한 모든 모델은 때로는 기준 데이터가 표시된 것보다 낮은 성공률을 보였지만 여전히 새로운 초등학교 수학 문제에 대해 성공적으로 일반화할 수 있었습니다.

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

Scale AI는 향후 유사한 데이터 오염 문제가 발생하지 않도록 하기 위해 현재 GSM1k를 공개적으로 출시할 계획이 없습니다. 그들은 모든 주요 오픈 소스 및 비공개 소스 LLM에 대해 정기적으로 지속적인 평가를 수행할 계획이며, 후속 연구에서 결과를 논문에 재현할 수 있도록 평가 코드도 오픈 소스로 제공할 것입니다.

GSM1k 데이터세트

GSM1k에는 1250개의 초등학교 수학 문제가 포함되어 있습니다. 이러한 문제는 기본적인 수학적 추론만으로 해결할 수 있습니다. Scale AI는 각 인간 주석자에게 GSM8k의 샘플 질문 3개를 보여주고 비슷한 난이도의 새로운 질문을 하도록 요청하여 GSM1k 데이터 세트를 만들었습니다. 연구원들은 인간 주석자에게 고급 수학적 개념을 사용하지 말고 기본 산술(덧셈, 뺄셈, 곱셈, 나눗셈)만 사용하여 질문을 공식화하도록 요청했습니다. GSM8k와 마찬가지로 모든 문제의 해결책은 양의 정수입니다. GSM1k 데이터 세트 구성에는 언어 모델이 사용되지 않았습니다.

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

GSM1k 데이터 세트의 데이터 오염 문제를 방지하기 위해 Scale AI는 현재 데이터 세트를 공개적으로 공개하지 않지만 EleutherAI의 LM 평가 하네스를 기반으로 하는 GSM1k 평가 프레임워크를 오픈 소스로 제공합니다.

하지만 Scale AI는 다음과 같이 약속합니다. 다음 두 가지 조건 중 하나가 먼저 충족되면 전체 GSM1k 데이터 세트가 MIT 라이센스에 따라 출시됩니다. (1) 사전 훈련된 다양한 기본 모델 계보를 기반으로 하는 세 가지 오픈 소스 모델이 있습니다. (2) 2025년 말까지 GSM1k에서 95% 정확도를 달성합니다. 그 시점이 되면 초등학교 수학은 더 이상 LLM 성과를 평가하는 유효한 기준이 아닐 가능성이 높습니다.

독점 모델을 평가하기 위해 연구자들은 API를 통해 데이터 세트를 게시합니다. 이 릴리스 접근 방식을 사용하는 이유는 저자가 LLM 공급업체가 일반적으로 모델 모델을 교육하기 위해 API 데이터 포인트를 사용하지 않는다고 믿기 때문입니다. 그럼에도 불구하고 GSM1k 데이터가 API를 통해 유출되는 경우 작성자는 최종 GSM1k 데이터 세트에 나타나지 않는 데이터 포인트를 유지했으며 이러한 백업 데이터 포인트는 위 조건이 충족되면 GSM1k와 함께 공개됩니다.

그들은 향후 벤치마크 릴리스도 비슷한 패턴을 따르기를 바랍니다. 즉, 처음에는 공개적으로 공개하지 않고, 조작을 방지하기 위해 향후 날짜나 특정 조건이 충족될 때 공개하겠다고 사전 약속하는 것입니다.

또한 GSM8k와 GSM1k 간의 일관성을 최대화하기 위한 Scale AI의 최선의 노력에도 불구하고. 그러나 GSM8k의 테스트 세트는 공개적으로 공개되어 모델 테스트에 널리 사용되므로 GSM1k 및 GSM8k는 이상적인 조건에서의 근사치일 뿐입니다. GSM8k와 GSM1k의 분포가 정확히 동일하지 않을 때 다음과 같은 평가 결과가 얻어집니다.

평가 결과

모델을 평가하기 위해 연구진은 EleutherAI의 LM Evaluation Harness 브랜치를 사용하고 기본 설정을 사용했습니다. GSM8k 및 GSM1k 문제에 대한 실행 프롬프트는 동일합니다. GSM8k 트레이닝 세트에서 5개의 샘플을 무작위로 선택합니다. 이는 이 필드의 표준 구성이기도 합니다(전체 프롬프트 정보는 부록 B 참조).

모든 오픈 소스 모델은 반복성을 보장하기 위해 0의 온도에서 평가됩니다. LM 평가 키트는 응답의 마지막 숫자 답변을 추출하여 정답과 비교합니다. 따라서 샘플과 일치하지 않는 형식으로 "올바른" 답변을 생성하는 모델 응답은 잘못된 것으로 표시됩니다.

오픈 소스 모델의 경우 모델이 라이브러리와 호환되면 vLLM을 사용하여 모델 추론을 가속화하고, 그렇지 않으면 표준 HuggingFace 라이브러리가 기본적으로 추론에 사용됩니다. 비공개 소스 모델은 평가된 모든 독점 모델에 대한 API 호출 형식을 통합하는 LiteLLM 라이브러리를 통해 쿼리됩니다. 모든 API 모델 결과는 2024년 4월 16일부터 4월 28일 사이의 쿼리에서 나온 것이며 기본 설정을 사용합니다.

평가된 모델 중, 연구원들은 인기도를 기준으로 선정했으며, OpenLLMLLeaderboard에서 높은 순위를 차지한 잘 알려지지 않은 여러 모델도 평가했습니다.

흥미롭게도 연구원들은 이 과정에서 Goodhart의 법칙에 대한 증거를 발견했습니다. 많은 모델이 GSM8k보다 GSM1k에서 훨씬 더 나쁜 성능을 보였으며, 이는 실제로 모델 추론 기능을 향상시키기보다는 주로 GSM8k 벤치마크에 부응했음을 시사합니다. 모든 모델의 성능은 아래 부록 D에 나와 있습니다.

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

공정한 비교를 위해 연구진은 GSM8k에서의 성능에 따라 모델을 나누어 유사한 성능을 가진 다른 모델과 비교했습니다(그림 5, 그림 6, 그림 7).

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

어떤 결론이 나왔나요?

연구원들은 여러 모델의 객관적인 평가 결과를 제공했지만, 평가 결과를 해석하는 것도 꿈을 해석하는 것처럼 매우 주관적인 작업인 경우가 많다고 밝혔습니다. 논문의 마지막 부분에서 그들은 위 평가의 네 가지 의미를 보다 주관적인 방식으로 자세히 설명합니다.

결론 1: 일부 모델 계열은 체계적으로 과적합됩니다.

단일 데이터 포인트에서 결정하기 어려운 경우가 많지만 또는 모델 버전 결론을 내릴 수 있지만 모델군을 조사하고 과적합 패턴을 관찰하면 보다 확실한 진술을 할 수 있습니다. Phi 및 Mistral을 포함한 일부 모델 제품군은 거의 모든 모델 버전 및 크기에서 GSM1k보다 GSM8k에서 더 강력한 시스템 성능을 보이는 경향을 보여줍니다. Yi, Xwin, Gemma 및 CodeLlama와 같은 다른 모델 계열도 이 패턴을 덜 표시합니다.

결론 2: 다른 모델, 특히 최첨단 모델에서는 과적합 징후가 보이지 않습니다.

많은 모델이 모든 성능 영역에서 작은 과적합 징후를 보입니다. 특히 독점적인 Mistral Large Allleading-edge 또는 Near-leading- 내의 에지 모델은 GSM8k 및 GSM1k에서 유사한 성능을 보이는 것으로 보입니다. 이와 관련하여 연구자들은 두 가지 가능한 가설을 내놓았습니다. 1) 프론티어 모델은 충분히 진보된 추론 기능을 갖추고 있으므로 GSM8k 문제가 이미 훈련 세트에 나타났더라도 새로운 문제로 일반화할 수 있습니다. 2) 프론티어 모델 모델 작성자는 다음과 같이 할 수 있습니다. 데이터 오염에 더욱 주의하세요.

각 모델의 훈련 세트를 보고 이러한 가정을 결정하는 것은 불가능하지만, 전자를 뒷받침하는 한 가지 증거는 Mistral Large가 Mistral 계열에서 과적합의 징후를 보이지 않는 유일한 모델이라는 것입니다. Mistral만이 가장 큰 모델에 데이터 오염이 없다는 것을 보장한다는 가정은 거의 불가능해 보입니다. 따라서 연구원들은 충분히 강력한 LLM이 훈련 중에 기본적인 추론 기능도 배울 것이라고 선호합니다. 모델이 특정 난이도의 문제를 해결할 만큼 충분히 추론하는 방법을 학습하면 GSM8k가 훈련 세트에 있더라도 새로운 문제로 일반화할 수 있습니다.

결론 3: 과적합 모델에는 여전히 추론 능력이 있습니다

모델 과적합에 대해 많은 연구자들이 우려하는 것 중 하나는 모델이 추론을 수행하지 못하고 훈련 데이터의 답만 기억한다는 점인데, 본 논문에서는 그 결과 이 가설을 지지하지 않았습니다. 모델이 과적합되었다는 사실은 추론 능력이 낮다는 것을 의미하는 것이 아니라 단순히 벤치마크가 나타내는 것만큼 좋지 않다는 것을 의미합니다. 실제로 연구자들은 많은 과적합 모델이 여전히 새로운 문제를 추론하고 해결할 수 있다는 사실을 발견했습니다. 예를 들어, Phi-3의 정확도는 GSM8k와 GSM1k 사이에서 거의 10% 감소했지만 여전히 GSM1k 문제의 68% 이상을 올바르게 해결했습니다. 이는 확실히 훈련 분포에는 나타나지 않았던 문제입니다. 이 성능은 거의 35배에 달하는 매개변수 수를 포함하는 dbrx-instruct와 같은 대규모 모델과 유사합니다. 마찬가지로 과적합을 고려하더라도 Mistral 모델은 여전히 가장 강력한 오픈 소스 모델 중 하나입니다. 이는 대부분의 과적합 모델에서 발생할 가능성이 있는 벤치마크 데이터가 실수로 훈련 분포에 유출되더라도 충분히 강력한 모델이 기본 추론을 학습할 수 있다는 이 문서의 결론에 대한 더 많은 증거를 제공합니다.

결론 4: 데이터 오염은 과적합에 대한 완전한 설명이 아닐 수 있습니다.

선험적이고 자연스러운 가설은 과적합의 주요 원인이 예를 들어 사전 훈련이나 모델 생성 지침에서 데이터 오염이라는 것입니다. 미세 조정 부분에 대해서는 테스트 세트가 유출되었습니다. 이전 연구에서는 모델이 훈련 중에 본 데이터에 더 높은 로그 우도를 할당하는 것으로 나타났습니다(Carlini et al. [2023]). 연구원들은 모델이 GSM8k 테스트 세트에서 샘플을 생성할 확률을 측정하고 GSM8k 및 GSM1k와 비교하여 과적합 정도를 비교함으로써 데이터 오염이 과적합의 원인이라는 가설을 테스트했습니다.

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

연구원들은 데이터 오염이 전체 원인이 아닐 수도 있다고 말합니다. 그들은 여러 가지 이상치로 이것을 관찰했습니다. 이러한 이상치를 자세히 살펴보면 문자당 로그 가능성이 가장 낮은 모델(Mixtral-8x22b)과 문자당 로그 가능성이 가장 높은 모델(Mixtral-8x22b-Instruct)이 단순히 동일한 모델의 변형이 아니라는 사실을 알 수 있습니다. 그리고 비슷한 정도의 과적합을 가지고 있습니다. 더 흥미롭게도 가장 과적합된 모델(Math-Shepherd-Mistral-7B-RL (Yu et al. [2023]))은 문자당 로그 우도가 상대적으로 낮습니다(합성 데이터를 사용하는 Math Shepherd 프로세스 수준 데이터에 대한 보상 모델 훈련) ).

따라서 연구원들은 문제 자체가 데이터 세트에 나타나지 않았음에도 불구하고 보상 모델링 프로세스에서 GSM8k의 올바른 추론 체인에 대한 정보가 유출되었을 수 있다는 가설을 세웠습니다. 마지막으로 그들은 Llema 모델이 로그 우도가 높고 과적합이 최소화된다는 사실을 발견했습니다. 이러한 모델은 오픈 소스이고 훈련 데이터가 알려져 있으므로 Llema 논문에 설명된 대로 GSM8k 문제의 여러 사례가 훈련 코퍼스에 나타납니다. 그러나 저자는 이러한 몇 가지 사례가 심각한 과적합으로 이어지지는 않는다는 것을 발견했습니다. 이러한 이상치의 존재는 GSM8k의 과적합이 순전히 데이터 오염으로 인한 것이 아니라, 모델 빌더가 훈련 데이터와 유사한 속성을 가진 데이터를 수집하거나 데이터의 성능을 기반으로 하는 등 다른 간접적인 수단으로 인해 발생할 수 있음을 시사합니다. 모델 자체가 훈련 중 어떤 시점에서도 GSM8k 데이터세트를 보지 못했더라도 벤치마크는 최종 모델 체크포인트를 선택합니다. 그 반대도 마찬가지입니다. 소량의 데이터 오염이 반드시 과적합으로 이어지는 것은 아닙니다.

자세한 연구 내용은 원문을 참고해주세요.

위 내용은 마지막으로 누군가 작은 모델의 과적합을 조사했습니다. 그 중 2/3는 데이터 오염이 있었고 Microsoft Phi-3 및 Mixtral 8x22B라는 이름이 지정되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!