Peking University, West Lake University 등의 오픈 소스 '심판 대형 모델'인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드-일체 포함-php.cn

ChatGPT 출시 이후 자연어 처리 분야의 생태계가 완전히 바뀌었습니다. 이전에는 해결할 수 없었던 많은 문제가 ChatGPT를 사용하여 해결될 수 있습니다.

하지만 문제도 발생합니다. 대형 모델의 성능이 너무 강하고, 각 모델의 차이점을 육안으로 평가하기가 어렵습니다.

예를 들어, 서로 다른 기본 모델과 하이퍼파라미터를 사용하여 여러 버전의 모델을 훈련하는 경우 성능은 예제와 유사할 수 있으며 두 모델 간의 성능 격차를 완전히 정량화하는 것은 불가능합니다.

현재 대규모 언어 모델을 평가하는 데는 두 가지 주요 옵션이 있습니다. 1 평가를 위해 OpenAI의 API 인터페이스를 호출합니다.

ChatGPT는 두 모델의 출력 품질을 평가하는 데 사용할 수 있습니다. 그러나 ChatGPT는 반복적으로 업그레이드되어 서로 다른 시기에 동일한 질문에 대한 응답이 다를 수 있다는 문제가 있습니다. 재현

2. 수동 주석

크라우드소싱 플랫폼에서 수동 주석을 요청하면 자금이 부족한 팀이 이를 감당하지 못할 수도 있고, 제3자 회사에서

데이터가 유출

되는 경우도 있습니다. 이러한 "대규모 모델 평가 문제"를 해결하기 위해 Peking University, Westlake University, North Carolina State University, Carnegie Mellon University 및 MSRA의 연구원들은 협력하여 새로운 언어 모델 평가 프레임워크 PandaLM을 개발하기 위해 노력했습니다. -보존 가능하고 신뢰할 수 있으며 재현 가능하고 저렴한 대형 모델 평가 솔루션입니다.

Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드 프로젝트 링크: https://github.com/WeOpenML/PandaLM

PandaLM은 동일한 컨텍스트를 제공하여 다양한 LLM의 응답 출력을 비교하고 구체적인 이유를 제공할 수 있습니다.

도구의 신뢰성과 일관성을 입증하기 위해 연구원들은 약 1,000개의 샘플로 구성된 다양한 사람이 라벨을 붙인 테스트 데이터세트를 만들었고, 여기서 PandaLM-7B는 ChatGPT 평가 기술의 94% 정확도를 달성했습니다.

PandaLM을 사용하는 세 줄의 코드두 개의 서로 다른 대형 모델이 동일한 지시 및 컨텍스트에 대해 서로 다른 응답을 생성하는 경우 PandaLM은 두 개의 대형 모델의 응답 품질을 비교하고 비교 결과와 비교 이유를 출력하는 것을 목표로 합니다. 그리고 참고용 답변.

세 가지 비교 결과가 있습니다. 응답 1이 더 좋고, 응답 2가 더 좋고, 응답 1과 응답 2의 품질이 비슷합니다.

여러 대형 모델의 성능을 비교할 때 PandaLM을 사용하여 쌍별로 비교한 다음 쌍별 비교 결과를 요약하여 여러 대형 모델의 성능 순위를 지정하거나 모델 부분 순서 관계 다이어그램을 그리면 됩니다. 다양한 모델 간의 성능 차이를 명확하고 직관적으로 분석합니다.

PandaLM은 "로컬 배포"만 필요하고 "사람의 참여는 필요하지 않습니다". 따라서 PandaLM의 평가는 개인 정보를 보호할 수 있고 상당히 저렴합니다.

더 나은 해석 가능성을 제공하기 위해 PandaLM은 선택 항목을 자연어로 설명하고 추가 참조 응답 세트를 생성할 수도 있습니다.

이 프로젝트에서 연구원들은 사례 분석을 용이하게 하기 위해 웹 UI를 사용하여 PandaLM을 사용할 수 있도록 지원할 뿐만 아니라 임의의 모델과 데이터에서 생성된 텍스트 평가를 위해 PandaLM을 호출하는 세 줄의 코드도 지원합니다. Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

많은 기존 모델과 프레임워크가 오픈 소스가 아니거나 로컬에서 추론을 완료하기 어렵다는 점을 고려하여 PandaLM은 지정된 모델 가중치를 사용하여 평가할 텍스트를 생성하거나 평가할 텍스트가 포함된 .json 파일을 직접 전달할 수 있도록 지원합니다.

사용자는 모델 이름/HuggingFace 모델 ID 또는 .json 파일 경로가 포함된 목록을 전달하기만 하면 PandaLM을 활용하여 사용자 정의 모델과 입력 데이터를 평가할 수 있습니다. 다음은 최소한의 사용 예입니다.

Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

모든 사람이 무료 평가를 위해 PandaLM을 유연하게 사용할 수 있도록 연구원들은 또한 Huggingface 웹사이트에 PandaLM의 모델 가중치를 게시했습니다. 다음 명령 PandaLM-7B 모델:

Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

PandaLM의 특징

Reproducibility

언어 모델의 출력이 무작위성이더라도 PandaLM의 가중치는 공개되므로, 언제 수정됨 무작위 시딩 후에도 PandaLM의 평가 결과는 여전히 일관성을 유지할 수 있습니다.

온라인 API를 기반으로 한 모델 업데이트는 불투명하고 출력이 시점에 따라 매우 불일치할 수 있으며 이전 버전의 모델에 더 이상 액세스할 수 없으므로 온라인 API를 기반으로 한 평가가 실패하는 경우가 많습니다. 재생할 수 있는.

자동화, 개인 정보 보호 및 낮은 오버헤드

PandaLM 모델을 로컬로 배포하고 기성 명령을 호출하기만 하면 다양한 대형 모델 평가를 시작할 수 있습니다. 전문가를 고용할 때처럼 전문가와 계속 연락할 필요가 없습니다. Annotation 통신 중 데이터 유출 문제가 없으며, API 비용이나 인건비가 전혀 들지 않아 매우 저렴합니다.

평가 수준

PandaLM의 신뢰성을 입증하기 위해 연구원들은 세 명의 전문가를 고용하여 독립적인 반복 주석을 수행하고 수동으로 주석이 달린 테스트 세트를 만들었습니다.

테스트 세트에는 50개의 다양한 장면이 포함되어 있으며 각 장면에는 여러 작업이 포함되어 있습니다. 이 테스트 세트는 다양하고 신뢰할 수 있으며 텍스트에 대한 인간의 선호도와 일치합니다. 테스트 세트의 각 샘플은 지침과 컨텍스트, 그리고 서로 다른 대형 모델에서 생성된 두 가지 응답으로 구성되며, 두 응답의 품질을 사람이 비교합니다.

최종 테스트 세트에서 각 주석자의 IAA(Inter Annotator Agreement)가 0.85에 가까워지도록 주석자 간에 차이가 큰 샘플을 선별합니다. PandaLM의 훈련 세트는 생성된 수동으로 주석이 달린 테스트 세트와 겹치지 않는다는 점에 주목할 가치가 있습니다.

Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

이러한 필터링된 샘플에는 판단을 돕기 위해 추가 지식이 필요하거나 얻기 어려운 정보가 필요하므로 인간이 정확하게 라벨을 붙이기가 어렵습니다.

필터링된 테스트 세트에는 1000개의 샘플이 포함되어 있고, 필터링되지 않은 원래 테스트 세트에는 2500개의 샘플이 포함되어 있습니다. 테스트 세트의 분포는 {0:105, 1:422, 2:472}입니다. 여기서 0은 두 응답의 품질이 유사함을 나타내고, 1은 응답 1이 더 우수함을 나타내고, 2는 응답 2가 더 우수함을 나타냅니다. 인간 테스트 세트를 벤치마크로 삼아 PandaLM과 gpt-3.5-turbo의 성능 비교는 다음과 같습니다.

Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

PandaLM-7B가 gpt-3.5-turbo 94 수준에 도달했음을 알 수 있습니다. 정확도, 재현율, F1 점수 측면에서 PandaLM-7B는 gpt-3.5-turbo와 거의 동일합니다.

그러므로 gpt-3.5-turbo와 비교하면 PandaLM-7B는 이미 상당한 대형 모델 평가 능력을 갖추고 있다고 볼 수 있습니다.

테스트 세트의 정확도, 정밀도, 재현율, F1 점수 외에도 비슷한 크기의 대형 오픈소스 모델 5개 간의 비교 결과도 제공합니다.

먼저 동일한 훈련 데이터를 사용하여 5개 모델을 미세 조정한 다음 인간, gpt-3.5-turbo 및 PandaLM을 사용하여 5개 모델을 각각 비교했습니다.

아래 표의 첫 번째 행에 있는 첫 번째 튜플(72, 28, 11)은 Bloom-7B보다 우수한 LLaMA-7B 응답이 72개 있고, Bloom-7B보다 우수한 LLaMA-7B 응답이 28개 있음을 나타냅니다. 7B 차이점은 두 모델이 11가지 유사한 응답 품질을 가지고 있다는 것입니다.

Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

그래서 이 예에서 인간은 LLaMA-7B가 Bloom-7B보다 낫다고 생각합니다. 다음 세 표의 결과는 인간, gpt-3.5-turbo 및 PandaLM-7B가 각 모델의 장단점 간의 관계에 대해 완전히 일관된 판단을 가지고 있음을 보여줍니다.

Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

Summary

PandaLM은 인간 평가, OpenAI API 평가 외에 대형 모델 평가를 위한 세 번째 솔루션을 제공합니다. 평가 수준이 높을 뿐만 아니라 평가 결과가 재현 가능하고 평가도 우수합니다. 프로세스가 자동화되고 개인 정보가 보호되며 오버헤드가 낮습니다.

앞으로도 PandaLM은 학계와 산업계에서 대형 모델에 대한 연구를 추진하여 더 많은 사람들이 대형 모델 개발의 혜택을 누릴 수 있도록 하겠습니다.

위 내용은 Peking University, West Lake University 등의 오픈 소스 '심판 대형 모델'인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!