기사 주제 학습 다운로드 Q&A 프로그래밍 사전 게임 최근 업데이트

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

집 > 기술 주변기기 > 일체 포함 > 본문

중국 과학팀, 대형 모델의 복잡한 추론 능력을 종합적으로 평가하기 위해 'Thinking Chain Collection' 출시

王林

풀어 주다： 2023-06-05 13:22:29

앞으로

778명이 탐색했습니다.

대형 모델 기능이 등장하고 있습니다. 매개변수 규모가 클수록 좋습니다.

그러나 점점 더 많은 연구자들이 10B보다 작은 모델도 GPT-3.5와 비슷한 성능을 달성할 수 있다고 주장합니다.

정말 그런가요?

GPT-4를 출시하는 OpenAI 블로그에서는 다음과 같이 언급했습니다.

일상적인 대화에서는 GPT-3.5와 GPT-4의 차이가 매우 미묘할 수 있습니다. 작업의 복잡성이 충분한 임계값에 도달하면 차이점이 나타납니다. GPT-4는 GPT-3.5보다 더 안정적이고 창의적이며 더 미묘한 지침을 처리할 수 있습니다.

Google 개발자도 PaLM 모델에 대해 비슷한 관찰을 했습니다. 그들은 대형 모델의 사고 연쇄 추론 능력이 소형 모델의 그것보다 훨씬 더 강력하다는 것을 발견했습니다.

이러한 관찰은 모두 복잡한 작업을 수행하는 능력이 대형 모델의 역량을 구현하는 핵심임을 보여줍니다.

모델도 프로그래머도 마찬가지다. "쓸데없는 소리 그만하고 논리를 보여라"라는 옛말처럼요.

중국 과학팀, 대형 모델의 복잡한 추론 능력을 종합적으로 평가하기 위해 Thinking Chain Collection 출시

에든버러 대학교, 워싱턴 대학교, Allen AI 연구소의 연구원들은 복잡한 추론 능력이 미래에 대규모 모델을 더욱 지능적인 도구로 개발하기 위한 기초라고 믿습니다.

기본적인 텍스트 요약 능력, 대형 모델의 실행은 그야말로 "과녁으로 닭 죽이기"입니다.

이러한 기본 능력에 대한 평가는 향후 대형 모델의 발전을 연구하기에는 다소 비전문적이라고 생각됩니다.

논문 주소: https://arxiv.org/pdf/2305.17306.pdf

대형 모델 추론 능력이 가장 뛰어난 회사는 어디인가요?

이것이 바로 연구자들이 복잡한 추론 작업 목록인 사고 사슬 허브를 작성하여 까다로운 추론 작업에서 모델의 성능을 측정한 이유입니다.

시험 항목에는 수학(GSM8K)), 과학(MATH, 정리 QA), 기호(BBH), 지식(MMLU, C-Eval), 코딩(HumanEval)이 포함됩니다.

이러한 테스트 프로젝트나 데이터 세트는 모두 대형 모델의 복잡한 추론 기능을 목표로 합니다. 누구나 정확하게 답할 수 있는 간단한 작업은 없습니다.

연구원들은 여전히 COT 프롬프트 방법을 사용하여 모델의 추론 능력을 평가합니다.

추론 능력 테스트에서 연구자들은 최종 답변의 성능만을 유일한 측정 기준으로 사용하며, 중간 추론 단계는 판단의 기초로 사용되지 않습니다.

아래 그림에 표시된 것처럼 다양한 추론 작업에 대한 현재 주류 모델의 성능입니다.

중국 과학팀, 대형 모델의 복잡한 추론 능력을 종합적으로 평가하기 위해 Thinking Chain Collection 출시

테스트 결과: 모델이 클수록 추론 능력이 더 강해집니다.

연구원의 연구는 GPT, Claude, PaLM, LLaMA 및 T5 모델 계열을 포함하여 현재 인기 있는 모델에 중점을 두고 있습니다.

OpenAI GPT에는 GPT-4(현재 가장 강력함), GPT3.5-Turbo(더 빠르지만 약함), text-davinci-003, text-davinci-002 및 code-davinci-002(Turbo 중요 버전 이전)가 포함됩니다. .

중국 과학팀, 대형 모델의 복잡한 추론 능력을 종합적으로 평가하기 위해 Thinking Chain Collection 출시

Anthropic Claude에는 claude-v1.3(느리지만 성능은 높음) 및 claude-instant-v1.0(빠르지만 성능은 낮음)이 포함되어 있습니다.

PaLM, PaLM-2 및 해당 지침 조정 버전(FLan-PaLM 및 Flan-UPaLM)을 포함한 Google PaLM, 강력한 기반 및 지침 조정 모델.

중국 과학팀, 대형 모델의 복잡한 추론 능력을 종합적으로 평가하기 위해 Thinking Chain Collection 출시

Meta LLaMA(7B, 13B, 33B 및 65B 변형 포함), 중요한 오픈 소스 기본 모델.

GPT-4는 GSM8K 및 MMLU의 다른 모든 모델보다 훨씬 뛰어난 성능을 발휘하며 Claude는 GPT 시리즈와 비교할 수 있는 유일한 모델입니다.

FlanT5 11B 및 LLaMA 7B와 같은 소형 모델은 훨씬 뒤쳐집니다.

실험을 통해 연구자들은 모델 성능이 일반적으로 규모와 관련되어 대략 로그 선형 추세를 보인다는 사실을 발견했습니다.

모수 척도를 공개하지 않는 모델은 일반적으로 척도 정보를 공개하는 모델보다 성능이 더 좋습니다.

LLaMA-65B 추론 기능은 ChatGPT

에 가깝습니다. 또한 연구원들은 오픈 소스 커뮤니티가 추가 개선을 위해 여전히 규모 및 RLHF와 관련된 "해자"를 탐색해야 할 수도 있다고 지적했습니다.

중국 과학팀, 대형 모델의 복잡한 추론 능력을 종합적으로 평가하기 위해 Thinking Chain Collection 출시

논문의 첫 번째 저자인 Fu Yao는 다음과 같이 결론을 내렸습니다.

1. 오픈 소스와 비공개 사이에는 분명한 차이가 있습니다.

2. 상위권 주류 모델은 대부분 RLHF

3입니다. LLaMA-65B는 GPT-3.5의 기본 모델인 code-davinci-002에 매우 가깝습니다.

4. 이상, 가장 희망하는 방향은 "LLaMA 65B에서 RLHF를 하는 것"입니다.

중국 과학팀, 대형 모델의 복잡한 추론 능력을 종합적으로 평가하기 위해 Thinking Chain Collection 출시

이 프로젝트에서 저자는 향후 추가 최적화에 대해 설명합니다.

미래에는 특히 상식 추론을 측정하기 위해 더욱 신중하게 선택된 데이터를 포함한 더 많은 추론 데이터 세트가 추가될 것입니다. 그리고 데이터 세트의 수학적 정리.

및 외부 API 호출 기능.

더 중요한 것은 Vicuna7 및 기타 오픈 소스 모델과 같은 LLaMA 기반 지침 미세 조정 모델과 같은 더 많은 언어 모델을 포함하는 것입니다.

Cohere 8과 같은 API를 통해 PaLM-2와 같은 모델의 기능에 액세스할 수도 있습니다.

간단히 말하면, 저자는 이 프로젝트가 오픈 소스 대형 언어 모델 개발을 평가하고 안내하는 공공 복지 시설로서 큰 역할을 할 수 있다고 믿습니다.

위 내용은 중국 과학팀, 대형 모델의 복잡한 추론 능력을 종합적으로 평가하기 위해 'Thinking Chain Collection' 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨：

模型测评

원천：51cto.com

이전 기사：Little Yellow Duck Deying (02250.HK): 왼손은 '트렌디한 플레이' 게임에 들어가고, 오른손은 'AI'를 포용하며 작은 노란 오리 Deying의 성장 잠재력을 드러냅니다. 다음 기사："메이드 인 청두(Made in Chengdu)" UAV가 선저우 15호의 성공적인 귀환을 호위했습니다.

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

Endless Runner 게임의 속편은 누구나 100만 달러의 상금을 놓고 경쟁할 수 있도록 공개되었습니다.

2024-09-20 15:52:34
솔라나 기반 Memecoin Popcat(POPCAT)은 비트코인의 2019년 '드라이 바운스(Dry Bounce)'를 모방하여 한 달 만에 거의 100%의 이익을 기록했습니다.

2024-09-20 15:46:32
$QASH Airdrop: Claim Your Piece of the Pie!

2024-09-20 15:28:32
MetaMask支付平台的可靠性和合法性

2024-09-20 14:54:01
如何将MetaMask钱包中的资产转移到交易所

2024-09-20 14:52:01
imToken 콜드월렛 활성화 방법

2024-09-20 14:44:01
MATIC 코인 가격 예측 2024-2030

2024-09-20 14:42:01
IntelMarkets(INTL): 이중 체인 유연성, 높은 레버리지, 양자 증명 프로토콜 영구 교환 사전 판매가 진행 중입니다.

2024-09-20 09:46:12
Shiba Inu의 레이어 2 확장 솔루션 Shibarium이 부활하고 SHIB 가격이 10% 상승

2024-09-20 06:47:29
Crypto Banter 창립자, Altcoin 시즌을 위한 토큰 강조

2024-09-20 06:46:29

최신 이슈

여러 경로에 선언된 작업자 풀이 임계값을 고려하지 않고 여전히 CPU 사용량을 유지할 수 있습니까? CPU 집약적인 작업을 처리하기 위해 작업자 풀이 있는 node.js 시스템을 찾고 있지만 여러 경로에서의 CPU 사용량에 대해 약간 혼란스럽습니다. 시나리오는 ...

에서 2024-04-06 19:54:23

0

1

444

MySQL SQL 쿼리를 사용하여 다른 테이블의 필드 합계를 계산합니다. 다음과 같은 스키마가 있습니다. "user_id" 및 "username" 속성이 있는 사용자 테이블과 "custome...

에서 2024-04-06 19:39:29

0

1

441

웹사이트에서 입력 요소를 가져올 수 없습니다. 그래서 Twitter에서 입력 요소를 가져오려고 하는데 실행하면 노드 터미널에서 계속 이런 오류가 발생하고 결과적으로 이 코드로 생성된 브라우저 창이 저절로 닫힙...

에서 2024-04-06 18:59:57

0

1

442

템플릿의 메서드에 정의된 변수 사용 Vue(v3가 아닌 v2)를 사용하는 것은 이번이 처음이고 템플릿(메소드 내부에 정의됨) 내에서 변수를 사용하려고 노력해 왔습니다. 내 단순화된 코드: <t...

에서 2024-04-06 18:10:25

0

2

513

SCSS를 사용하여 기본값 및 CSS 변수 생성 웹사이트 스타일링을 구현하고 있습니다. 레거시 지원상의 이유로 적어도 한동안은 IE11을 지원해야 합니다. 작업 흐름과 제정신의 이유로 가능할 때마다 CSS 변수...

에서 2024-04-06 17:46:54

0

1

355

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿

회사 소개 부인 성명 Sitemap: PHP 중국어 웹사이트：공공복지 온라인 PHP 교육，PHP 학습자의 빠른 성장을 도와주세요！