GPT-4는 하이브리드 대형 모델을 사용합니까? 연구에 따르면 MoE+ 지침 조정이 실제로 대형 모델의 성능을 향상시키는 것으로 나타났습니다.

王林
풀어 주다: 2023-07-17 16:57:25
앞으로
1265명이 탐색했습니다.

GPT-4의 출현 이후 뛰어난 언어 이해 능력, 생성 능력, 논리적 추론 능력 등 강력한 출현 능력에 사람들은 놀랐습니다. 이러한 기능을 통해 GPT-4는 기계 학습 분야의 가장 최첨단 모델 중 하나가 되었습니다. 그러나 OpenAI는 아직까지 GPT-4의 기술적 세부 사항을 공개하지 않았습니다.

지난달 George Hotz는 AI 기술 팟캐스트인 Latent Space와의 인터뷰에서 GPT-4를 언급하면서 GPT-4가 실제로는 하이브리드 모델이라고 밝혔습니다. 구체적으로 George Hotez는 GPT-4가 8개의 전문가 모델로 구성된 통합 시스템을 사용하며 각 모델에는 2,200억 개의 매개변수(GPT-3의 1,750억 개의 매개변수보다 약간 많음)가 있으며 이러한 모델은 다양한 데이터 및 작업에 대해 훈련된다고 말했습니다. 배포판.

GPT-4는 하이브리드 대형 모델을 사용합니까? 연구에 따르면 MoE+ 지침 조정이 실제로 대형 모델의 성능을 향상시키는 것으로 나타났습니다.

Latent Space 인터뷰.

이것은 George Hotz의 추측일 수도 있지만 이 모델에는 어느 정도 정당성이 있습니다. 최근 Google, UC Berkeley, MIT 등 기관의 연구진이 공동으로 발표한 논문에서는 하이브리드 전문가 모델(MoE)과 명령어 튜닝의 결합이 대규모 언어 모델(LLM)의 성능을 크게 향상시킬 수 있음을 확인했습니다.

GPT-4는 하이브리드 대형 모델을 사용합니까? 연구에 따르면 MoE+ 지침 조정이 실제로 대형 모델의 성능을 향상시키는 것으로 나타났습니다.Pictures

논문 주소: https://arxiv.org/pdf/2305.14705.pdf

희소 혼합 전문가 모델은 비용을 늘리지 않고도 추론 비용을 줄일 수 있는 특수 신경망 아키텍처입니다. 이 경우 LLM(대형 언어 모델)에 학습 가능한 매개변수를 추가합니다. 명령어 튜닝은 LLM이 명령어를 따르도록 교육하는 기술입니다. 이 연구에서는 MoE 모델이 Dense 모델보다 명령어 튜닝에서 더 많은 이점을 얻는다는 사실을 발견했으며 따라서 MoE와 명령어 튜닝을 결합할 것을 제안했습니다.

이 연구는

  • 명령 조정 없이 단일 다운스트림 작업에 대한 직접 미세 조정
  • 명령 조정 후 다운스트림 작업을 포함하는 세 가지 실험 설정에서 경험적으로 수행되었습니다. 제로 샷 일반화,
  • 명령어 조정 후 개별 다운스트림 작업을 더욱 미세 조정합니다.

첫 번째 경우 MoE 모델은 일반적으로 동일한 계산 능력을 갖춘 밀집 모델보다 열등합니다. 그러나 명령어 튜닝(두 번째 및 세 번째 경우)이 도입되면서 FLAN-MoE_32B(Fine-tuned LANguage Net, 약칭 Flan)는 명령어 튜닝 모델이고 Flan-MoE는 명령어 튜닝 모델(Excellent MoE)입니다. 4가지 벤치마크 작업에서 FLAN-PALM_62B보다 성능이 뛰어나지만 FLOP의 1/3만 사용합니다.

아래 그림과 같이 명령어 튜닝을 하기 전의 MoE→FT는 T5→FT만큼 좋지 않습니다. 명령어 튜닝 후 Flan-MoE→FT는 Flan-T5→FT보다 성능이 뛰어납니다. 명령 튜닝(+15.6)으로 인한 MoE의 이점은 밀집 모델(+10.2)보다 큽니다.

GPT-4는 하이브리드 대형 모델을 사용합니까? 연구에 따르면 MoE+ 지침 조정이 실제로 대형 모델의 성능을 향상시키는 것으로 나타났습니다.Picture

GPT-4에는 실제로 MoE가 하이브리드 모델을 채택할 수 있는 기반이 있는 것 같습니다. 최고로부터 더 큰 이점을 얻으십시오.

GPT-4는 하이브리드 대형 모델을 사용합니까? 연구에 따르면 MoE+ 지침 조정이 실제로 대형 모델의 성능을 향상시키는 것으로 나타났습니다.Pictures

방법 개요

연구원들은 FLAN-MOE(미세 조정된 희소 혼합 전문가 모델 세트)에서 희소 활성화 MoE를 사용했습니다. 지침 포함) 모델(전문가 혼합). 또한 다른 Transformer 레이어의 피드포워드 구성 요소를 MoE 레이어로 대체했습니다.

각 MoE 계층은 "전문가"로 이해될 수 있습니다. 그런 다음 이러한 전문가는 소프트맥스 활성화 함수를 사용하여 모델링되어 확률 분포를 얻습니다.

각 MoE 계층에는 많은 매개변수가 있지만 전문가의 활성화는 드물습니다. 이는 주어진 입력 토큰에 대해 제한된 전문가 하위 집합만이 작업을 완료할 수 있어 모델에 더 큰 용량을 제공할 수 있음을 의미합니다.

E 전문가가 있는 MoE 계층의 경우 이는 O(E^2)개의 다양한 피드포워드 네트워크 조합을 효과적으로 제공하여 더 큰 계산 유연성을 허용합니다.


FLAN-MoE는 명령 조정 모델이므로 명령 조정이 매우 중요합니다. 본 연구에서는 FLAN 집단 데이터 세트를 기반으로 FLAN-MOE를 미세 조정했습니다. 또한, 본 연구에서는 각 FLAN-MOE의 입력 시퀀스 길이를 2048로, 출력 길이를 512로 조정하였다.

실험 및 분석

평균적으로 Flan-MoE는 추가 계산 없이 모든 모델 규모에서 밀도가 높은 상대(Flan-T5)보다 성능이 뛰어납니다.

GPT-4는 하이브리드 대형 모델을 사용합니까? 연구에 따르면 MoE+ 지침 조정이 실제로 대형 모델의 성능을 향상시키는 것으로 나타났습니다.사진

전문가 수. 그림 4는 전문가 수가 증가함에 따라 처음에는 모델이 문제 공간에서 서로 다른 작업이나 측면을 처리할 수 있는 보다 풍부한 특수 하위 네트워크 집합의 이점을 누리는 것을 보여줍니다. 이러한 접근 방식을 통해 MoE는 복잡한 작업을 처리하는 데 있어 적응력이 뛰어나고 효율적이므로 전반적인 성능이 향상됩니다. 그러나 전문가 수가 계속 증가함에 따라 모델 성능 향상은 감소하기 시작하여 결국 포화점에 도달합니다.

GPT-4는 하이브리드 대형 모델을 사용합니까? 연구에 따르면 MoE+ 지침 조정이 실제로 대형 모델의 성능을 향상시키는 것으로 나타났습니다.Pictures

그림 3과 표 1에서는 다양한 라우팅 결정이 명령어 튜닝 성능에 어떻게 영향을 미치는지 자세히 연구합니다. FLAN-Switch와 FLAN-GS 전략을 비교하면 더 많은 전문가를 활성화하면 성능이 향상된다는 결론을 내릴 수 있습니다. 4가지 벤치마크에 걸쳐 이러한 벤치마크 중 MMLU-Direct 모델은 BASE/LARGE 크기 모델의 경우 38.0%에서 39.9%로 증가하여 가장 큰 개선을 보여줍니다.

특히 명령 튜닝은 동일한 용량의 밀집 모델에 비해 MMLU, BBH, 내부 QA 및 추론 벤치마크를 보존하는 MoE 모델의 성능을 크게 증폭시켰습니다. 이러한 장점은 더 큰 MoE 모델에서 더욱 증폭됩니다. 예를 들어 명령 튜닝은 ST_32B의 경우 성능을 45.2% 향상시키는 반면, FLAN-PALM_62B의 경우 이러한 개선은 약 6.6%로 상대적으로 작습니다.

GPT-4는 하이브리드 대형 모델을 사용합니까? 연구에 따르면 MoE+ 지침 조정이 실제로 대형 모델의 성능을 향상시키는 것으로 나타났습니다.

모델 확장 시 Flan-MoE(Flan-ST-32B)가 Flan-PaLM-62B보다 성능이 뛰어납니다.

GPT-4는 하이브리드 대형 모델을 사용합니까? 연구에 따르면 MoE+ 지침 조정이 실제로 대형 모델의 성능을 향상시키는 것으로 나타났습니다.Pictures

또한 연구에서는 주어진 모델의 게이팅 기능, 전문가 모듈 및 MoE 매개변수를 동결하여 몇 가지 분석 실험을 수행했습니다. 아래 표 2에서 볼 수 있듯이 실험 결과는 전문가 모듈이나 MoE 구성요소를 동결하는 것이 모델 성능에 부정적인 영향을 미치는 것으로 나타났습니다.

GPT-4는 하이브리드 대형 모델을 사용합니까? 연구에 따르면 MoE+ 지침 조정이 실제로 대형 모델의 성능을 향상시키는 것으로 나타났습니다.

반대로, 동결 게이팅 기능은 분명하지는 않지만 모델 성능을 약간 향상시킵니다. 연구자들은 이 관찰이 FLAN-MOE의 과소적합과 관련이 있다고 추측합니다. 또한 이 연구에서는 아래 그림 5에 설명된 미세 조정 데이터 효율성 제거 연구를 탐색하기 위해 제거 실험을 수행했습니다.

GPT-4는 하이브리드 대형 모델을 사용합니까? 연구에 따르면 MoE+ 지침 조정이 실제로 대형 모델의 성능을 향상시키는 것으로 나타났습니다.

마지막으로 본 연구에서는 MoE의 직접 미세 조정과 FLAN-MOE의 차이를 비교하기 위해 단일 작업 미세 조정 MoE, 단일 작업 미세 조정 FLAN-MOE 및 FLAN-MOE에 대한 실험을 수행했습니다. 결과는 다음과 같습니다. 그림 6에서 볼 수 있듯이:

GPT-4는 하이브리드 대형 모델을 사용합니까? 연구에 따르면 MoE+ 지침 조정이 실제로 대형 모델의 성능을 향상시키는 것으로 나타났습니다.

관심 있는 독자는 논문의 원문을 읽고 연구 내용에 대해 자세히 알아볼 수 있습니다.

위 내용은 GPT-4는 하이브리드 대형 모델을 사용합니까? 연구에 따르면 MoE+ 지침 조정이 실제로 대형 모델의 성능을 향상시키는 것으로 나타났습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!