Attention-free 대형 모델 Eagle7B: RWKV 기준으로 추론 비용이 10~100배 감소-일체 포함-php.cn

관심 없는 대형 모델 Eagle7B: RWKV 기반으로 추론 비용이 10~100배 절감됩니다

AI 트랙에서는 수천억 개의 모델에 비해 최근 소형 모델이 많은 주목을 받고 있습니다. 매개변수. 예를 들어, 프랑스 AI 스타트업이 출시한 Mistral-7B 모델은 모든 벤치마크에서 Llama 2를 13B 앞섰고, 코드, 수학, 추론에서는 Llama 1을 34B 앞섰습니다.

대형 모델에 비해 소형 모델은 컴퓨팅 전력 요구 사항이 낮고 장치 측에서 실행할 수 있는 능력 등 많은 장점이 있습니다.

최근 오픈 소스 비영리 조직인 RWKV에서 7.52B 매개변수 Eagle 7B라는 새로운 언어 모델이 등장했습니다. 이는 다음과 같은 특징을 갖습니다. -v5 아키텍처 구축, 이 아키텍처의 추론 비용은 낮습니다(RWKV는 선형 변환기이므로 추론 비용이 10~100배 이상 절감됩니다).

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍 100개 이상의 언어와 1조 1천억 개 이상의 토큰으로 학습 ;

다국어 벤치마크에서 모든 7B 클래스 모델을 능가합니다.

영어 평가에서 Eagle 7B 성능은 Falcon(1.5T), LLaMA2(2T), Mistral에 가깝습니다. - 영어평가 7B(1T)
주의 없이 변신.
Eagle 7B는 RWKV-v5 아키텍처를 기반으로 구축되었습니다. RWKV(Receptance Weighted Key Value)는 RNN과 Transformer의 장점을 결합하고 단점을 피한 새로운 아키텍처입니다. 이는 매우 잘 설계되었으며 Transformer의 메모리 및 확장 병목 현상을 완화하고 보다 효과적인 선형 확장을 달성할 수 있습니다. 동시에 RWKV는 Transformer가 현장에서 지배적인 특성을 일부 유지하고 있습니다.
현재 RWKV는 6세대 RWKV-6까지 반복되었으며 성능과 크기는 Transformer와 유사합니다. 미래의 연구자들은 이 아키텍처를 사용하여 보다 효율적인 모델을 만들 수 있습니다.
RWKV에 대한 자세한 내용은 "Transformer 시대의 RNN 재구성, RWKV는 non-Transformer 아키텍처를 수백억 개의 매개변수로 확장합니다"를 참조할 수 있습니다.

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍 RWKV-v5 Eagle 7B는 제한 없이 개인용 또는 상업용으로 사용할 수 있다는 점을 언급할 가치가 있습니다.

23개 언어에 대한 테스트 결과

다국어에 대한 다양한 모델의 성능은 다음과 같습니다. 테스트 벤치마크에는 xLAMBDA, xStoryCloze, xWinograd, xCopa가 포함됩니다. ㅋㅋㅋ . 그러나 다국어 벤치마크가 부족해 연구에서는 좀 더 많이 사용되는 23개 언어에 대해서만 능력을 테스트할 수 있고, 나머지 75개 이상의 언어에 대한 능력은 아직 알 수 없다.

영어 성적

다양한 모델들의 영어 성적은 상식추론, 세계지식 등 12가지 벤치마크를 통해 평가됩니다.

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍 결과에서 우리는 RWKV가 v4에서 v5 아키텍처로 크게 도약한 것을 다시 한 번 확인할 수 있습니다. v4는 이전에 1T 토큰 MPT-7b에 패했지만 v5는 벤치마크 테스트에서 따라잡기 시작했습니다. 어떤 경우에는(일부 벤치마크 테스트 LAMBADA, StoryCloze16, WinoGrande, HeadQA_en, Sciq에서도) Falcon 또는 심지어 llama2를 능가할 수 있습니다.