> 기술 주변기기 > 일체 포함 > 최신 뉴스! Baidu Wenxin Big Model 4.0: Wanka 훈련 역사상 가장 큰 매개변수 모델, 빠르면 다음 주에 만나요

최신 뉴스! Baidu Wenxin Big Model 4.0: Wanka 훈련 역사상 가장 큰 매개변수 모델, 빠르면 다음 주에 만나요

PHPz
풀어 주다: 2024-07-19 12:04:49
원래의
1015명이 탐색했습니다.

최신 뉴스! Baidu Wenxin Big Model 4.0: Wanka 훈련 역사상 가장 큰 매개변수 모델, 빠르면 다음 주에 만나요


어제 Cailian News는 Baidu의 Wenxin Model 4.0이 훈련을 강화하고 출시 준비가 거의 완료되었다고 독점 공개했습니다. 모두가 Wen Xinyiyan의 정보에 대해 항상 궁금해했습니다. 오늘 우리는 기본 아키텍처, 인프라, 교육 데이터 세트, 비용 등과 같은 주요 정보를 포함하는 Wenxin 4.0에 대한 더 많은 소식도 얻었습니다. 이는 매우 높은 신뢰성을 가지고 있습니다!
먼저 핵심 결론에 대해 이야기해 보겠습니다.
1. 어제의 폭로는 기본적으로 사실입니다. 현재 Wenxin Large Model 4.0은 실제로 소규모 트래픽으로 테스트된 것으로 알려져 있습니다.
2. Wenxin 4.0의 매개변수 수는 공개된 매개변수가 있는 모든 LLM의 수보다 많습니다. 또한 Wanka 클러스터를 사용하여 훈련된 중국 최초의 대형 모델입니다.
3. 추론 비용은 Wenxin 3.5보다 훨씬 높으며 약 8~10배라고 합니다! (대형 모델은 정말 비싸요!)
이 폭로가 사실이라면 이는 Baidu는 물론 국내 대형 모델도 GPT-4를 따라잡을 수 있는 주요 노드가 될 것입니다.
다음으로 폭로 내용을 자세히 살펴보겠습니다.
Wanka 클러스터 트레이닝 역사상 가장 큰 매개변수 모델은요?
우리가 받은 정보에 따르면 Wenxin Large Model 4.0의 매개변수 규모는 현재 공개된 모든 LLM의 매개변수보다 큽니다. 이는 Wenxin Large Model 4.0의 매개변수 규모가 1조 수준을 초과할 것으로 예상된다는 것을 의미합니다.
이 매개변수 양만 보면 괜찮다고 생각하는 사람들이 많을 것입니다. 결국 현재 공개된 정보에 따르면 GPT-4의 매개변수 양은 이미 1조 8천억 정도입니다. 그러나 이 소식을 전한 사람은 Wenxin Large Model 4.0이 여전히 단일 모델이며 GPT 및 기타 여러 대형 언어 모델에서 사용하는 MoE(혼합 전문가 모델)를 채택하지 않는다고 덧붙였습니다.
앞서 '천재 해커' 조지 호테즈(George Hotez)는 GPT-4가 하이브리드 모델을 사용하는 이유가 모델의 매개변수 크기가 2200억을 초과할 수 없기 때문이라는 소식을 전했습니다. OpenAI는 모델이 더 좋아지기를 원하지만 훈련하는 데 시간이 더 오래 걸리면 효과는 이미 감소하고 있습니다.
그래서 Baidu가 단일 모델에서 획기적인 성과를 거둘 수 있다면, 모델 역량도 크게 향상될지는 실제 출시 후에 지켜봐야 할 것 같습니다.
매개변수 수가 이렇게 많은 모델은 컴퓨팅 성능 요구 사항이 높을 수밖에 없습니다. 최근 소식은 Wenxin 4.0이 Wanka AI 클러스터에서 훈련되었다는 것입니다. 이는 Wanka 규모 클러스터를 사용하여 훈련된 중국 최초의 대규모 언어 모델로 간주되어야 합니다.
Wanka 클러스터의 개념은 무엇인가요? 중국에서는 Huawei와 Alibaba만이 Wanka AI 클러스터를 구축했다고 밝혔지만 이를 기반으로 한 구체적인 모델은 본 적이 없습니다.
이는 Wanka 클러스터를 구축하기가 쉽지 않으며, 이를 사용하여 효과를 극대화하는 것이 더욱 어렵다는 것을 보여줍니다. 분석에 따르면, 이러한 대규모 모델이 Wanka 클러스터를 기반으로 효율적으로 훈련될 수 있는 것은 바로 Fei Paddle의 깊은 통합 때문입니다.
비용이 급등했고, 대중을 대상으로 낮은 트래픽 테스트가 낮은 방식으로 진행되었습니다
훈련 비용이 증가할 뿐만 아니라 Wenxin 4.0의 추론 비용도 Wenxin 4.0의 추론 비용보다 훨씬 높은 것으로 밝혀졌습니다. 3.5 아직 1,000개 토큰당 구체적인 추론 비용을 얻지는 못했지만 아마도 8~10회 이전이었을 것이라는 소문이 있는데, 이는 여전히 높은 활용도(MFU)의 경우입니다. 가동률이 더욱 낮아지면 비용은 계속 증가할 것으로 예상됩니다.
대형 모델은 정말 비싸다고 말씀드리고 싶습니다. 선도적인 기본 기반 모델을 만드는 것은 거인을 위한 게임입니다!
마지막으로 내부 직원에 따르면 Baidu는 실제로 낮은 트래픽으로 Wenxin Big Model 4.0을 비밀리에 테스트하기 시작했으며 소수의 Wenxin Yiyan 사용자는 이미 최신 모델 버전을 사용하고 있습니다.
많은 사람들이 이 진술이 더 신뢰할 만하다고 생각하며, 기술 커뮤니티의 최근 폭로에서 몇 가지 단서를 얻을 수도 있습니다.
아마 지금 Wenxin Yiyan에 대해 질문을 하시면 Wenxin Big Model 4.0을 사용하고 계실 것 같습니다. 생성된 결과가 GPT-4와 경쟁할 수 있는지 모르겠습니다.
위 내용은 공식적으로 확인된 정보가 아니며, 그 정확성은 각자 판단하실 수 있음을 다시 한번 강조드립니다.

위 내용은 최신 뉴스! Baidu Wenxin Big Model 4.0: Wanka 훈련 역사상 가장 큰 매개변수 모델, 빠르면 다음 주에 만나요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:jiqizhixin.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿