Deepseek은 #OpenSourceweek의 2 일째에 여기에 있으며 오늘 그들은 MOE 모델 교육 및 추론을위한 오픈 소스 EP 커뮤니케이션 라이브러리 인 Deepep을 소개했습니다. 지금까지 나는 Deepseek과 Openai, Meta 등의 10 억 달러 규모의 모델에 대한 그들의 답변에 완전히 깊은 인상을 받았습니다. 이제 그들은 AGI를 탐험 할 때 빌딩 블록을 오픈 소싱하고 있습니다. 5 개의 리포지토리 (이미 릴리스 된 2 개)를 통해 AI의 투명성, 커뮤니티 협력 및 발전에 대한 약속을 보여주고 있습니다.
DeepSeek의 1 일차 팀에서 FlashMla를 발표하면 여기에서 읽을 수 있습니다 - DeepSeek #OpenSourceweek 1 일 : FlashMla의 출시.
오늘, 우리는 Deepep에 대해 자세히 이야기 할 것입니다.
릴리스의 주요 하이라이트
효율적이고 최적화 된 전부 커뮤니케이션
NVLINK 및 RDMA 를 통한 인트라 노드 및 인턴 노드 지원
훈련 및 추론을위한 고 처리량 커널
추론 디코딩을위한 저지성 커널
기본 FP8 디스패치 지지대
계산-의사 소통 중첩
에 대한 유연한 GPU 리소스 제어
목차 -
Deepep : MOE 및 전문가의 병렬성을위한 최적화 된 커뮤니케이션 라이브러리 -
왜 DeepSeek가 그것을 opensourcing 하는가? 전문가 (MOE)의 혼합물이란 무엇입니까? - Moe는 변압기 모델에서 어떻게 작동합니까?
moe의 혜택은 어떻게 작동합니까? 모델 -
- OpenSourcing Deepep은 게임 체인저이며 그것이 제공하는 것인가?
NVLINK 및 RDMA를 사용한 인트라 노드 및 인트라 노드 지원을 효율적이고 최적화 한 전부 커뮤니케이션 및 internode 지원을위한 고도로 렌즈 프리 릴 선사 rdma 기본 FP8 디스패치 지원 -
계산에 대한 유연한 GPU 자원 제어 -
- Deepep 자신을 시도해보십시오
- 결론
-
Deepep : MOE 및 전문가 병렬성을위한 최적화 된 커뮤니케이션 라이브러리
Deepep은 MOE (Mix-of-Experts) 및 EP (Expert Parallism)를 위해 특별히 설계된 고성능 커뮤니케이션 라이브러리입니다. 이 회사는 매우 효율적인 모든 GPU 커널 (Moe Dispatch and Combine)이라고 불리는 탁월한 처리량과 최소한의 대기 시간을 제공합니다. 또한 Deepep은 FP8을 포함한 저렴한 계산을 지원하여 딥 러닝 워크로드의 유연성을 보장합니다.
DeepSeek-V3 용지에 도입 된 그룹 제한 게이팅 알고리즘을 보완하기 위해 Deepep은 비대칭 도메인 대역폭 전달을 위해 맞춤형 특수 커널을 제공합니다. 이 커널은 NVLINK 및 RDMA와 같은 다른 하드웨어 도메인간에 데이터 전송을 최적화하여 교육 및 추론 프리 릴 작업 모두에 대한 처리량을 최대화합니다. 또한 라이브러리에는 스트리밍 멀티 프로세서 (SM) 사용을위한 내장 컨트롤이 포함되어 있습니다. 특히 디코딩 중에 초대형 대기 시간을 요구하는 추론 시나리오의 경우 Deepep은 전용 RDMA 전용 커널 세트를 통합하여 통신 지연을 크게 줄입니다. 또한 SM 리소스를 소비하지 않고 계산과의 커뮤니케이션을 중복시키기 위해 혁신적인 후크 기반 접근 방식을 사용하여 최적의 효율성을 확보합니다.
왜 DeepSeek가 그것을 opensourcing 하는가?
Deepseek의 기술을 오픈 소스로 결정하는 것은 모든 사람이 최첨단 AI를 이용할 수 있도록하는 것입니다. 혁신을 공유함으로써 의료, 기후 과학 또는 방어에 관계없이 산업 전반의 개발자, 연구원 및 비즈니스에 힘을 발휘하여 경계를 높이고 더욱 고급 솔루션을 구축 할 수 있습니다. Open Access는 협업 속도를 높이고 AI 개발이 선택된 소수로 제한되지 않도록합니다.
Deepep은“MOE 모델 교육 및 추론을위한 최초의 오픈 소스 EP 커뮤니케이션 라이브러리”입니다.
그리고 가장 중요한 부분? DeepSeek의 도구는 Github에서 구할 수 있으므로 누구나 기술을 쉽게 탐색하고 기여하며 개선 할 수 있습니다.
이제 전문가 (MOE)의 혼합이 무엇인지 이해합시다
전문가 (Moe)의 혼합물이란 무엇입니까?
모델의 크기는 품질을 결정하는 데 중요한 역할을합니다. 고정 계산 예산을 사용하면 일반적으로 더 많은 단계를 위해 더 작은 모델보다는 더 큰 단계로 더 큰 모델을 훈련시키는 것이 더 효과적입니다. 이곳은 전문가 (MOE) 의 혼합물이 작용하는 곳입니다. 모델은 계산 효율을 최적화하면서 모델을 크게 확장 할 수 있습니다. .
MOE는 계산 중에 매개 변수의 서브 세트 만 선택적으로 활성화하여 모델 교육 및 추론을 최적화하도록 설계된 신경망 아키텍처입니다. 이를 통해 계산 비용의 비례 적 증가없이 훨씬 더 큰 모델을 사용할 수 있습니다. moe는 주로 두 가지 주요 구성 요소 로 구성됩니다
스파스 MOE 계층 -이들은 전통적인 조밀 한 피드 포워드 네트워크 (FFN) 레이어를 대체합니다. 단일 FFN 대신 MOE 계층은 여러 전문가 (예 : 8 개의 별도 네트워크)로 구성됩니다. 각 전문가는 독립형 신경망, 일반적으로 FFN으로 기능하지만 경우에 따라 이러한 전문가는 더 복잡한 구조물이거나 계층 적 Moes가 될 수 있습니다. .
라우터 또는 게이트 네트워크 -이 메커니즘은 어떤 토큰이 어떤 전문가에게 할당되는지를 결정합니다. 예를 들어, 주어진 순서에서, 하나의 토큰은 Expert 2로 향할 수 있고, 다른 토큰은 Expert 1에 의해 처리 될 수 있습니다. MoE의 주요 설계 선택은 전문가들 사이에 토큰이 어떻게 배포 되는가입니다. 라우팅 메커니즘은 나머지 모델과 함께 교육을받는 학습 가능한 매개 변수에 의해 관리됩니다.
변압기 모델에서 MOE는 어떻게 작동합니까?
표준 변압기 모델에서 모든 토큰은 조밀 한 FFN 층을 통해 처리됩니다. 그러나, MOE 모델에서,이 조밀 한 FFN 층은 여러 전문가와 게이팅 메커니즘으로 구성된 MOE 층으로 대체된다. 추론 및 훈련 중에,이 전문가의 하위 집합만이 토큰 당 활성화되어 모델 용량을 유지하면서 전반적인 계산이 줄어 듭니다.
Moe 모델의 이점
효율적인 사전 여파
- MOE는 조밀 한 모델에 비해 컴퓨팅 요구 사항이 상당히 낮은 대형 모델을 가능하게하여 연구원들이 과도한 하드웨어 비용없이 모델을 더 빨리 훈련시킬 수있게 해줍니다. -
더 빠른 추론 - 모델 매개 변수의 일부만이 주어진 시간에 사용되므로 추론은 동등한 총 크기의 밀집된 모델에 비해 상당히 더 효율적입니다.
확장 성 - MOE는 연구자들이 조밀 한 모델과 동일한 컴퓨팅 예산 내에서 유지하면서 모델 크기와 데이터 세트 크기를 늘릴 수 있습니다.
전문가 (MOE)의 혼합물은 변압기 모델을 효율적으로 스케일링하기위한 강력한 접근 방식으로, 계산 비용이 줄어든 대규모 모델을 훈련시킬 수 있습니다. 전통적인 조밀 한 FFN 층을 희소 한 MOE 층으로 대체하고 라우팅 메커니즘을 사용함으로써 이러한 모델은 높은 확장 성과 개선 된 추론 속도를 달성합니다. 그러나 트레이드 오프에는 메모리 요구 증가, 훈련 복잡성 및 효과적인 라우팅 전략 설계의 과제가 포함됩니다. 연구가 계속됨에 따라 MOE 기반 아키텍처는 차세대 AI 모델에서 중요한 역할을 할 가능성이 높습니다. OpenSourcing Deepep은 게임 체인저이고 제공하는 내용은 무엇입니까?
1. 효율적이고 최적화 된 전부 커뮤니케이션
MOE 모델을 효율적으로 훈련하고 배포하려면 단일 시스템 (인트라 노드) 및 여러 컴퓨터 (Internode) 내에서 노드 간의 원활한 통신이 필수적입니다. Deepep은 고도로 최적화 된 전 세계 커뮤니케이션 으로이 과제를 해결하여 빠르고 효율적인 데이터 전송을 보장하고 병목 현상을 최소화하며 성능을 극대화합니다.
2. NVLINK 및 RDMA
를 사용한 인트라 노드 및 인턴 노드 지원
Deepep은 기본 통신을 넘어 NVLINK 및 RDMA (원격 직접 메모리 액세스)와 같은 고급 기술을 통해 원활한 인트라 노드 및 인턴 노드 연결을 가능하게합니다. NVIDIA의 고속 상호 연결 인 NVLINK는 노드 내에서 데이터 교환을 가속화하는 반면 RDMA는 크로스 노드 전송의 대기 시간을 최소화하여 대규모 AI 시스템에 대한 최적의 성능을 보장합니다. 이러한 혁신은 총체적으로 효율성을 재정의하여 차세대 AI 워크로드를위한 발전소가됩니다.
3. 훈련 및 추론을위한 고 처리량 커널
Deepep은 대규모 데이터를 효율적으로 처리하도록 설계되었습니다. 고속 커널은 데이터가 시스템을 통해 어떻게 이동하는지 최적화하여 빠른 교육을 가능하게합니다. 추론 프리 플릴 중에이 커널은 큰 배치를 신속하게 처리하여 병목 현상없이 부드럽고 효율적인 성능을 보장합니다.
4. 추론 디코딩
를위한 저지성 커널
실시간 예측에 관해서는 속도가 전부입니다. Deepep의 저도가 낮은 커널은 추론 디코딩 중 지연을 최소화하여 최소한의 지연으로 즉각적인 응답을 제공합니다. 따라서 빠른 의사 결정과 원활한 사용자 경험을 요구하는 응용 프로그램에 이상적입니다.
5. 네이티브 FP8 디스패치 지원
Deepep은 내장 FP8 (Floating Point 8) 지원으로, 속도를 높이고 메모리 사용을 줄이는 최첨단 형식 인 AI 모델을 확장하는 데 적합합니다. FP8을 통합함으로써 DeepSeek은 라이브러리가 AI 하드웨어 및 알고리즘을 발전시키는 데 앞서 머무를 수 있도록합니다. 이것은 더 빠른 훈련, 에너지 비용, 지속 가능한 AI 개발을 향한보다 효율적인 경로를 의미합니다.
6. 계산-통신 중첩
에 대한 유연한 GPU 리소스 제어
Deepep은 동시 계산 및 데이터 전송을 가능하게하여 다운 타임을 최소화하고 성능을 극대화하여 GPU 사용량을 최적화합니다. 대규모 AI 프로젝트에 이상적이며 연구원과 비즈니스가 효율적으로 확장하면서 시간과 비용을 절약하는 데 도움이됩니다.
Deepep 자신을 시도해보십시오
Github 리포지토리를 방문
- github에서 Deepep의 소스 코드, 문서 및 예제를 찾으려면 빠르게 시작하십시오.
문서 탐색 -명확하고 단계별 지침으로 NVLINK, RDMA 및 FP8과 같은 Deepep의 주요 기능을 활용하는 방법을 알아보십시오.
마지막으로, 모든 도구를 활용하여 Deepep을 테스트하고 통합 할 수 있습니다. .
결론
Deepseek은 오픈 소스 주 2 일째에 Deepep을 출시했습니다. 전문가 (MOE) 모델 교육 및 추론을위한 게임 체인저입니다. DeepSeek은 고성능 오픈 소스 EP 커뮤니케이션 라이브러리를 제공합니다. 효율성을 높이고 대기 시간을 줄이며 대규모 AI 워크로드의 리소스 관리를 향상시킵니다. Deepep은 NVLINK, RDMA, FP8 및 원활한 계산 커뮤니케이션 중첩을 지원합니다. 이를 통해 개발자와 연구원은 AI 혁신을 발전시킬 수 있습니다. DeepSeek의 오픈 소스 약속은 AGI 진행 속도를 높입니다. 최첨단 AI 도구에 전 세계적으로 더 액세스 할 수 있습니다.
Deepseek 's Day 3 Release에 대한 자세한 분석을 위해 Toanalytics Vidhya 블로그를 계속 지켜봐 주시기 바랍니다!
위 내용은 Deepep은 DeepSeek에서 오픈 소스 주 2 일째에 출시되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!