인공 지능 및 기계 학습 모델에 대한 증가하는 수요를 충족하기 위해 Tesla는 Tesla 자동차에 자동 운전을 가르치는 자체 인공 지능 기술을 만들었습니다.
최근 Tesla는 Hot Chips 34 컨퍼런스에서 Dojo 슈퍼컴퓨팅 아키텍처에 대한 많은 세부 정보를 공개했습니다.
기본적으로 Dojo는 컴퓨팅, 네트워킹, 입력/출력(I/O) 칩, 명령어 세트 아키텍처(ISA), 전력 전송, 패키징 및 냉각에 이르는 완전한 맞춤형 아키텍처로 구축된 거대한 구성 가능 슈퍼컴퓨터입니다. 이 모든 작업은 맞춤형 특정 기계 학습 훈련 알고리즘을 대규모로 실행하기 위해 수행됩니다.
Ganesh Venkataramanan은 Tesla의 자율 주행 하드웨어 부문 수석 이사로 Dojo 프로젝트와 AMD의 CPU 설계 팀을 담당하고 있습니다. Hot Chips 34 컨퍼런스에서 그와 칩, 시스템 및 소프트웨어 엔지니어 그룹은 기계의 많은 아키텍처 기능을 처음으로 공개했습니다.
"일반적으로 우리가 칩을 만드는 과정은 칩을 패키지에 담고, 패키지를 인쇄 회로 기판에 올려 놓은 다음 시스템에 들어가는 것입니다. 시스템이 들어갑니다. 랙." Venkataramanan이 설명합니다.
하지만 이 프로세스에는 문제가 있습니다. 데이터가 칩에서 패키지로, 패키지 밖으로 이동할 때마다 대기 시간과 대역폭 손실이 발생합니다.
이러한 한계를 극복하기 위해 Venkataramanan과 그의 팀은 처음부터 시작하기로 결정했습니다.
그리하여 도장의 수련 타일이 탄생했습니다.
이것은 1/2 입방피트를 차지하고 15kW 수냉식 패키지에서 556TFLOPS의 FP32 성능을 제공하는 독립형 컴퓨팅 클러스터입니다.
각 타일에는 11GB의 SRAM이 장착되어 있으며 스택 전체에서 맞춤형 전송 프로토콜을 사용하여 9TB/s 패브릭을 통해 연결됩니다.
Venkataramanan은 다음과 같이 말했습니다. "이 교육 보드는 추가 스위치가 필요 없이 컴퓨터에서 메모리, 전원 공급, 통신까지 비교할 수 없는 수준의 통합을 나타냅니다."
교육 타일의 핵심은 TSMC의 7nm 공정을 기반으로 한 500억 개의 트랜지스터 칩인 Tesla의 특수 D1입니다. Tesla는 각 D1이 400W의 TDP에서 22TFLOPS의 FP32 성능을 달성할 수 있다고 밝혔습니다.
Tesla는 25개의 D1을 가져와서 양호한 것으로 알려진 금형에 나눈 다음 매우 낮은 대기 시간과 매우 높은 대역폭을 갖춘 TSMC의 시스템 온 웨이퍼 기술을 사용하여 패키징하여 대규모 계산 통합을 가능하게 했습니다.
그러나 칩의 시스템 설계와 수직 적층 아키텍처는 전력 공급에 어려움을 가져옵니다.
Venkataramanan에 따르면 대부분의 최신 가속기는 전원 공급 장치를 실리콘 웨이퍼 바로 옆에 배치합니다. 그는 이 접근 방식이 효과적이긴 하지만 가속기의 상당 부분을 이러한 구성 요소에 할당해야 하므로 Dojo에서는 실용적이지 않다고 설명했습니다. 따라서 Tesla는 칩 하단을 통해 직접 전력을 공급하기로 결정했습니다.
또한 Tesla는 호스트 CPU와 훈련 프로세서 사이를 연결하는 Dojo 인터페이스 프로세서(DIP)를 개발했습니다.
각 DIP에는 32GB의 HBM이 있으며 이 카드 중 최대 5개를 900GB/s의 교육 타일에 연결하여 총 4.5TB/s, 타일 HBM당 총 160GB를 사용할 수 있습니다.
Tesla의 V1 구성은 이러한 타일(또는 150개의 D1 다이)을 어레이로 쌍으로 구성하여 각각 5개의 DIP 카드가 장착된 4개의 호스트 CPU를 지원하여 BF16 또는 CFP8의 엑사플롭 성능을 달성합니다.
이러한 특수 컴퓨팅 아키텍처에는 특수 소프트웨어 스택이 필요합니다. 그러나 Venkataramanan과 그의 팀은 프로그래밍 가능성이 Dojo의 성공 또는 실패를 결정한다는 것을 인식했습니다.
"우리가 이러한 시스템을 설계할 때 소프트웨어 동료의 프로그래밍 용이성이 가장 중요합니다. 연구원은 소프트웨어 직원이 우리가 실행하려는 새로운 알고리즘을 수용하기 위해 직접 작성한 커널을 작성할 때까지 기다리지 않습니다." 이를 위해 Tesla는 커널을 사용한다는 아이디어를 포기하고 컴파일러를 중심으로 Dojo의 아키텍처를 설계했습니다.
"우리가 하는 일은 PiTorch를 사용하는 것입니다. 우리는 그 아래의 하드웨어를 확장하기 위해 병렬화하는 데 도움이 되는 중간 계층을 만듭니다. 모든 것 아래에는 컴파일된 코드가 있습니다. 로드된 소프트웨어 스택, 그게 유일한 방법이에요.
Venkataramanan은 소프트웨어의 유연성을 강조하면서 현재 연구실에서 실행 중인 플랫폼은 당분간 Tesla로 제한되어 있다고 지적했습니다.
Dojo 아키텍처 개요
위 내용을 읽은 후 Dojo의 아키텍처를 더 자세히 살펴보겠습니다.Tesla는 기계 학습을 위한 엑사급 인공 지능 시스템을 갖추고 있습니다. Tesla는 직원을 고용하고 Tesla의 차량용 시스템과 마찬가지로 해당 애플리케이션에 맞게 특별히 칩과 시스템을 구축할 수 있는 충분한 자본을 보유하고 있습니다.
Tesla는 자체 AI 칩뿐만 아니라 슈퍼컴퓨터도 만들고 있습니다.
분산 시스템 분석
Dojo의 각 노드에는 자체 CPU, 메모리 및 통신 인터페이스가 있습니다.
Dojo Node
이것은 Dojo 프로세서의 처리 파이프라인입니다.
파이프라인 처리
각 노드에는 1.25MB의 SRAM이 있습니다. AI 훈련 및 추론 칩에서 일반적인 기술은 메모리를 계산과 함께 배치하여 데이터 전송을 최소화하는 것인데, 이는 전력 및 성능 측면에서 매우 비용이 많이 듭니다.
Node Memory
그런 다음 각 노드는 2D 그리드에 연결됩니다.
네트워크 인터페이스
데이터 경로에 대한 개요입니다.
Data Path
다음은 칩이 수행할 수 있는 목록 이해의 예입니다.
List Parsing
다음은 일반적인 Intel, Arm, NVIDIA 또는 AMD CPU/GPU의 명령어 세트가 아닌 Tesla의 원본 명령어 세트에 대한 자세한 내용입니다.
명령어 세트
인공지능에서는 산술 형식이 중요하며, 특히 칩이 지원하는 형식이 중요합니다. DOJO를 사용하여 Tesla는 FP32, FP16 및 BFP16과 같은 일반적인 형식을 연구할 수 있습니다. 이는 일반적인 업계 형식입니다.
산술 형식
Tesla는 구성 가능한 FP8 또는 CFP8에서도 작업 중입니다. 4/3 및 5/2 범위 옵션으로 제공됩니다. 이는 FP8의 NVIDIA H100 Hopper 구성과 유사합니다. 또한 다양한 FP8 유형에 초점을 맞춘 Untether.AI Boqueria 1458 RISC-V 핵심 AI 가속기를 볼 수 있습니다.
산술 형식 2
Dojo는 정확도를 높이기 위해 다양한 CFP16 형식도 제공하며 FP32, BFP16, CFP8 및 CFP16을 지원합니다.
산술 형식 3
이러한 코어는 제조된 금형에 통합됩니다. Tesla의 D1 칩은 TSMC에서 7nm 공정을 사용하여 제조됩니다. 각 칩에는 354개의 Dojo 처리 노드와 440MB의 SRAM이 있습니다.
첫 번째 통합 상자 D1 금형
이 D1 칩은 도장 훈련 타일에 포장되어 있습니다. D1 칩을 테스트한 후 5×5 타일로 조립합니다. 이 타일은 에지당 4.5TB/s의 대역폭을 갖습니다. 또한 모듈당 15kW, 즉 40개의 I/O 다이에서 사용하는 전력을 뺀 D1 칩당 약 600W의 전력 공급 범위를 갖습니다. 비교는 회사가 그런 것을 디자인하고 싶지 않다면 Lightmatter Passage와 같은 것이 왜 더 매력적일 것인지를 보여줍니다.
보조 통합 상자 Dojo 교육 타일
Dojo의 인터페이스 프로세서는 2D 그리드의 가장자리에 있습니다. 각 트레이닝 블록에는 11GB의 SRAM과 160GB의 공유 DRAM이 있습니다.
Dojo 시스템 토폴로지
다음은 처리 노드를 연결하는 2D 그리드에 대한 대역폭 데이터입니다.
Dojo 시스템 통신 로직 2D 그리드
각 DIP 및 호스트 시스템은 32GB/s 링크를 제공합니다.
Dojo 시스템 통신 PCIe 링크 DIP 및 호스트
Tesla에는 더 긴 경로를 위한 Z-plane 링크도 있습니다. 나머지 연설에서 Tesla는 시스템 수준의 혁신에 대해 이야기했습니다.
통신 메커니즘
다음은 다이와 타일의 대기 시간 범위입니다. 이것이 바로 Dojo에서 다르게 처리되는 이유입니다. Z-평면 링크가 필요한 이유는 긴 경로가 비용이 많이 들기 때문입니다.
Dojo 시스템 통신 메커니즘
모든 처리 노드는 시스템 전체의 데이터에 액세스할 수 있습니다. 각 노드는 SRAM 또는 DRAM에 데이터를 푸시하거나 풀할 수 있습니다.
Dojo 시스템 일괄 통신
Dojo는 통신에 플랫 주소 지정 방식을 사용합니다.
시스템 네트워크 1
이 칩은 소프트웨어의 결함 있는 처리 노드를 우회할 수 있습니다.
시스템 네트워크 2
이는 소프트웨어가 시스템 토폴로지를 이해해야 함을 의미합니다.
시스템 네트워크 3
Dojo는 종단간 트래픽 순서를 보장하지 않으므로 목적지에서 패킷을 계산해야 합니다.
시스템 네트워크 4
시스템 동기화의 일부로 패킷이 계산되는 방식은 다음과 같습니다.
시스템 동기화
컴파일러는 노드가 있는 트리를 정의해야 합니다
.
System Sync 2
Tesla는 exa-pod에 1백만 개가 넘는 CPU(또는 컴퓨팅 노드)가 있다고 말합니다. 이들은 대규모 시스템입니다.
Tesla는 대규모 작업을 위해 특별히 Dojo를 구축했습니다. 일반적으로 스타트업은 시스템당 하나 또는 몇 개의 AI 칩을 구축하려고 합니다. 분명히 Tesla는 더 큰 규모에 초점을 맞추고 있습니다.
테슬라가 대규모 AI 훈련장을 보유하는 것은 여러 면에서 타당합니다. 더욱 흥미로운 점은 상용 시스템을 사용할 뿐만 아니라 자체 칩과 시스템도 구축하고 있다는 점입니다. 스칼라 측의 일부 ISA는 RISC-V에서 차용했지만 벡터 측과 Tesla가 사용자 정의한 많은 아키텍처가 있으므로 많은 작업이 필요합니다.
위 내용은 Tesla Dojo 슈퍼컴퓨팅 아키텍처 세부정보 최초 공개! 자율 주행을 위한 '조각난 것'의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!