GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시-일체 포함-php.cn

GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시

王林

풀어 주다： 2023-05-29 10:43:12

앞으로

580명이 탐색했습니다.

머신 하트 리포트

Heart of Machine 편집부

최근 메타(Meta)는 인공지능 분야의 최신 성과를 공개했다.

사람들은 Meta를 생각할 때 일반적으로 Facebook, Instagram, WhatsApp 또는 곧 출시될 Metaverse를 포함한 해당 앱을 생각합니다. 그러나 많은 사람들이 모르는 것은 이 회사가 이러한 서비스를 운영하기 위해 매우 정교한 데이터 센터를 설계하고 구축한다는 것입니다.

AWS, GCP 또는 Azure와 같은 클라우드 서비스 제공업체와 달리 Meta는 OCP가 구매자에게 깊은 인상을 주도록 설계되었다는 점을 제외하고 실리콘 선택, 인프라 또는 데이터 센터 설계에 대한 세부 정보를 공개할 필요가 없습니다. Meta 사용자는 달성 방법에 관계없이 더 좋고 일관된 경험을 원합니다.

Meta에서 AI 워크로드는 어디에나 있으며 콘텐츠 이해, 정보 흐름, 생성 AI, 광고 순위 등 광범위한 사용 사례의 기반을 형성합니다. 이러한 워크로드는 동급 최고의 Python 통합, Eager 모드 개발 및 API 단순성을 갖춘 PyTorch에서 실행됩니다. 특히, DLRM(Deep Learning Recommendation Model)은 Meta의 서비스 및 애플리케이션 경험을 향상시키는 데 매우 중요합니다. 그러나 이러한 모델의 크기와 복잡성이 증가함에 따라 기본 하드웨어 시스템은 효율성을 유지하면서 메모리와 컴퓨팅 성능을 기하급수적으로 증가시키는 기능을 제공해야 합니다.

Meta는 현재 규모의 AI 작업 및 특정 워크로드의 경우 GPU가 비효율적이며 최선의 선택이 아니라는 사실을 발견했습니다. 따라서 회사는 AI 시스템을 더 빠르게 훈련하는 데 도움이 되는 추론 가속기 MTIA를 제안했습니다.

MTIA V1

GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시

MTIA v1(추론) 칩(다이)

2020년 Meta는 내부 워크로드를 위한 1세대 MTIA ASIC 추론 가속기를 설계했습니다. 추론 가속기는 실리콘, PyTorch 및 추천 모델을 포함하는 풀 스택 솔루션의 일부입니다.

MTIA 가속기는 TSMC 7nm 공정으로 제조되었으며 800MHz에서 실행되어 INT8 정밀도에서 102.4 TOPS, FP16 정밀도에서 51.2 TFLOPS를 제공합니다. 열설계전력(TDP)은 25W입니다.

MTIA 가속기는 처리 요소(PE), 온칩 및 오프칩 메모리 리소스, 상호 연결로 구성됩니다. 가속기에는 시스템 펌웨어를 실행하는 전용 제어 하위 시스템이 장착되어 있습니다. 펌웨어는 사용 가능한 컴퓨팅 및 메모리 리소스를 관리하고, 전용 호스트 인터페이스를 통해 호스트와 통신하며, 가속기에서 작업 실행을 조정합니다.

메모리 하위 시스템은 LPDDR5를 오프칩 DRAM 리소스로 사용하며 최대 128GB까지 확장 가능합니다. 또한 이 칩에는 모든 PE가 공유하는 128MB의 온칩 SRAM이 있어 자주 액세스하는 데이터 및 명령에 대해 더 높은 대역폭과 더 낮은 대기 시간을 제공합니다.

MTIA 가속기 그리드는 8x8 구성으로 구성된 64개의 PE로 구성되며 메시 네트워크를 통해 서로 연결되고 메모리 블록에 연결됩니다. 전체 그리드를 전체적으로 사용하여 작업을 실행할 수도 있고, 독립적인 작업을 실행할 수 있는 여러 하위 그리드로 나눌 수도 있습니다.

각 PE에는 2개의 프로세서 코어(그중 하나는 벡터 확장 기능 포함)와 행렬 곱셈, 누적, 데이터 이동 및 비선형 함수 계산과 같은 주요 작업을 수행하도록 최적화된 다수의 고정 기능 장치가 장착되어 있습니다. 프로세서 코어는 RISC-V 개방형 ISA(명령 집합 아키텍처)를 기반으로 하며 필요한 컴퓨팅 및 제어 작업을 수행하도록 맞춤화되었습니다.

각 PE에는 데이터의 빠른 저장 및 조작을 위한 128KB의 로컬 SRAM 메모리도 있습니다. 이 아키텍처는 워크로드를 효율적으로 실행하는 데 필수적인 병렬성과 데이터 재사용을 극대화합니다.

이 칩은 스레드 및 데이터 수준 병렬 처리(TLP 및 DLP)를 모두 제공하고 명령 수준 병렬 처리(ILP)를 활용하며 많은 수의 메모리 요청을 동시에 처리할 수 있도록 하여 대규모 메모리 수준 병렬 처리(MLP)를 지원합니다.

GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시

MTIA v1 시스템 디자인

MTIA 가속기는 서버에 더 쉽게 통합할 수 있도록 소형 듀얼 M.2 보드에 장착되어 있습니다. 보드는 PCIe Gen4 x8 링크를 사용하여 서버의 호스트 CPU에 연결하며 35W만 소비합니다.

GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시

MTIA를 사용한 샘플 테스트 보드

이러한 가속기를 호스팅하는 서버는 Open Compute Project의 Yosemite V3 서버 사양을 사용합니다. 각 서버에는 호스트 CPU에 연결되고 PCIe 스위치 계층 구조를 사용하여 서로 연결되는 12개의 가속기가 포함되어 있습니다. 따라서 서로 다른 가속기 간의 통신에는 호스트 CPU가 포함될 필요가 없습니다. 이 토폴로지를 사용하면 워크로드를 여러 가속기에 분산하고 병렬로 실행할 수 있습니다. 가속기의 수와 서버 구성 매개변수는 현재와 미래의 워크로드를 가장 잘 실행할 수 있도록 신중하게 선택됩니다.

MTIA 소프트웨어 스택

MTIA 소프트웨어(SW) 스택은 개발자에게 더 나은 개발 효율성과 고성능 경험을 제공하도록 설계되었습니다. PyTorch와 완전히 통합되어 사용자에게 친숙한 개발 경험을 제공합니다. MTIA와 함께 PyTorch를 사용하는 것은 CPU나 GPU와 함께 PyTorch를 사용하는 것만큼 쉽습니다. 또한 번성하는 PyTorch 개발자 에코시스템 및 도구 덕분에 MTIA SW 스택은 이제 PyTorch FX IR을 사용하여 모델 수준 변환 및 최적화를 수행하고 LLVM IR을 사용하여 낮은 수준 최적화를 수행하는 동시에 MTIA 가속기 사용자 지정 아키텍처 및 ISA도 지원할 수 있습니다.

아래 그림은 MTIA 소프트웨어 스택 프레임워크 다이어그램을 보여줍니다.

GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시

SW 스택의 일부로 Meta는 완전 연결형 및 임베디드 패키지 연산자와 같이 성능이 중요한 ML 커널을 위해 수동으로 조정되고 고도로 최적화된 커널 라이브러리도 개발했습니다. SW 스택의 상위 레벨에는 컴파일 및 코드 생성 중에 고도로 최적화된 커널을 인스턴스화하고 사용할 수 있는 옵션이 있습니다.

또한 MTIA SW 스택은 더 빠르고 더 파이썬적이면서도 그 어느 때보다 역동적인 PyTorch 2.0과의 통합을 통해 계속 발전하고 있습니다. 이를 통해 TorchDynamo 및 TorchInductor와 같은 새로운 기능이 활성화됩니다. Meta는 또한 MTIA 가속기를 지원하고 내부 표현 및 고급 최적화를 위해 MLIR을 사용하도록 Triton DSL을 확장하고 있습니다.

MTIA 공연

Meta는 MTIA의 성능을 다른 가속기와 비교한 결과는 다음과 같습니다.

GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시