220억 개의 트랜지스터, IBM 머신러닝 프로세서 NorthPole, 에너지 효율 25배 향상-일체 포함-php.cn

220억 개의 트랜지스터, IBM 머신러닝 프로세서 NorthPole, 에너지 효율 25배 향상

PHPz

풀어 주다： 2023-10-23 15:13:01

앞으로

1034명이 탐색했습니다.

IBM이 다시 한 번 노력하고 있습니다.

AI 시스템의 급속한 발전으로 인해 에너지 요구 사항도 증가하고 있습니다. 새로운 시스템을 훈련하려면 대규모 데이터 세트와 프로세서 시간이 필요하므로 극도로 에너지 집약적입니다. 어떤 경우에는 스마트폰이 잘 훈련된 시스템을 실행하여 해당 작업을 쉽게 수행할 수 있습니다. 하지만 너무 많이 실행하면 에너지 소모도 늘어나게 됩니다.

다행히 후자의 에너지 소비를 줄이는 방법은 여러 가지가 있습니다. IBM과 Intel은 실제 뉴런의 동작을 모방하도록 설계된 프로세서를 실험했습니다. IBM은 또한 RAM에 대한 반복적인 액세스를 피하기 위해 위상 변화 메모리에서 신경망 계산 수행을 테스트했습니다.

이제 IBM은 또 다른 방법을 도입했습니다. 이 회사의 새로운 NorthPole 프로세서는 위 접근 방식의 아이디어 중 일부를 종합하고 이를 매우 간소화된 계산 실행 방식과 결합하여 추론 기반 신경망을 효율적으로 실행할 수 있는 에너지 효율적인 칩을 만듭니다. 이 칩은 이미지 분류나 오디오 전사와 같은 영역에서 GPU보다 35배 더 효율적입니다.

220억 개의 트랜지스터, IBM 머신러닝 프로세서 NorthPole, 에너지 효율 25배 향상

공식 블로그: https://research.ibm.com/blog/northpole-ibm-ai-chip

NorthPole과 기존 AI 처리의 차이점 다양한 프로세서

첫번째 모두 NorthPole은 신경망 훈련에 필요한 작업을 수행하지 않으며 순전히 실행용으로 설계되었습니다.

둘째, 범용 AI 프로세서는 아니지만 추론 중심 신경망용으로 특별히 설계되었습니다. 그래서 그것을 추론하고 이미지나 오디오 클립 등의 내용을 알아내는 데 사용하고 싶다면 그게 맞습니다. 하지만 대규모 언어 모델을 실행해야 한다면 이 칩은 별로 쓸모가 없을 것 같습니다.

마지막으로 NorthPole은 뉴로모픽 컴퓨팅 칩에서 몇 가지 아이디어를 차용했지만 처리 장치가 실제 뉴런에서 사용하는 급증하는 통신을 에뮬레이션하는 대신 계산을 수행하기 때문에 뉴로모픽 하드웨어는 아닙니다.

NorthPole은 이전의 TrueNorth와 마찬가지로 대규모 컴퓨팅 셀 배열(16×16)로 구성되며 각 셀에는 로컬 메모리와 코드 실행 기능이 포함되어 있습니다. 따라서 신경망의 다양한 연결에 대한 모든 가중치를 필요한 곳에 정확하게 저장할 수 있습니다.

또한 최소 4개의 서로 다른 네트워크를 갖춘 광범위한 온칩 네트워크를 갖추고 있습니다. 이러한 네트워크 중 일부는 완료된 계산에 대한 정보를 필요한 다음 컴퓨팅 장치에 전달합니다. 다른 네트워크는 컴퓨팅 장치의 전체 배열을 재구성하는 데 사용되어 이전 레이어가 계속 계산되는 동안 신경망의 한 레이어를 실행하는 데 필요한 신경 가중치와 코드를 제공합니다. 마지막으로 인접한 컴퓨팅 유닛 간의 통신이 최적화됩니다. 이는 이미지에서 개체의 가장자리를 찾는 것과 같은 작업에 유용합니다. 이미지가 입력될 때 인접한 픽셀이 인접한 컴퓨팅 장치에 할당되면 인접한 픽셀에 걸쳐 있는 특징을 식별하기 위해 더 쉽게 협력할 수 있습니다.

그리고 NorthPole의 컴퓨팅 리소스도 범상치 않습니다. 각 장치는 2비트에서 8비트 범위의 낮은 정밀도 계산을 수행하도록 최적화되어 있습니다. 이러한 실행 단위의 사용을 보장하기 위해 변수 값을 기반으로 조건부 분기를 수행할 수 없습니다. 즉, 사용자 코드에는 if 문이 포함될 수 없습니다. 이 간단한 실행을 통해 컴퓨팅 단위당 대규모 병렬 실행이 가능해졌습니다. 2비트 정밀도에서 각 장치는 8,000개 이상의 계산을 병렬로 수행할 수 있습니다.

컴패니언 소프트웨어

이러한 독특한 설계로 인해 NorthPole 팀은 각 레이어가 성공적으로 작동하는 데 필요한 최소 정확도 수준을 계산하기 위해 자체 교육 소프트웨어를 개발해야 했습니다. 칩에서 신경망을 실행하는 것도 비교적 특이한 과정입니다.

신경망의 가중치와 연결이 칩의 버퍼에 배치되면 실행하려는 데이터를 업로드하고 실행을 시작하라고 지시하는 외부 컨트롤러만 필요합니다. 다른 모든 것은 CPU 없이 실행되므로 시스템 수준의 전력 소비가 제한됩니다.

NorthPole 테스트 칩은 최첨단 기술보다 훨씬 뒤처지는 12nm 공정으로 제조됩니다. 그럼에도 불구하고 그들은 각각 768KB의 메모리를 갖춘 220억 개의 트랜지스터에 256개의 컴퓨팅 장치를 장착했습니다. 이 시스템을 유사한 프로세스를 기반으로 구축된 Nvidia의 V100 Tensor Core GPU와 비교하면 NorthPole은 동일한 전력 소비에서 25배의 컴퓨팅 성능을 제공합니다.

동일한 조건에서 NorthPole은 최첨단 GPU보다 약 5배 성능이 뛰어납니다. 시스템 테스트를 통해 널리 사용되는 다양한 신경망 작업을 효율적으로 수행할 수 있는 것으로 나타났습니다.

위 내용은 220억 개의 트랜지스터, IBM 머신러닝 프로세서 NorthPole, 에너지 효율 25배 향상의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!