DDC를 사용하여 AI 네트워크를 구축하시겠습니까? 이건 그저 아름다운 환상일지도 몰라

PHPz
풀어 주다: 2023-05-11 13:46:06
앞으로
1420명이 탐색했습니다.

DDC를 사용하여 AI 네트워크를 구축하시겠습니까? 이건 그저 아름다운 환상일지도 몰라

ChatGPT, AIGC, 대형모델... 눈부신 용어들이 잇달아 등장하며 AI의 상업적 가치가 사회의 큰 주목을 받고 있습니다. 훈련 모델의 규모가 커지면서 AI 컴퓨팅 파워를 지원하는 데이터센터네트워크도 화제가 되고 있다. 컴퓨팅 성능 효율성 향상 및 고성능 네트워크 구축... 주요 제조업체는 이더넷 업계에서 AI 네트워크의 '새로운 F1 트랙'을 열기 위해 재능을 발휘하고 열심히 노력하고 있습니다.

이 AI 군비 경쟁에서 DDC는 세간의 이목을 끌었고 하룻밤 사이에 고성능 AI 네트워크 구축을 위한 혁신적인 기술의 대명사가 된 것처럼 보였습니다. 하지만 정말 보이는 것만큼 아름답나요? 자세히 분석하여 냉정하게 판단해 보도록 하겠습니다.

2019년부터 시작된 DDC의 본질은 프레임 라우터를 박스 라우터로 대체하는 것입니다

DCN 트래픽의 급격한 증가로 인해 DCI 네트워크 업그레이드의 필요성이 점점 더 시급해지고 있습니다. 그러나 DCI 라우터 프레임 장비의 확장 용량은 프레임 크기에 따라 제한되며, 동시에 장비는 프레임을 확장할 때 캐비닛 전력 및 열 방출에 대한 요구 사항이 높고 변환 비용도 높습니다. 높다. 이런 배경에서 AT&T는 2019년 상용 칩 기반의 박스 라우터 사양을 OCP에 제출하고 DDC(Disaggregated Distributed Chassis) 개념을 제안했다. 간단히 말해서, DDC는 여러 개의 저전력 박스형 장치로 구성된 클러스터를 사용하여 모듈형 장치의 서비스 라인 카드 및 네트워크 보드와 같은 하드웨어 장치를 교체합니다. 박스형 장치는 케이블을 통해 상호 연결됩니다. DCI 단일 프레임 장비의 성능 및 전력 소비 병목 현상을 극복하기 위해 전체 클러스터를 중앙 집중식 또는 분산형 NOS(네트워크 운영 체제)를 통해 관리합니다.

DDC를 사용하여 AI 네트워크를 구축하시겠습니까? 이건 그저 아름다운 환상일지도 몰라

DDC가 주장하는 장점은 다음과 같습니다.

프레임형 장비의 확장 한계 극복: 프레임 크기에 제한을 받지 않고 다중 장치 클러스터를 통해 용량 확장이 가능합니다. 전력 소비

: 여러 저전력 장치 소비량이 많은 박스형 장비의 분산 배치로 전력 소비 집중 문제를 해결하고 캐비닛 전력 및 열 방출 요구 사항을 줄입니다.

대역폭 활용도 향상

: 기존 ETH 네트워크와 비교 교환, DDC는 셀(

Cell) 스위칭을 사용하고 셀 기반 로드 밸런싱을 통해 대역폭 활용도를 향상시킵니다.

DDC를 사용하여 AI 네트워크를 구축하시겠습니까? 이건 그저 아름다운 환상일지도 몰라패킷 손실을 완화합니다.

: 장치의 대용량 캐시를 사용하여 높은 수렴 비율 요구 사항을 충족합니다. DCI 시나리오의 먼저 VOQ(Virtual Output Queue) 기술을 사용하여 네트워크에서 수신한 패킷을 서로 다른 가상 아웃큐에 할당한 다음 Credit 통신 메커니즘을 사용하여 이러한 패킷을 전송하기 전에 수신 측에 충분한 버퍼 공간이 있는지 확인하여 전송을 줄입니다. 송신 혼잡으로 인한 패킷 손실 위험.

DDC를 사용하여 AI 네트워크를 구축하시겠습니까? 이건 그저 아름다운 환상일지도 몰라DDC 솔루션은 DCI 장면에서 플래시에 불과합니다.

아이디어는 완벽해 보이지만 구현이 원활하지 않습니다. DriveNets의 Network Cloud 제품은 업계 최초이자 유일한 상용 DDC 솔루션이며, 전체 소프트웨어는 범용 화이트박스 라우터에 적용됩니다. 하지만 아직까지 시장에서 명확한 판매 사례는 나오지 않았다. AT&T는 DDC 아키텍처 솔루션 제안자로서 2020년 자체 구축한IP

백본 네트워크에 DDC 솔루션을 그레이 스케일로 배포했지만 후속 조치가 거의 없었습니다. 왜 이 물보라가 큰 파도를 일으키지 않았나요? 이는 DDC의 네 가지 주요 결함에 기인합니다.결점 1: 신뢰할 수 없는 장비 관리 및 제어 평면

프레임형 장비의 각 구성 요소는 고집적 및 신뢰성이 높은 PCIe 버스를 통해 제어 평면과 관리 평면 상호 연결을 구현하며 장비는 듀얼 메인 제어 보드 설계를 사용합니다. 장비 제어 평면의 신뢰성이 매우 높은지 확인합니다. DDC는 "깨진 경우 교체" 취약한 모듈 케이블을 사용하여 상호 연결하여 다중 장치 클러스터를 구축하고 클러스터 관리 및 제어 평면의 작동을 지원합니다. 박스형 장비의 규모를 돌파했지만 이러한 신뢰할 수 없는 상호 연결 방식은 관리 및 제어 표면에 큰 위험을 초래합니다. 두 개의 장치를 겹쳐 쌓으면 분할 브레인 및 테이블 항목의 비동기화와 같은 문제가 발생할 수 있습니다. DDC의 신뢰할 수 없는 관리 및 제어 평면의 경우 이러한 종류의 문제가 발생할 가능성이 더 높습니다.

결함 2: 매우 복잡한 장비 NOS

SONiC 커뮤니티는 이미 VOQ 아키텍처를 기반으로 분산 포워딩 프레임을 설계했으며 DDC 지원을 충족하기 위해 이를 반복적으로 보완하고 수정하고 있습니다. 실제로 화이트박스를 구현한 사례는 많지만, '화이트박스'에 도전하는 사람은 거의 없습니다. 원격 "화이트 프레임"을 구축하려면 클러스터에 있는 여러 장치의 상태, 테이블 항목 정보의 동기화 및 관리를 고려해야 할 뿐만 아니라 버전 업그레이드, 롤백 및 핫과 같은 여러 실제 시나리오도 고려해야 합니다. 여러 장치에서 패치를 체계적으로 구현합니다. DDC는 클러스터에 대한 NOS 복잡성 요구 사항을 기하급수적으로 증가시켰습니다. 현재 업계에는 성숙한 상업 사례가 없으며 개발 위험이 큽니다.

결함 3: 유지 관리 가능한 솔루션 부족

네트워크가 신뢰할 수 없기 때문에 ETH 네트워크는 친숙한 INT 및 MOD와 같이 유지 관리 및 위치 지정이 가능한 기능이나 도구를 많이 만들었습니다. 이러한 도구는 특정 흐름을 모니터링하고 패킷 손실의 흐름 특성을 식별하여 문제를 찾아 해결할 수 있습니다. 그러나 DDC가 사용하는 셀은 메시지의 일부일 뿐 관련 IP 및 기타 5튜플 정보가 없으며 특정 서비스 흐름과 연관될 수 없습니다. DDC에서 패킷 손실 문제가 발생하면 현재의 운영 및 유지 관리 방법으로는 패킷 손실 지점을 찾을 수 없으며 유지 관리 계획이 심각하게 부족합니다.

결점 4: 비용 증가

프레임 크기 제한을 극복하기 위해 DDC는 고속 케이블/모듈을 통해 클러스터 장치를 상호 연결해야 하며 상호 연결 비용은 프레임 장비 라인 카드와 상호 연결 비용보다 훨씬 높습니다. 네트워크 보드 PCB 트레이스와 고속 링크를 통해 상호 연결되며 규모가 클수록 상호 연결 비용이 높아집니다.

동시에 전력 소비가 한 지점에 집중되는 것을 줄이기 위해 케이블/모듈을 통해 상호 연결된 DDC 클러스터의 전체 전력 소비는 프레임형 장치보다 높습니다. 동세대 칩의 경우 DDC 클러스터 장치가 모듈로 상호 연결된다고 가정하면 클러스터의 전력 소비는 프레임형 장치보다 30% 더 높습니다.

남은 음식을 튀기는 것을 거부하세요. DDC 솔루션은 AI 네트워크에도 적합하지 않습니다.

DDC 솔루션의 미성숙과 불완전성은 슬프게도 DCI 현장을 떠났습니다. 그러나 현재는 AI의 압력으로 다시 부활했다. 저자는 DDC도 AI 네트워크에 적합하지 않다고 생각한다. 다음으로 자세히 분석해 보자.

AI 네트워크의 두 가지 핵심 요구 사항: 높은 처리량과 낮은 대기 시간

AI 네트워크에서 지원하는 서비스는 적은 수의 흐름과 동시에 단일 흐름의 넓은 대역폭이 특징입니다. 시간이 지나면 트래픽이 고르지 않고 하나 이상의 트래픽이 발생하는 경우가 많습니다(All-to-All 및 All-Reduce). 따라서 고르지 못한 트래픽 부하, 낮은 링크 활용도, 잦은 트래픽 정체로 인한 패킷 손실 등의 문제가 발생하기 매우 쉬우며 컴퓨팅 성능을 완전히 발휘할 수 없습니다.

DDC는 해시 문제만 해결하지만 많은 결함도 발생시킵니다.

DDC는 셀 전환을 사용하여 메시지를 셀로 분할하고 폴링 메커니즘을 사용하여 도달 가능성 정보를 기반으로 보냅니다. 트래픽 로드는 상대적으로 균형 잡힌 방식으로 각 링크에 분산되어 대역폭을 완전히 활용하고 해시 문제를 더 잘 해결합니다. 하지만 이 외에도 DDC의 AI 시나리오에는 여전히 4가지 주요 결함이 있습니다.

결함 1: 하드웨어에는 특정 장비가 필요하며 이는 폐쇄형 개인 네트워크에는 보편적이지 않습니다.

DDC 아키텍처의 셀 스위칭 및 VOQ 기술은 모두 구현을 위해 특정 하드웨어 칩에 의존합니다. 현재 DCN 네트워크 장비는 재사용할 수 없습니다. ETH 네트워크의 급속한 발전은 플러그 앤 플레이 편의성, 일반화 및 표준화의 이점을 누리고 있습니다. DCC는 하드웨어에 의존하며 보편적이지 않은 독점 스위칭 프로토콜을 통해 폐쇄형 사설 네트워크를 구축합니다.

결함 2: 대용량 캐시 설계로 인해 네트워크 비용이 증가하고 대규모 DCN 네트워킹에는 적합하지 않습니다.

DDC 솔루션이 DCN에 진입하면 높은 상호 연결 비용과 함께 다음과 같은 비용 부담도 부담하게 됩니다. 칩의 큰 캐시. 현재 DCN 네트워크는 최대 64M에 불과한 소형 캐시 장치를 사용합니다. DCI 시나리오에서 파생된 DDC 솔루션은 일반적으로 GB 이상의 칩 HBM을 갖습니다. DCI와 비교할 때 대규모 DCN 네트워크는 네트워크 비용에 더 관심이 있습니다.

결점 3: 정적 네트워크 지연이 증가하고 AI 시나리오와 일치하지 않습니다.

컴퓨팅 파워를 방출하는 고성능 AI 네트워크로 서비스 완료 시간을 단축하는 것이 목표입니다. DDC의 대용량 캐시 기능은 패킷을 캐시하므로 하드웨어 전달의 정적 지연이 필연적으로 증가합니다. 동시에 셀 전환, 슬라이싱, 캡슐화 및 메시지 재조립도 네트워크 전달 지연을 증가시킵니다.테스트데이터 비교를 통해 DDC 전달 지연은 기존 ETH 네트워크에 비해 1.4배 증가합니다.

결점 4: DC의 규모가 커질수록 DDC의 불안정성 문제는 더욱 심해질 것입니다

DCI 시나리오에서 DDC가 프레임 장비를 교체하는 시나리오와 비교하면, DDC는 DCN에 진입하기 위해 더 큰 클러스터를 만나야 합니다. 네트워크 POD를 만나보세요. 이는 "상자"가 더 멀리 떨어져 있고 구성 요소도 더 멀리 떨어져 있음을 의미합니다. 그런 다음 이 클러스터의 관리 및 제어 평면의 신뢰성, 장치 네트워크 NOS의 동기화 관리, 네트워크 POD 수준 운영 및 유지 관리 관리에 대한 요구 사항이 더 높습니다. DDC의 다양한 결함이 깨질 것입니다.

DDC는 기껏해야 과도기적 솔루션입니다

물론 해결 불가능한 문제는 없습니다. 일부 제약 조건을 수용하면 이 특정 시나리오는 주요 제조업체가 "자신의 기술을 과시"하는 무대가 될 수 있습니다. 네트워크는 신뢰성, 단순성, 효율성을 추구하고 복잡성을 거부합니다. 특히 "인력을 줄이고 효율성을 높이는 것"이라는 현재 배경에서 우리는 DDC 구현 비용을 정말로 고려해야 합니다.

AI 시나리오에서 네트워크 부하 공유 문제에 직면했을 때 포워딩 경로의 전역 정적 또는 동적 조정을 통해 많은 사례가 해결되었으며 앞으로는 패킷 스프레이 기반의 터미널 측네트워크 카드를 통해 해결될 수도 있습니다. 잘못된 재배열. 따라서 DDC는 기껏해야 단기 전환 계획에 불과합니다.

깊이 살펴보면 DDC의 원동력은 DNX일 수 있습니다

마지막으로 주류 네트워크 칩 회사인Broadcom(Broadcom)에 대해 이야기해 보겠습니다. 우리에게 더 친숙한 두 가지 제품 시리즈는 StrataXGS와 StrataDNX입니다. XGS는 고대역폭, 저비용 경로를 이어가고 소형 캐시, 대용량 칩 제품을 신속하게 출시하며 DCN 네트워크 점유율을 지속적으로 장악하고 있습니다. 그러나 StrataDNX는 대용량 캐시 비용을 부담하고 DDC가 DC에 진입하여 수명을 연장하기를 희망하면서 VOQ+ 셀 교환 신화를 이어갑니다. 북미에서는 사례가 없는 것으로 보인다. 국내 DDC가 DNX의 마지막 지푸라기가 될 수도 있다.

오늘날 우리나라에서는 GPU 등 다수의 하드웨어 설비가 어느 정도 제한되어 있습니다. 과연 DDC가 필요한가요? 국산기기에 기회를 더 많이 남겨두자!

위 내용은 DDC를 사용하여 AI 네트워크를 구축하시겠습니까? 이건 그저 아름다운 환상일지도 몰라의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!