ChatGPT, AIGC, großes Modell ... Eine Reihe schillernder Begriffe ist aufgetaucht, und der kommerzielle Wert von KI hat in der Gesellschaft große Aufmerksamkeit erregt. Da der Umfang der Trainingsmodelle zunimmt, ist auch das Rechenzentrumsnetzwerk, das die KI-Rechenleistung unterstützt, zu einem heißen Thema geworden. Verbessern Sie die Effizienz der Rechenleistung und bauen Sie leistungsstarke Netzwerke auf... Große Hersteller zeigen ihr Talent und arbeiten hart daran, eine „neue F1-Strecke“ für KI-Netzwerke in der Ethernet-Branche zu eröffnen. In diesem KI-Wettrüsten hatte DDC einen prominenten Auftritt und schien über Nacht zum Synonym für revolutionäre Technologie zum Aufbau leistungsstarker KI-Netzwerke zu werden. Aber ist es wirklich so schön, wie es scheint? Lassen Sie uns im Detail analysieren und in Ruhe urteilen.
DDC wurde 2019 gestartet und besteht im Wesentlichen darin, Frame-Router durch Box-Router zu ersetzen.Mit dem schnellen Wachstum des DCN-Verkehrs wird der Bedarf an DCI-Netzwerk-Upgrades immer dringlicher. Allerdings ist die Erweiterungskapazität von DCI-Router-Rahmengeräten durch die Größe des Rahmens begrenzt; gleichzeitig verbraucht das Gerät viel Strom. Bei der Erweiterung des Rahmens sind die Anforderungen an die Schrankleistung und Wärmeableitung hoch und die Transformationskosten sind hoch ist hoch. Vor diesem Hintergrund reichte AT&T im Jahr 2019 Box-Router-Spezifikationen auf Basis kommerzieller Chips bei OCP ein und schlug das Konzept des DDC (Disaggregated Distributed Chassis) vor. Vereinfacht ausgedrückt verwendet DDC einen Cluster aus mehreren Boxgeräten mit geringem Stromverbrauch, um Hardwareeinheiten wie Service-Line-Cards und Netzwerkkarten modularer Geräte zu ersetzen. Die Boxgeräte sind über Kabel miteinander verbunden. Der gesamte Cluster wird über ein zentralisiertes oder verteiltes NOS (Netzwerkbetriebssystem) verwaltet, um die Leistungs- und Stromverbrauchsengpässe von DCI-Single-Frame-Geräten zu überwinden.
Zu den von DDC behaupteten Vorteilen gehören:
Überwindung der Erweiterungsbeschränkungen von rahmenartigen Geräten: Die Kapazitätserweiterung wird durch Multi-Geräte-Cluster erreicht, ohne durch die Rahmengröße eingeschränkt zu werden;
Reduzierung von Einzelpunkten Stromverbrauch: Mehrere Einheiten mit geringem Stromverbrauch. Der dezentrale Einsatz kastenförmiger Geräte mit hohem Stromverbrauch löst das Problem des konzentrierten Stromverbrauchs und reduziert die Anforderungen an die Schaltschrankleistung und die Wärmeableitung.
Verbesserung der Bandbreitennutzung: Im Vergleich zum herkömmlichen ETH-Netzwerk-Hash Austausch, DDC nutzt Zellen (Cell ) Switching, Lastausgleich basierend auf Cell, hilft, die Bandbreitennutzung zu verbessern
Paketverlust verringern
: Nutzen Sie die große Cache-Kapazität des Geräts, um die hohen Konvergenzverhältnisanforderungen zu erfüllen von DCI-Szenarien. Zuerst wird die VOQ-Technologie (Virtual Output Queue) verwendet, um die im Netzwerk empfangenen Pakete verschiedenen virtuellen Ausgangswarteschlangen zuzuordnen, und dann wird der Credit-Kommunikationsmechanismus verwendet, um zu bestimmen, ob das empfangende Ende über genügend Pufferplatz verfügt, bevor diese Pakete gesendet werden, wodurch reduziert wird das Risiko eines Paketverlusts aufgrund einer Überlastung des Ausgangs.
Die DDC-Lösung ist in der DCI-Szene nur ein Strohfeuer
Die Idee scheint perfekt, doch die Umsetzung verläuft nicht reibungslos. Das Network Cloud-Produkt von DriveNets ist die erste und einzige kommerzielle DDC-Lösung der Branche, und die gesamte Software ist an universelle White-Box-Router angepasst. Allerdings sind bisher keine klaren Verkaufsfälle auf dem Markt zu erkennen. AT&T, als Anbieter der DDC-Architekturlösung, implementierte die DDC-Lösung im Jahr 2020 in Graustufen in seinem selbst aufgebauten IP
Backbone-Netzwerk, aber es gab kaum Folgemaßnahmen. Warum hat dieser Spritzer nicht viel Aufsehen erregt? Dies ist auf die vier Hauptmängel von DDC zurückzuführen. Fehler 1: Unzuverlässige Geräteverwaltung und Steuerebene
Jede Komponente der rahmenartigen Ausrüstung realisiert die Verbindung der Steuer- und Verwaltungsebene über den hochintegrierten und äußerst zuverlässigen PCIe-Bus, und die Ausrüstung verwendet ein duales Hauptsteuerplatinendesign um sicherzustellen, dass die Ausrüstung der Steuerungsebene äußerst zuverlässig ist. DDC verwendet zerbrechliche Modulkabel, bei denen ein Austausch erforderlich ist, um Verbindungen herzustellen, um einen Multi-Geräte-Cluster aufzubauen und den Betrieb der Cluster-Verwaltungs- und Steuerungsebene zu unterstützen. Obwohl diese unzuverlässige Verbindungsmethode die Größenordnung kastenförmiger Geräte durchbricht, birgt sie große Risiken für die Verwaltungs- und Steuerungsoberfläche. Wenn zwei Geräte gestapelt werden, können Probleme wie Split Brain und eine nicht synchronisierte Tabelleneinträge auftreten. Bei der unzuverlässigen Verwaltungs- und Kontrollebene von DDC ist es wahrscheinlicher, dass ein solches Problem auftritt.
Defekt 2: Hochkomplexe Ausrüstung NOS
Die SONiC-Community hat bereits einen verteilten Weiterleitungsrahmen basierend auf der VOQ-Architektur entworfen und ergänzt und modifiziert ihn weiterhin iterativ, um die Unterstützung für DDC zu erfüllen. Obwohl es tatsächlich viele Implementierungsfälle der White Box gibt, stellen nur wenige Menschen die „White Box“ in Frage. Um einen entfernten „weißen Rahmen“ zu erstellen, müssen wir nicht nur den Status mehrerer Geräte im Cluster sowie die Synchronisierung und Verwaltung von Tabelleneintragsinformationen berücksichtigen, sondern auch mehrere praktische Szenarien wie Versionsaktualisierungen, Rollbacks und Hot berücksichtigen Patches unter mehreren Geräten. DDC hat die NOS-Komplexitätsanforderungen für Cluster exponentiell erhöht. Derzeit gibt es in der Branche keine ausgereiften kommerziellen Fälle und es bestehen große Entwicklungsrisiken.
Fehler 3: Mangel an wartbaren Lösungen
Das Netzwerk ist unzuverlässig, daher hat das ETH-Netzwerk viele wartbare und positionierbare Funktionen oder Tools entwickelt, wie zum Beispiel die bekannten INT und MOD. Diese Tools können bestimmte Flüsse überwachen und Flussmerkmale von Paketverlusten identifizieren, um Probleme zu lokalisieren und zu beheben. Die von DDC verwendete Zelle ist jedoch nur ein Teil der Nachricht. Sie enthält keine Fünf-Tupel-Informationen wie die zugehörige IP und kann keinem bestimmten Dienstfluss zugeordnet werden. Sobald in DDC ein Paketverlust auftritt, können die aktuellen Betriebs- und Wartungsmethoden den Paketverlustpunkt nicht lokalisieren, und der Wartungsplan weist ernsthafte Mängel auf.
Defekt 4: Kostenerhöhung
Um die Rahmengrößenbeschränkung zu durchbrechen, muss DDC die verschiedenen Geräte im Cluster über Hochgeschwindigkeitskabel/-module miteinander verbinden. Typ Geräte-Linecards und Netzwerkplatinen Die Verbindung erfolgt über PCB-Leiterbahnen und Hochgeschwindigkeitsverbindungen. Je größer der Maßstab, desto höher sind die Verbindungskosten.
Gleichzeitig ist der Gesamtstromverbrauch eines über Kabel/Module verbundenen DDC-Clusters höher als der von rahmenförmigen Geräten, um die Konzentration des Stromverbrauchs an einem einzigen Punkt zu reduzieren. Bei Chips derselben Generation ist der Stromverbrauch des Clusters unter der Annahme, dass DDC-Clustergeräte durch Module miteinander verbunden sind, 30 % höher als bei Geräten vom Rahmentyp.
Weigern Sie sich, die Reste zu frittieren, die DDC-Lösung ist auch nicht für KI-Netzwerke geeignet
Die Unreife und Unvollkommenheit der DDC-Lösung hat die DCI-Szene leider verlassen. Aber derzeit erlebt es unter dem Druck der KI einen Aufschwung. Der Autor ist der Ansicht, dass DDC auch nicht für KI-Netzwerke geeignet ist. Als nächstes werden wir es im Detail analysieren.
Zwei Kernanforderungen des KI-Netzwerks: hoher Durchsatz und geringe Latenz
Die vom KI-Netzwerk unterstützten Dienste zeichnen sich durch eine geringe Anzahl von Flüssen und gleichzeitig eine große Bandbreite eines einzelnen Flusses aus; Zeitlich ist der Verkehr ungleichmäßig, und es kommt häufig zu einer oder mehreren Situationen, in denen es zu Überschneidungen kommt (All-to-All und All-Reduce). Daher ist es äußerst anfällig für Probleme wie ungleichmäßige Verkehrslast, geringe Verbindungsauslastung, Paketverlust durch häufige Verkehrsstaus usw. und kann die Rechenleistung nicht vollständig freigeben.
DDC löst nur das Hash-Problem, bringt aber auch viele Mängel mit sich.
DDC verwendet Cell Switching, um die Nachricht in Zellen aufzuteilen, und verwendet einen Polling-Mechanismus, um sie basierend auf den Erreichbarkeitsinformationen zu senden. Die Verkehrslast wird relativ ausgeglichen auf jede Verbindung verteilt, wodurch die Bandbreite vollständig ausgenutzt wird und das Hash-Problem besser gelöst wird. Abgesehen davon weist DDC jedoch noch vier große Mängel im KI-Szenario auf.
Defekt 1: Die Hardware erfordert eine spezielle Ausrüstung, die für geschlossene private Netzwerke nicht universell ist.
Die Cell Switching- und VOQ-Technologie in der DDC-Architektur ist für die Implementierung alle auf spezifische Hardware-Chips angewiesen. Derzeit können DCN-Netzwerkgeräte nicht wiederverwendet werden. Die schnelle Entwicklung des ETH-Netzwerks profitiert von seinem Plug-and-Play-Komfort, seiner Generalisierung und Standardisierung. DCC ist auf Hardware angewiesen und baut über ein proprietäres Switching-Protokoll ein geschlossenes privates Netzwerk auf, das nicht universell ist.
Defekt 2: Das große Cache-Design erhöht die Netzwerkkosten und ist nicht für groß angelegte DCN-Netzwerke geeignet.
Wenn die DDC-Lösung in das DCN gelangt, trägt sie zusätzlich zu den hohen Verbindungskosten auch die Kostenlast von der große Cache des Chips. DCN-Netzwerke verwenden derzeit kleine Cache-Geräte mit maximal 64 MB; aus DCI-Szenarien abgeleitete DDC-Lösungen verfügen normalerweise über einen Chip-HBM von über GB. Im Vergleich zu DCI sind große DCN-Netzwerke stärker auf die Netzwerkkosten bedacht.
Fehler 3: Die statische Netzwerkverzögerung nimmt zu und passt nicht zum KI-Szenario
Als leistungsstarkes KI-Netzwerk, das Rechenleistung freisetzt, besteht das Ziel darin, die Fertigstellungszeit von Diensten zu verkürzen. Die große Cache-Fähigkeit von DDC speichert Pakete zwischen, was unweigerlich die statische Verzögerung der Hardware-Weiterleitung erhöht. Gleichzeitig erhöhen Cell Switching, Slicing, Kapselung und Reassemblierung von Nachrichten auch die Netzwerkweiterleitungsverzögerung. Durch den TestDatenvergleich erhöht sich die DDC-Weiterleitungsverzögerung im Vergleich zum herkömmlichen ETH-Netzwerk um das 1,4-fache.
Defekt 4: Mit zunehmender Größe von DC wird sich das Problem der DDC-Unzuverlässigkeit verschlimmernIm Vergleich zu dem Szenario, in dem DDC die Rahmenausrüstung in DCI-Szenarien ersetzt, muss DDC mindestens einen größeren Cluster erfüllen, um in DCN einzutreten Treffen Sie einen Netzwerk-POD. Das bedeutet, dass die „Box“ weiter voneinander entfernt ist und die Komponenten weiter voneinander entfernt sind. Darüber hinaus bestehen höhere Anforderungen an die Zuverlässigkeit der Verwaltungs- und Steuerungsebene dieses Clusters, das Synchronisationsmanagement des Gerätenetzwerk-NOS und das Betriebs- und Wartungsmanagement auf Netzwerk-POD-Ebene. Die verschiedenen Mängel von DDC werden behoben.
DDC ist bestenfalls eine ÜbergangslösungNatürlich ist kein Problem unlösbar. Wenn man einige Einschränkungen in Kauf nimmt, kann dieses spezielle Szenario für große Hersteller leicht zu einer Bühne werden, auf der sie „ihre Fähigkeiten unter Beweis stellen“ können. Das Netzwerk strebt nach Zuverlässigkeit, Einfachheit und Effizienz und lehnt Komplexität ab. Gerade vor dem aktuellen Hintergrund „Personalabbau und Effizienzsteigerung“ müssen wir unbedingt die Kosten für die Umsetzung von DDC berücksichtigen.
Bei Problemen mit der Netzwerklastverteilung in KI-Szenarien wurden viele Fälle durch globale statische oder dynamische Orchestrierung von Weiterleitungspfaden gelöst. In Zukunft kann dies auch durch die Netzwerkkarteauf der Endseite basierend auf Packet Spray und gelöst werden Umordnung außerhalb der Reihenfolge. Daher ist DDC bestenfalls ein kurzfristiger Übergangsplan.
Nach einem tiefen Einblick könnte die treibende Kraft hinter DDC DNX sein
Lassen Sie uns abschließend über das Mainstream-Netzwerkchipunternehmen Broadcom (Broadcom) sprechen. Die beiden Produktserien, mit denen wir besser vertraut sind, sind StrataXGS und StrataDNX. XGS setzt seinen Weg zu hoher Bandbreite und niedrigen Kosten fort, bringt schnell Chip-Produkte mit kleinem Cache und großer Bandbreite auf den Markt und dominiert weiterhin die Auslastung des DCN-Netzwerks. StrataDNX trägt jedoch die Kosten eines großen Caches und führt den Mythos des VOQ+-Zellenaustauschs fort, in der Hoffnung, dass DDC in DC einziehen wird, um sein Leben fortzusetzen. In Nordamerika scheint es keinen Fall zu geben. Der inländische DDC könnte der letzte Tropfen sein, der DNX zum Überlaufen bringt.
Heute sind in unserem Land viele Hardware-Einrichtungen wie GPUs bis zu einem gewissen Grad eingeschränkt. Brauchen wir DDC wirklich? Lassen wir mehr Möglichkeiten für im Inland hergestellte Geräte!
Das obige ist der detaillierte Inhalt vonDDC nutzen, um KI-Netzwerke aufzubauen? Das könnte nur eine schöne Illusion sein. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!