Generative KI (AIGC) hat eine neue Ära der allgemeinen künstlichen Intelligenz eingeläutet. Der Wettbewerb um große Modelle steht im Mittelpunkt des Wettbewerbs, und das Erwachen der Macht ist zunehmend zu einem Branchenkonsens geworden.

Im Zeitalter großer KI-Modelle fördern neue Datenspeicherbasen den Übergang zur digitalen Intelligenz in der Bildung und wissenschaftlichen Forschung

In der neuen Ära bewegen sich große Modelle von Einzelmodalität zu Multimodalität, die Größe von Parametern und Trainingsdatensätzen wächst exponentiell und riesige unstrukturierte Daten erfordern gleichzeitig die Unterstützung leistungsstarker Mischlastfunktionen; Datenintensive Paradigmen werden immer beliebter und Anwendungsszenarien wie Supercomputing und High-Performance-Computing (HPC) verlagern sich in die Tiefe. Bestehende Datenspeicherbasen sind nicht mehr in der Lage, den Anforderungen kontinuierlicher Upgrades gerecht zu werden.

Wenn Rechenleistung, Algorithmen und Daten die „Troika“ sind, die die Entwicklung der künstlichen Intelligenz vorantreibt, dann müssen diese drei im Kontext enormer Veränderungen im äußeren Umfeld dringend wieder ein dynamisches Gleichgewicht finden. Die Verbesserung der „Soft Power“ durch die Verbesserung von Algorithmusmodellen und die Verbesserung der „Hard Power“ durch die Optimierung der Rechenleistungsversorgung bedürfen weiterer Unterstützung – der „Kapazität“ der Datenübertragung und der „Speicherkapazität“ der Daten Als Energiequelle müssen neue Datenspeicher aus dem Kokon hervorgehen und sich zu einem Schmetterling im Prozess der Bewältigung vieler Herausforderungen entwickeln.

Anwendungsszenarien mit komplexen und sich ständig weiterentwickelnden Anforderungen sind der beste Prüfstein für neue Datenspeichergrundlagen. In diesem Sinne ist die Lehr- und Forschungsbranche ein typischer Vertreter: Rechenleistung und Daten sind Schlüsselelemente der digitalen Transformation in diesem Bereich, und wissenschaftliches Forschungsrechnen mit disziplinärer Integration ist ebenso wichtig wie datenbasierte Entscheidungsunterstützung. Der Übergang von HPC zu HPDA (High Performance Data Analysis) ist ein großer Schritt zur Verbesserung der Effizienz von Lehre und wissenschaftlicher Forschung, und die Stärkung der KI kann dazu beitragen, Probleme zu lösen, die in der Vergangenheit unmöglich, ungenau und unpraktisch zu berechnen waren.

Im Zeitalter großer KI-Modelle fördern neue Datenspeicherbasen den Übergang zur digitalen Intelligenz in der Bildung und wissenschaftlichen Forschung

Auf der kürzlich abgehaltenen Weltkonferenz für künstliche Intelligenz 2023 half der verteilte Speicher OceanStor Pacific von Huawei beim Aufbau einer HPC+KI-Speicherbasis, die offiziell eingeführt wurde. Die einheitliche Datenbank „Turn it over“ wird dieses Jahr um weitere 25 PB erweitert Es wird erwartet, dass es ein neuer Maßstab für die digitale und intelligente Transformation von Lehre und wissenschaftlicher Forschung wird und auch einen Meilenstein auf dem Weg zur Erforschung neuer Grundlagen für die Datenspeicherung setzt.

Die Entwicklung der Beziehung zwischen Daten und Rechenleistung und die daraus resultierenden Herausforderungen

Mit der digitalen Transformation tausender Branchen und der koordinierten Explosion neuer Technologien wie künstlicher Intelligenz und Big Data erfährt die Beziehung zwischen Daten und Rechenleistung subtile Veränderungen.

Im Zeitalter großer KI-Modelle fördern neue Datenspeicherbasen den Übergang zur digitalen Intelligenz in der Bildung und wissenschaftlichen Forschung

Der Bereich Bildung und wissenschaftliche Forschung steht an der Spitze der digitalen Wirtschaft und reagiert sehr sensibel auf diesen Wandel. In der Vergangenheit mussten Daten der Rechenleistung folgen. Um die schnelle numerische Lösung komplexer wissenschaftlicher und technischer Probleme zu bewältigen, hat die Bildungs- und wissenschaftliche Forschungsgemeinschaft seit langem mehr Wert darauf gelegt, die leistungsstärkste Rechenleistung aufzubauen, während Daten nur als unterstützende Einrichtung betrachtet werden Rechenleistung.

Heutzutage ist „Rechenleistung dreht sich um Daten“ allmählich zu einem neuen Trend geworden. Das Aufkommen neuer Anwendungen, die Ausweitung des Datenvolumens und die Hervorhebung von Datensicherheitsproblemen haben den Wert der Daten selbst stärker in den Vordergrund gerückt. Basierend auf Durchbrüchen in den Bereichen KI, Big Data und anderen Technologien entwickelt sich das traditionelle Supercomputing zum datenintensiven Supercomputing, und es müssen mehrere heterogene Rechenleistungen auf der gleichen Datenspeicherbasis aufgebaut werden.

Lin Xinhua, stellvertretender Direktor des Network Information Center der Shanghai Jiao Tong University, glaubt, dass die Umkehr der Dominanz bei Daten und Rechenleistung nicht nur eine Chance zum Aufbau einer datenintensiven Supercomputing-Plattform bietet, sondern auch viele neue Herausforderungen mit sich bringt Aufbau einer einheitlichen Datenspeicherbasis.

Erstens hat das explosionsartige Wachstum der Daten den Bedarf an Speicherkapazität deutlich erhöht. Laut Statistik ist der Datenumfang der „Jiaowosuan“-Plattform jährlich um 7 PB gewachsen. Das Datenvolumen von Anwendungsszenarien wie Meteorologie und Ozeanographie, Energieerkundung, Satellitenfernerkundung, Gensequenzierung, Kryo-Elektronenmikroskopie und KI Da autonomes Fahren, Fertigungs-CAE und Animationsrendering alle das Petabyte-Niveau erreicht haben, ist es nicht einfach, eine Dateninfrastruktur für die Bewältigung einer derart großen Datenmenge zu nutzen.

Zweitens entstehen ständig neue Geschäftsfelder, die eine höhere Speicherleistung erfordern. Die Beschleunigung des KI-Generalisierungsprozesses, insbesondere der Batch-Ausgabe großer Modelle und Multimodalitäten, stellt eine große Herausforderung für die IO-Leistung dar. Da Hunderte von Terabyte an Datensätzen zur Norm geworden sind, haben die Verarbeitung natürlicher Sprache und multimodale Anwendungen das Wachstum des Datenvolumens beschleunigt, und für den effizienten Zugriff auf Trainingsdatensätze mit kleinen Dateien muss die Speicherleistung ein neues Niveau erreichen.

Drittens wird Multi-Cluster-Speicher von mehreren Campusstandorten gemeinsam genutzt, und der Datenfluss zwischen heterogenen Clustern kann Probleme wie Datenverlust und langsamen Betrieb verursachen. Die „Jiaowosuan“-Plattform bietet eine Vielzahl heterogener Rechenleistung, darunter ARM-Cluster, X86-Cluster und KI-Cluster. Bei vielen Clustern kann nur durch die Erreichung eines vollständigen Datenflusses und der Datenintegration der maximale Wert von Rechenleistung und Daten freigesetzt werden.

Schließlich ist es mit dem herkömmlichen lokalen KI-Training auf der Festplatte und der Analyse hoher gleichzeitiger Daten dringend erforderlich, die IO-Mauer zu durchbrechen. Der E/A-Engpass im Prozess mehrerer Datenmigrationen ist sehr ausgeprägt: Der herkömmliche Lese- und Schreibprozess ist langwierig, das Laden von Daten erfordert drei Datenmigrationen und der Checkpoint umfasst auch zwei Datenmigrationen. Der während dieses Prozesses verursachte Effizienzverlust kann nicht ignoriert werden.

Der bahnbrechende Weg der verteilten Speicherung einer einheitlichen integrierten Datenbank

Um die oben genannten Herausforderungen zu bewältigen, haben die Shanghai Jiao Tong University und Huawei Storage seit 2019 eine intensive Zusammenarbeit gestartet, um gemeinsam eine datenintensive Supercomputing-Plattform „übergeben an mich“ aufzubauen. Huaweis verteilte Speicherprodukte OceanStor Pacific unterstützen „Tuowo Calculation“ dabei, eine einheitliche Datenbank aufzubauen, um verschiedene heterogene Rechenleistungsplattformen in der gesamten Schule zu unterstützen.

Im Zeitalter großer KI-Modelle fördern neue Datenspeicherbasen den Übergang zur digitalen Intelligenz in der Bildung und wissenschaftlichen Forschung

Der Aufbau einer verteilten, einheitlichen integrierten Datenbank ist für „Leave It to Me“ die einzige Möglichkeit, neue Datenanwendungen zu nutzen. Basierend auf einer horizontal skalierbaren verteilten Speicherarchitektur können die Speicherkapazität und Bandbreite der „Jiaowosuan“-Plattform bei Bedarf erweitert werden. Das erste ist das lineare Wachstum der Leistungskapazität, wobei ein einzelner Cluster die Kapazität auf EB-Niveau erreicht; das zweite ist die Verwendung von Hardware mit hoher Dichte und großer Kapazität, um Schrankraum zu sparen; das dritte ist die Verwendung großer EC-Anteile zur Verbesserung Festplattennutzung mit szenariobasierter Komprimierung.

Es wird davon ausgegangen, dass die „Jiaowosuan“-Plattform von ursprünglich 2 PB Kapazität und 6 GB/s Bandbreite auf 20 PB Kapazität und 60 GB/s Bandbreite im Jahr 2020 ansteigen und im Jahr 2022 auf 40 PB Kapazität und 120 GB/s Bandbreite erweitert wird. Das ist so voraussichtlich im Jahr 2023. Die Kapazität wird um weitere 25 PB erweitert. Gleichzeitig verfügt der verteilte Speicher OceanStor Pacific von Huawei über ein Ultra-High-Density-Design mit 5 HE und 120 Festplattensteckplätzen. In Kombination mit einem umfassenden EC-Datenredundanzschutzalgorithmus kann er die Festplattenspeicherauslastung bei gleichzeitiger Einhaltung der Anforderungen auf 91,6 % erhöhen hohe Zuverlässigkeit.

Verteilte All-Flash-Hardwareunterstützung ist der Grundstein für „Leave it to me“, um Speicherleistungsprobleme zu lösen. Mit Hilfe von Huawei OceanStor Pacific nutzt die „Turn it over“-Plattform All-Flash-Hardwarebeschleunigung, um die Bandbreite und IOPS-Leistung deutlich zu verbessern. Jeder Knoten verfügt über 800.000 IOPS und eine Bandbreite von 20 GB/S, wodurch hohe Leistungsanforderungen erfüllt werden können Mischlastbedingungen.

Die einheitliche globale verteilte Speicherverwaltung über Campusgrenzen hinweg ist eine gute Möglichkeit, das Problem der gemeinsamen Nutzung von Multi-Cluster-Speicher zu lösen. Durch die Verwendung des globalen Dateisystems zur domänenübergreifenden Verwaltung mehrerer Speichersätze baut die „Jiaowosuan“-Plattform eine einheitliche Datenbank über alle Campusgrenzen hinweg auf. Mit der Unterstützung der verteilten Speicherprodukte OceanStor Pacific von Huawei ermöglicht sie globale Dateiansichten, Datenverwaltung und Planung. globaler Datenfluss, einheitliche Streaming-Metadaten und andere vielfältige Ziele.

Beschleunigung der Datenanalyse, verlustfreie Interoperabilität beim Multiprotokollzugriff und hohe Effizienz ohne Standortwechsel sind die leistungsstarken Werkzeuge, mit denen Sie die IO-Mauer durchbrechen können. Basierend auf der KI-orientierten Speicherlösung von Huawei und der verteilten Speicherfähigkeit OceanStor Pacific von Huawei „eine Daten, Zugriff über mehrere Protokolle“ realisiert die „Turn it over“-Plattform externen Speicher, um die Datenverlagerung zu reduzieren, die Analyseeffizienz erheblich zu verbessern und Speicherplatz zu sparen. Raum.

Das Zukunftsbild von HPDA+KI im Zeitalter großer Modelle

Durch die „Jiaowosuan“-Plattform und den Entwicklungsverlauf der Zusammenarbeit mit Huawei Storage zur Schaffung einer neuen verteilten einheitlichen integrierten Datenbank ist es nicht schwer zu erkennen, dass datenintensive Szenarien die Entwicklung beschleunigen.

Vom frühen HPC zum späteren HPDA und dann zur Symbiose von HPDA+AI haben sich die Anwendungsszenarien in der Lehr- und wissenschaftlichen Forschungsbranche immer weiter bereichert und auch die Nachfrage nach Speicherprodukten und Datenbanken ist weiter sprunghaft angestiegen. Tatsächlich sind Lehre und wissenschaftliche Forschung nur die Spitze des Eisbergs im Digitalisierungsprozess Tausender Branchen. Das Zeitalter der Datenspeicherung ist angebrochen.

Der Beginn der Ära der großen Modelle wird die IT-Infrastruktur, einschließlich Speicher, weiter verändern, und es wird erwartet, dass Speicherprodukte mit neuen KI-Genen zum neuen Favoriten bei der digitalen Modernisierung der Branche werden. Am 14. Juli findet die Huawei-Konferenz zur Einführung neuer KI-Speicherprodukte im großen Modellzeitalter mit dem Thema „Neues Datenparadigma entfesselt neue Dynamik der KI“ online statt. Unabhängig davon, ob Sie KI in Ihrem Unternehmen einsetzen oder Anwendungen mit KI-Funktionen entwickeln, bieten die dieses Mal veröffentlichten Lösungen eine bessere technische Architektur und Produkte, die Ihnen helfen, mit der Zeit Schritt zu halten.

Die Verallgemeinerung der künstlichen Intelligenz hat begonnen. Der Marktführer in der Speicherbranche hat die Führung übernommen und ist auf jede weitere Bewegung gespannt.

Das obige ist der detaillierte Inhalt vonIm Zeitalter großer KI-Modelle fördern neue Datenspeicherbasen den Übergang zur digitalen Intelligenz in der Bildung und wissenschaftlichen Forschung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!