Auf der Qingyun Technology AI Computing Power Conference stellte Miao Hui, Produktmanager, die Qingyun AI Computing Power Scheduling-Plattform und die Qingyun AI Computing Power Cloud-Dienste ausführlich vor. Das Folgende ist der vollständige Text der Rede:
Benutzer künstlicher Intelligenz stehen vor Herausforderungen bei der Rechenleistung
Mit der Explosion der Branche der künstlichen Intelligenz haben AIGC, große Modelle, wissenschaftliches Forschungsrechnen, Big Data auf Unternehmensebene und künstliche Intelligenz höhere Anforderungen an Rechenleistungszentren gestellt. Insbesondere angesichts der Tatsache, dass Rechenzentren mit einer einzigen Rechenleistung ausgestattet sind, ist es nicht mehr möglich, den wachsenden Bedarf an Rechenleistung in allen Lebensbereichen zu decken. Daher sind intelligentere Rechenzentren, Supercomputing-Zentren und allgemeine Cloud-Computing-Dienste erforderlich Bereitstellung von Rechenleistungsdiensten für die gesamte Gesellschaft.
Allerdings stehen Nutzer der KI-Industrie, der KI-Infrastruktur und der KI-Rechenleistung auch vor einer Reihe von Herausforderungen:
Engpass bei der einheitlichen Verwaltung mehrerer Ressourcen. Angesichts der Anforderungen der Benutzer an mehrere Rechenleistungen, mehrere Speicher, das gesamte Computernetzwerk und nahegelegene Dienste bietet Qingyun eine einheitliche Serviceplanungsplattform für die Verwaltung mehrerer Ressourcen, um die chaotische Situation der Verwaltung mehrerer Ressourcen zu lösen.
Engpass im Hochgeschwindigkeitsnetzwerk. Im Hinblick auf den Aufbau von KI-Hochgeschwindigkeitsnetzwerken verwendet Qingyun Hochgeschwindigkeitsnetzwerke, um Computer- und Speichergeräte miteinander zu verbinden, und verwendet Allzwecknetzwerke, um Anwendungsdienste zu veröffentlichen. Das heißt, Qingyun löst über die Plattform von Qingyun Hochgeschwindigkeitsnetzwerkprobleme in mehreren Regionen .
Der Engpass der umständlichen Umgebungskonstruktion. Algorithmeningenieure und F&E-Ingenieure verschwenden möglicherweise viel Zeit mit der Einrichtung grundlegender Umgebungen wie Hardwareservern und Speicherservern. Durch die intelligenten Computerdienste, Trainingsplattformen und Inferenzmodellplattformen von Qingyun AI wird der Umgebungsaufbau vereinfacht und die Bereitstellung kann mit einem Klick erfolgen erreicht.
Mehrere Engpässe bei der Geschäftsintegration. Qingyun integriert mehrere Unternehmen und kombiniert traditionelles Cloud Computing, Super Computing und Intelligent Computing, um Panorama-Computing-Dienste für mehr Unternehmen und mehr Kunden bereitzustellen.
Mangel an operativen Diensten. Qingyun bietet außerdem umfassende Betriebs- und Betriebs- und Wartungsmanagementdienste für das Computing Power Operation Center und die Computing Power Management-Abteilung.
Qingyun AI-Rechenleistungsplanungsplattform
Die Full-Stack-Produktarchitektur der KI-Planungsprodukte von Qingyun ist Multi-AZ und Multi-Zone, d. h. Produkte in mehreren Regionen können vereinheitlicht und integriert werden, um der gesamten Gesellschaft Rechenleistungsdienste mit einem globalen Service bereitzustellen. Insbesondere wird es die zugrunde liegende Infrastruktur verwalten, die Infrastruktur über die Datenlogikschicht logisch und geschäftsorientiert gestalten und durch bestimmte Produkte oder Dienste, einschließlich GPU-Hosts, Bare Metal, Virtualisierung, Freigabeformulare usw., einen KI-Rechenleistungscluster bilden. , Container-Inferenzdienste, Modellmärkte und andere verwandte Unternehmen, die Kunden in der gesamten Branche Rechenleistungsplanung und Implementierungsfunktionen für Anwendungsszenarien bereitstellen.
Neues Modell eines Rechenleistungsbauzentrums, das alle Aspekte abdeckt
Im Allgemeinen basieren die von Qingyun Technology bereitgestellten Funktionen der KI-Rechenleistungsplanungsplattform hauptsächlich auf den folgenden vier Aspekten:
Erstens ist die gesamte Plattform mit allen Computerchips auf dem Markt (einschließlich neu produzierter Xinchuang-Chips) sowie GPU-bezogenen Grafikkarten und Netzwerkkarten kompatibel.
Zweitens führen Sie eine einheitliche Verwaltung, Verteilung, Überwachung und Planung der oben genannten Anpassungsressourcen durch und stellen Online-Verwaltungsfunktionen für den gesamten Lebenszyklus von der Benutzeranwendung bis zur Veröffentlichung nach der Verwendung bereit.
Drittens ermöglicht die einheitliche Verwaltungsplattform von Qingyun sowohl der Verwaltungs- als auch der Benutzerseite Benutzern und Administratoren den vollständigen Betrieb der KI-Infrastruktur und der KI-Rechenleistung von Cloud-Diensten.
Mit Blick auf den Bereich des intelligenten Rechnens wird Qingyun weitere szenariobasierte Dienste kommerzialisieren, wie z. B. das Training und Denken großer Sprachmodelle sowie Lastausgleichsdienste auf Basis textbasierter Generierung, und kann seinen Kunden auch eine Plattform zur Planung der KI-Rechenleistung bieten . Bequeme Vorgänge wie Ein-Klick-Bereitstellung, Ein-Klick-Erweiterung und Ein-Klick-Lastausgleich. Im Hinblick auf den Lastausgleich, insbesondere im Netzwerk, im öffentlichen Netzwerk und in der Computerinfrastruktur, können eine Bereitstellung auf zweiter Ebene und eine Kapazitätserweiterung auf zweiter Ebene erreicht werden.
Abschließend kann Qingyun auf der Grundlage der oben genannten drei Fähigkeiten die Datenverarbeitung in verschiedenen Branchen unterstützen, darunter Hochleistungsrechnen, Datenverarbeitung mit künstlicher Intelligenz und allgemeinen Computermodellen, und so eine einheitliche Benutzerverwaltungs-, Vertriebs- und Betriebsplattform mit unabhängiger Innovation und vollständigen Funktionen für Kunden schaffen. .
Neun Fähigkeiten, um die Freiheit der KI-Rechenleistung freizuschalten
Durch jahrelange Branchenakkumulation hat die Qingyun AI-Rechenleistungsplanungsplattform neun Schlüsselfunktionen entwickelt:
1. Multiregionale und unternehmensübergreifende Ressourcenintegrationsfunktionen
Insbesondere für die Diversifizierung von Rechenleistungsdiensten in westlichen Sichuan- oder Nordwestregionen. Bei der Bereitstellung von Rechenleistungsdiensten für die östliche Region, wissenschaftliche Forschungseinrichtungen und Universitäten kann Qingyun Ressourcen in mehreren Regionen zentral verwalten und durch Zusammenarbeit effektive Hochgeschwindigkeitsnetzwerke aufbauen mit Telekommunikationsbetreibern.
2. Verteilte Planungs- und Verwaltungsfunktionen
Nach dem Prinzip der Nahnutzung verwaltet und weist Qingyun die gesamte Infrastruktur (einschließlich Rechenressourcen und Speicherressourcen) in verschiedenen Regionen, Rechenzentren und Rechenzentren zu und konfiguriert Planungsprioritäten, einschließlich Affinität und Nicht-Affinität. Auf VMs, Hosts und Bare-Metal-Servern (einschließlich Containern, die auf Containern und Pods basieren) kann die Konfiguration von Affinitäts- und Nicht-Affinitätsdaten auf der Verwaltungsseite der Qingyun AI-Rechenleistungsplanungsplattform durchgeführt werden, um die Priorität der Datenplanung sicherzustellen Der Zweck besteht darin, sicherzustellen, dass Benutzer eine konsistente Erfahrung bei der endgültigen Verwendung von Daten, der Anwendung von Computerressourcen, der Geschäftsschulung und dem geschäftlichen Denken erhalten.
3. Ressourcenplanungsfunktion
In Bezug auf die Ressourcenplanungsfunktionen bietet Qingyun die folgenden sechs Hauptvorteile:
1) Planen und erweitern Sie sofort die Ressourcen von Zehntausenden Karten
Hauptsächlich auf KI-Computing-Szenarien ausgerichtet, insbesondere auf große Modellinferenzen, die mehrmals im Jahr eine Inferenz erfordern, was den Aufbau einer Trainingsplattform mit Dutzenden oder sogar Zehntausenden von Karten im Handumdrehen erfordert. Basierend auf dieser Anforderung kann die Qingyun AI-Rechenleistungsplanungsplattform integriert, angepasst und ressourcenverwaltet werden, um sicherzustellen, dass der Rechenleistungscluster die Ressourcen von Zehntausenden Karten sofort unterstützen und sofort nach der Verwendung freigegeben werden kann. In Bezug auf die Ressourcenumgebung und -konfiguration hat die Qingyun AI-Rechenleistungsplanungsplattform einen großen Teil der Automatisierung vorgenommen, um sicherzustellen, dass Wanka-Ressourcen einheitlich geplant werden können.
2) Kommunikationsverbindung mit kürzester Prioritätsplanung
Um zu verhindern, dass Daten umgeleitet werden, ist dies auch der Hauptzweck der Qingyun AI-Rechenleistungsplanungsplattform. In den Szenarien des KI-Trainings und der KI-Inferenz wird es eine große Menge an Dateninteraktionen zwischen Knoten sowie zwischen Knoten und Speicher geben. In diesem Fall führt Qingyun einige Konfigurationen auf dem Switch gleichzeitig durch, um sicherzustellen, dass Rechen- und Speicherressourcen verfügbar sind Priorisieren Sie die Planung innerhalb eines Computerraums oder -schranks, um zu verhindern, dass Daten umgeleitet werden, und um die Einschränkungen einer schwierigen Netzwerkübertragung während des KI-Trainings zu verringern.
3) Unterstützen Sie heterogene Plattformen
Benutzer können beim Aufbau eines Clusters verschiedene Dienste auswählen, die auf verschiedenen Karten ausgeführt werden sollen. Qingyun Technology führte auch die inländische Anpassung und den inländischen Austausch der Chips durch. 4) Verbessern Sie die Granularität des Planungssystems
Das erste ist ein auf Slurm basierendes Planungssystem und das zweite ist ein auf K8s basierendes Planungssystem. In Bezug auf die Granularität des Planungssystems können Benutzer die tatsächliche Genauigkeit auf Jobebene erkennen. Wenn jede Trainingsaufgabe in jedem Prozess auf jeder Karte ausgeführt wird, kann sie durch umfangreiche Datenüberwachung, Geschäftsplanung usw. implementiert werden von Jobanomalien stellt sicher, dass Benutzer ungewöhnliche Situationen bei Schulungsaufgaben rechtzeitig bewältigen können, um die Ressourcenplanung zu maximieren und Verschwendung auf dieser Ebene zu reduzieren. Wenn etwas nicht stimmt, ändern Sie es sofort und führen Sie es sofort aus.
5) Die Managementseite implementiert die Planungsprioritätskonfiguration
Da verschiedene Rechenzentren unterschiedliche Rechenleistungsdienste betreiben, insbesondere bei mehreren Rechenzentren, können Benutzer die Planung über die Qingyun AI-Rechenleistungsplanungsplattform priorisieren. Alle sind in der Frühphase integriert, und Benutzer können dies auch tun Einstellungen wie Aufbewahrung, Pause, Fortsetzen, Prioritätseinstellung, Warteschlange usw. können die Priorität erhöhen. Auf der Managementebene kann Qingyun die Ressourcenzuteilung für Benutzer priorisieren, die sich für spezielle Anwendungen bewerben, oder für Benutzer mit hoher Priorität.
6) Flexible Planung und Zuweisung von Ressourcen für die intelligente Computerbranche
Qingyun kann Ressourcen dynamisch und flexibel planen und konfigurieren, um anspruchsvolle Prioritäten in KI-Systemen zu lösen. Aus diesem Grund entdeckt Qingyun weiterhin neue Probleme bei der KI-Planung der Rechenleistung oder KI-Szenarien, nutzt die Plattform ständig zur Lösung neuer Probleme und nutzt neue Produkte zur Lösung einiger wichtiger Probleme in der Branche.
4. Hochgeschwindigkeits-Parallelspeicherfähigkeit
Die Computer- und Speicherprodukte von Qingyun sind vielfältig und vielfältig und bieten die folgenden drei Arten von Speicher:
1) Qingyun U10000 Objektspeicher
Speichermodelle, Codes und häufig verwendete Datenaufrufe, hauptsächlich für umfangreiche Datensicherungs- und Datenlesevorgänge.
2) Parallele Dateispeicherung EPFS
In Bezug auf das parallele Schreiben von Daten in großem Maßstab bietet Qingyun den parallelen Dateispeicher EPFS an, der hauptsächlich parallelen All-Flash-Dateispeicher für Datenschreibvorgänge auf MPI-Ebene bereitstellt.
3) Dateispeicher NAS
Sie können einige gängige Dokumente, Texte usw. speichern. Alle Speicherprodukte von Qingyun können intern mit seinen eigenen Computerprodukten verbunden werden, um Datenübertragung, Verteilung, Sicherung usw. im internen Hochgeschwindigkeitsnetzwerk durchzuführen.
5. Hybride Netzwerkfähigkeit
Für verschiedene Computerszenarien können verschiedene Hochgeschwindigkeitsnetzwerke bereitgestellt werden, z. B. ein Computer-IB-Netzwerk und ein Speicher-IB-Netzwerk. Wie können diese optimal konfiguriert werden?
Qingyun verbindet Computerprodukte mit hoher Konfiguration und Speicherprodukte mit hoher Konfiguration sowie Produkte mit mittlerer und niedriger Konfiguration für Trainingsszenarien, Inferenzszenarien und allgemeine Anwendungsdienstszenarien.
6. Funktionen zur Unterstützung der Algorithmenentwicklung
Für Algorithmusentwickler bietet Qingyun umfassendere Cloud-Service-Produkte. Insbesondere in der Algorithmusentwicklungsphase sind aufgrund der Vorgänge in und außerhalb der Cloud umfangreiche Parameteranpassungen und das Schreiben von Code erforderlich. Es kann zu größeren Problemen kommen. Das Hochladen, Herunterladen oder Kopieren von Code ist nicht für die Online-Bearbeitung und den sofortigen Betrieb geeignet.
Daher bietet Qingyun eine Algorithmenentwicklungsplattform im Hinblick auf die Algorithmenentwicklung. Es kann eine Online-Entwicklungsumgebung basierend auf Cloud-Diensten starten, Python-Projekte und VC-Projekte vollständig erstellen und Projektdateien und Engineering-Umgebungen online verwenden, um Code-Recherche und -Entwicklung durchzuführen.
Wenn während des Entwicklungsprozesses ein Debugging erforderlich ist, kann er sofort erweitert werden. Wenn eine Schulung erforderlich ist, kann die Jobaufgabe sofort dem Schulungscluster zugewiesen werden. Wenn eine Inferenz erforderlich ist, kann sie auf dem Inferenzcluster platziert werden .
Gleichzeitig kann es während des Algorithmusentwicklungsprozesses zu einigen Formen der gemeinsamen Entwicklung oder gemischten Entwicklung kommen. Außerdem stellt Qingyun Code-Warehouses und Mirror-Warehouses für die Modellverwaltung bereit. Verschiedene Mitarbeiter verwenden unterschiedliche Berechtigungen, um eine einheitliche Algorithmusentwicklung und Servicezusammenführung durchzuführen .
Kurz gesagt, Qingyun bietet hauptsächlich Computerprodukte und Planungsprodukte für alle Entwicklungsszenarien für Algorithmusentwickler an, um sicherzustellen, dass das gesamte Algorithmusentwicklungsgeschäft effektiv in der Cloud betrieben werden kann, und um umfangreiche Upload- und Download-Vorgänge zu reduzieren.
7. KI-Trainingsplattform
Wenn die Algorithmusentwicklung kurz vor dem Abschluss steht oder ein Debugging erforderlich ist, muss eine große Menge an Rechenleistungsinfrastruktur für die Entwicklung und Schulung aktiviert werden. Basierend auf der Infrastruktur stellt Qingyun eine KI-Trainingsplattform zur Verfügung, um Benutzer zu befähigen.
Nachdem die GPU-Ressourcen, Speicherressourcen und Netzwerkressourcen erstellt wurden, können Benutzer unabhängig über die Cloud-Plattform erstellen und eine Ein-Klick-Bedienung erreichen. Die Qingyun-KI-Trainingsplattform baut Cluster hauptsächlich online auf der Grundlage ihrer eigenen GPU-Ressourcen auf. Nach Abschluss der Konstruktion wird standardmäßig ein bestimmter Speicher bereitgestellt, den Benutzer selbst auswählen können.
Die Qingyun-KI-Trainingsplattform wird auch über eine integrierte Online-Entwicklungsumgebung verfügen. Einige häufig verwendete Trainings-Frameworks werden ebenfalls in die Entwicklungsumgebung integriert. Sie stellt Benutzern vollständige Szenarien und vollständige Anwendungsumgebungen über Cluster zur Verfügung, sodass Benutzer verteilt arbeiten können Online-Training an mehreren Maschinen.
8. Container-Inferenzdienstplattform Nachdem das große Modelltraining fast abgeschlossen ist, kann die Qingyun-Container-Inferenzdienstplattform eine Rolle bei der Bereitstellung von Inferenzdiensten für die Öffentlichkeit spielen.
Über die Qingyun-Container-Inferenzdienstplattform können Benutzer, nachdem sie den Inferenzdienst bereitgestellt haben, den konfigurierten Lastausgleich und die automatische Skalierung verwenden, um sicherzustellen, dass Benutzerbesuche sofort aufgerufen werden können. Gleichzeitig bietet Qingyun seinen Kunden Online-Überwachungsdienste an. Wenn es ein Problem mit dem Inferenzdienst gibt, können Benutzer sofort überwachen, was bei der Container-Inferenz schief gelaufen ist, und Qingyun kann es online lösen. Für gleichzeitige Vorgänge und umfangreiche Anrufvorgänge kann Qingyun auch einen Lastausgleich und eine automatische Skalierung durchführen, wodurch manuelle Konfigurationsvorgänge erheblich reduziert werden.
9. Model Warehouse (MaaS)
Qingyun Model Warehouse (MaaS) richtet sich hauptsächlich an Kunden von KI-Rechenleistungsdiensten und allgemeine Computerdienstleister können Produkte entsprechend ihren eigenen Modellanforderungen auf den Anwendungs- und Modellmarkt bringen, was es für Kunden verschiedener Unternehmen bequem macht Rufen Sie es auf und verwenden Sie es mit einem Klick. Feinabstimmung und Ein-Klick-Bereitstellung.
Drei: Stimulieren Sie vielfältige Werte und beschleunigen Sie die Umsetzung von Szenarien
Im Allgemeinen besteht der Zweck der KI-Rechenleistungsplanungsplattform von Qingyun darin, die KI-Infrastruktur wie lokale Ressourcen zu verwalten, was sich hauptsächlich in fünf Hauptaspekten widerspiegelt:
1. Sorgen Sie für eine einheitliche Planung mehrerer Rechenleistungen
Angesichts von GPU-Ressourcen, CPU-Ressourcen, inländischen Chips, Anwendungsframeworks, Anwendungen und Benutzergeschäftsszenarien verwendet Qingyun eine einheitliche Plattform für Planung und Verwaltung, einschließlich Speichereinrichtungen und Netzwerkeinrichtungen.
2. Realisieren Sie eine intelligente Rechenleistungsplanung basierend auf der Infrastruktur
In Bezug auf die Priorität und Affinität der Rechenleistungsplanung, basierend auf VM, Host und Container, können Benutzer über die Plattform von Qingyun eine intelligente Planung und Konfiguration der Rechenleistung sowie Verwaltungsdienste realisieren.
3. Schnelle und effektive Anpassung an inländische Chips, wodurch sichergestellt wird, dass lokalisierte Algorithmusdienste und lokalisierte Codes sofort auf inländischen Chips ausgeführt werden können.
4. Visualisierungsservice
Im Hinblick auf intelligenten Betrieb und Wartung für die Managementseite bieten die Überwachungs- und Alarmdienste von Qingyun Kunden und Administratoren visuelle Abläufe über eine große Betriebs- und Wartungsplattform.
5. Reichhaltiger Anwendungsmarkt
Qingyun Technology baut aktiv ein Ökosystem auf und schafft einen reichhaltigen Anwendungsmarkt, damit Anwendungen und Kunden aus allen Lebensbereichen auf der Qingyun AI-Computing-Plattform die gewünschten Computerressourcen und Geschäftsressourcen erhalten können.
Derzeit ist die Qingyun AI-Rechenleistungsplanungsplattform in Jinan-Supercomputing-Anwendungen implementiert, und Sunward Cloud ist online, um Betriebsdienste bereitzustellen. Basierend auf der Zehntausenden Supercomputing-Hardware-Infrastruktur, verschiedenen Computernetzwerken, Servern usw. von Jinan bietet Qingyun Auflistungs-, Verwaltungs- und Planungsdienste an, führt eine einheitliche Verwaltung, Integration, Verwaltung und Verteilung durch und stellt Produkte zur Rechenleistungsplanung und Datenverarbeitung bereit Power-Cloud-Serviceprodukte für Kunden aus allen Gesellschaftsschichten.
Qingyun KI-Rechenleistungs-Cloud-Dienst
Qingyun AI Computing Power Cloud Service-Produkte werden auch in der öffentlichen Cloud von Qingyun eingeführt, um Dienste bereitzustellen, hauptsächlich für große Modelltrainingsszenarien.
Für Karten mit relativ hoher Priorität und hoher Konfiguration bietet Qingyun öffentliche Cloud-Computing-Serviceprodukte an. Im KI-Szenario baut Qingyun verteilte GPU-Computing-Cluster mit zugrunde liegenden Ressourcen auf, bindet sie an die öffentliche Netzwerkumgebung und ermöglicht Benutzern den Zugriff .
Benutzer können auf dieser Grundlage Daten in den parallelen Dateispeicher hochladen oder parallele Dateispeicher- und GPU-Computing-Cluster in dasselbe Netzwerk integrieren, um die Datensicherheit und die Sicherheit von Cloud-Diensten über ein privates Netzwerk zu gewährleisten. Sie können Ihr Unternehmen auch durch Online-Schulungen und Remote-SSH-Zugriff auf verteilte Computercluster und parallele Dateispeicherung führen.
In geschäftlicher Hinsicht können Benutzer KI-Computing-Cluster und Container-Inferenzdienste nutzen, und ihre Infrastruktur besteht aus A800-Ressourcen, Bare-Metal-Servern und virtualisierten Servern. Alle Cloud-Serviceprodukte für KI-Rechenleistung von Qingyun nutzen miteinander verbundene Hochgeschwindigkeitsnetzwerke und übernehmen die von der KI-Rechenleistungsbranche geforderte Online-Umgebung, Entwicklungsumgebung, Schulungs- und Argumentationsumgebung. Jeder ist herzlich eingeladen, sich für eine Registrierung und Testversion zu bewerben.
Das obige ist der detaillierte Inhalt vonAusführliche Erläuterung der Einführung von KI-Rechenleistungsprodukten und -diensten durch Qingyun Technology zur Bewältigung von Rechenleistungsherausforderungen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!