Kalte Gedanken angesichts des ChatGPT-Wahnsinns: Der Energieverbrauch von KI könnte im Jahr 2025 den des Menschen übersteigen, und KI-Computing muss Qualität und Effizienz verbessern-KI-php.cn

Nach Jahren der Entwicklung erfreuen sich die von OpenAI eingeführten generativen KI-Systeme DALL-E und GPT-3 weltweit großer Beliebtheit und unterstreichen derzeit ihr erstaunliches Anwendungspotenzial. Allerdings gibt es bei dieser Explosion generativer KI ein Problem: Jedes Mal, wenn DALL-E ein Bild erstellt oder GPT-3 das nächste Wort vorhersagt, sind mehrere Inferenzberechnungen erforderlich, was viele Ressourcen und mehr Strom verbraucht. Aktuelle GPU- und CPU-Architekturen können nicht effizient arbeiten, um die bevorstehenden Rechenanforderungen zu erfüllen, was die Betreiber von Hyperscale-Rechenzentren vor große Herausforderungen stellt.

Kalte Gedanken angesichts des ChatGPT-Wahnsinns: Der Energieverbrauch von KI könnte im Jahr 2025 den des Menschen übersteigen, und KI-Computing muss Qualität und Effizienz verbessern

Forschungsinstitute gehen davon aus, dass Rechenzentren zu den weltweit größten Energieverbrauchern geworden sind und 4,5 % des gesamten Stromverbrauchs ausmachen, von 3 % im Jahr 2017 bis 2025. Am Beispiel Chinas wird erwartet, dass der Stromverbrauch landesweit betriebener Rechenzentren im Jahr 2030 400 Milliarden kWh übersteigen wird, was 4 % des gesamten Stromverbrauchs des Landes ausmacht.

Cloud-Computing-Anbieter sind sich auch darüber im Klaren, dass ihre Rechenzentren große Mengen Strom verbrauchen, und haben Maßnahmen zur Verbesserung der Effizienz ergriffen, beispielsweise durch den Bau und Betrieb von Rechenzentren in der Arktis, um erneuerbare Energien und natürliche Kühlbedingungen zu nutzen. Dies reicht jedoch nicht aus, um dem explosionsartigen Wachstum von KI-Anwendungen gerecht zu werden.

Das Lawrence Berkeley National Laboratory in den Vereinigten Staaten hat in einer Untersuchung herausgefunden, dass Verbesserungen der Rechenzentrumseffizienz das Wachstum des Energieverbrauchs in den letzten 20 Jahren kontrolliert haben, aber Untersuchungen zeigen, dass aktuelle Energieeffizienzmaßnahmen möglicherweise nicht ausreichen, um zukünftige Rechenzentren zu erfüllen Bedürfnisse, daher ist ein besserer Ansatz erforderlich.

Datenübertragung ist ein fataler Engpass

Die Wurzel der Effizienz liegt in der Art und Weise, wie GPU und CPU funktionieren, insbesondere bei der Ausführung von KI-Inferenzmodellen und Trainingsmodellen. Viele Menschen verstehen „Jenseits des Mooreschen Gesetzes“ und die physikalischen Einschränkungen, die sich aus der Unterbringung von mehr Transistoren auf größeren Chips ergeben. Fortgeschrittenere Chips helfen bei der Lösung dieser Herausforderungen, aber aktuelle Lösungen weisen eine entscheidende Schwäche bei der KI-Inferenz auf: die deutlich verringerte Geschwindigkeit, mit der Daten im Arbeitsspeicher übertragen werden können.

Traditionell war es günstiger, den Prozessor und die Speicherchips zu trennen, und jahrelang war die Taktrate des Prozessors der entscheidende limitierende Faktor für die Computerleistung. Was heute den Fortschritt bremst, ist die Verbindung zwischen Chips.

Jeff Shainline, Forscher am National Institute of Standards and Technology (NIST), erklärte: „Wenn Speicher und Prozessor getrennt werden, wird die Kommunikationsverbindung, die die beiden Domänen verbindet, zum Hauptengpass des Systems.“ Professor Jack Dongarra brachte es auf den Punkt: „Wenn wir uns die Leistung heutiger Computer ansehen, stellen wir fest, dass die Datenübertragung der fatale Engpass ist.“ Systeme verwenden beim Training von KI-Modellen unterschiedliche Berechnungsarten. Das KI-Training lädt Zehntausende Bild- oder Textbeispiele als Referenz in ein Transformer-basiertes Modell und beginnt dann mit der Verarbeitung. Tausende Kerne in einer GPU verarbeiten große, umfangreiche Datensätze wie Bilder oder Videos sehr effizient. Wenn Sie schnellere Ergebnisse benötigen, können Sie weitere cloudbasierte GPUs mieten.

Obwohl KI-Inferenz weniger Energie für die Durchführung von Berechnungen benötigt, sind bei der automatischen Vervollständigung von Hunderten Millionen Benutzern viele Berechnungen und Vorhersagen erforderlich, um zu entscheiden, was das nächste Wort ist, was teurer ist als langfristiges Training Viel Energie.

Zum Beispiel beobachten die KI-Systeme von Facebook jeden Tag Billionen von Schlussfolgerungen in ihren Rechenzentren, eine Zahl, die sich in den letzten drei Jahren mehr als verdoppelt hat. Untersuchungen haben ergeben, dass die Ausführung der Sprachübersetzungsinferenz auf einem großen Sprachmodell (LLM) zwei- bis dreimal mehr Energie verbraucht als das anfängliche Training.

Kalte Gedanken angesichts des ChatGPT-Wahnsinns: Der Energieverbrauch von KI könnte im Jahr 2025 den des Menschen übersteigen, und KI-Computing muss Qualität und Effizienz verbessern

Der Anstieg der Nachfrage stellt die Rechenleistung auf die Probe.

ChatGPT wurde Ende letzten Jahres weltweit populär, und GPT-4 ist noch beeindruckender. Wenn energieeffizientere Methoden eingesetzt werden können, kann die KI-Inferenz auf eine breitere Palette von Geräten ausgeweitet werden und neue Rechenmethoden schaffen.

Zum Beispiel ist Microsofts Hybrid Loop darauf ausgelegt, KI-Erlebnisse zu schaffen, die Cloud Computing und Edge-Geräte dynamisch nutzen. Dadurch können Entwickler späte Bindungsentscheidungen treffen, wenn sie KI-Inferenz auf der Azure-Cloud-Plattform, lokalen Client-Computern oder mobilen Geräten ausführen. um die Effizienz zu maximieren. Facebook hat AutoScale eingeführt, um Benutzern bei der effizienten Entscheidung zu helfen, wo zur Laufzeit Inferenzen berechnet werden sollen.Um die Effizienz zu verbessern, ist es notwendig, die Hindernisse zu überwinden, die die Entwicklung von KI behindern, und wirksame Methoden zu finden.

Sampling und Pipelining können Deep Learning beschleunigen, indem sie die Menge der verarbeiteten Daten reduzieren. SALIENT (für Sampling, Slicing, and Data Movement) ist ein neuer Ansatz, der von Forschern am MIT und IBM entwickelt wurde, um kritische Engpässe zu beheben. Dieser Ansatz kann die Notwendigkeit, neuronale Netze für große Datensätze mit 100 Millionen Knoten und 1 Milliarde Kanten auszuführen, erheblich reduzieren. Aber es wirkt sich auch auf die Genauigkeit und Präzision aus – was für die Auswahl des als nächstes angezeigten Social-Media-Beitrags akzeptabel ist, nicht jedoch, wenn versucht wird, unsichere Bedingungen auf einer Baustelle nahezu in Echtzeit zu erkennen.

Technologieunternehmen wie Apple, Nvidia, Intel und AMD haben die Integration dedizierter KI-Engines in Prozessoren angekündigt, und AWS entwickelt sogar einen neuen Inferentia 2-Prozessor. Diese Lösungen nutzen jedoch immer noch die traditionelle Von-Neumann-Prozessorarchitektur, integriertes SRAM und externen DRAM-Speicher – die alle mehr Leistung erfordern, um Daten in den Speicher und aus dem Speicher zu verschieben.

In-Memory-Computing könnte die Lösung sein

Darüber hinaus haben Forscher einen weiteren Weg entdeckt, die „Memory Wall“ zu durchbrechen, nämlich das Computing näher an den Speicher heranzuführen.

Die Speicherwand bezieht sich auf die physische Barriere, die die Geschwindigkeit des Ein- und Austritts von Daten in den Speicher begrenzt. Dies ist eine grundlegende Einschränkung der traditionellen Architektur. In-Memory Computing (IMC) löst diese Herausforderung, indem es KI-Matrixberechnungen direkt im Speichermodul ausführt und so den Aufwand für das Senden von Daten über den Speicherbus vermeidet.

IMC eignet sich für KI-Inferenz, da es sich um einen relativ statischen, aber großen gewichteten Datensatz handelt, auf den wiederholt zugegriffen werden kann. Während immer Daten eingegeben und ausgegeben werden, eliminiert KI einen Großteil des Energieübertragungsaufwands und der Latenz der Datenbewegung, indem die Daten in derselben physischen Einheit gehalten werden, sodass sie effizient verwendet und für mehrere Berechnungen wiederverwendet werden können.

Dieser Ansatz verbessert die Skalierbarkeit, da er gut mit Chipdesigns funktioniert. Mit dem neuen Chip kann die KI-Inferenztechnologie auf den Computern der Entwickler getestet und dann über Rechenzentren in Produktionsumgebungen bereitgestellt werden. Rechenzentren können eine große Geräteflotte mit vielen Chipprozessoren nutzen, um KI-Modelle auf Unternehmensebene effizient auszuführen.

Es wird erwartet, dass IMC mit der Zeit zur dominierenden Architektur für KI-Inferenz-Anwendungsfälle wird. Dies ist durchaus sinnvoll, wenn Benutzer mit riesigen Datensätzen und Billionen von Berechnungen arbeiten. Denn durch die Übertragung von Daten zwischen Speicherwänden werden keine Ressourcen mehr verschwendet und dieser Ansatz lässt sich leicht skalieren, um langfristige Anforderungen zu erfüllen.

Zusammenfassung:

Die KI-Branche steht derzeit an einem spannenden Wendepunkt. Technologische Fortschritte in den Bereichen generative KI, Bilderkennung und Datenanalyse offenbaren einzigartige Verbindungen und Einsatzmöglichkeiten für maschinelles Lernen. Zunächst muss jedoch eine Technologielösung entwickelt werden, die diesen Bedarf decken kann. Denn laut Gartner-Prognosen wird KI bis 2025 mehr Energie verbrauchen als menschliche Aktivitäten, wenn nicht jetzt nachhaltigere Optionen bereitgestellt werden. Bevor das passiert, muss ein besserer Weg gefunden werden!

Das obige ist der detaillierte Inhalt vonKalte Gedanken angesichts des ChatGPT-Wahnsinns: Der Energieverbrauch von KI könnte im Jahr 2025 den des Menschen übersteigen, und KI-Computing muss Qualität und Effizienz verbessern. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!