Heim > Technologie-Peripheriegeräte > KI > Einfacher und effizienter Transformator (Online-Inferenz-Engine für ultragroße Modelle von NetEase)

Einfacher und effizienter Transformator (Online-Inferenz-Engine für ultragroße Modelle von NetEase)

王林
Freigeben: 2024-01-24 10:45:05
nach vorne
439 Leute haben es durchsucht

Easy and Efficient Transformer(网易超大模型线上推理引擎)

Das Open-Source-Inferenzbeschleunigungs-Framework von NetEase für transformatorbasierte Modelle unterstützt die leistungsstarke Single-Card-Inferenz von zig Milliarden Modellen auf der Ampere-Architektur des mittleren bis unteren Preissegments.

Projekthintergrund

Transformatorbasierte Großmodelle haben sich bei vielfältigen Aufgaben in vielen Bereichen bewährt. Die Anwendung auf die industrielle Produktion erfordert jedoch einen erheblichen Aufwand, um die Inferenzkosten zu senken. Um diese Lücke zu schließen, schlagen wir eine skalierbare Inferenzlösung vor: Easy and Efficient Transformer (EET). EET ist ein System, das eine Reihe von Transformer-Argumentationsoptimierungen auf Algorithmus- und Implementierungsebene umfasst. Durch die Optimierung der Berechnungs- und Datenprozesse von Transformer kann EET die Inferenzkosten erheblich senken und die Effizienz und Leistung des Modells verbessern. Unsere experimentellen Ergebnisse zeigen, dass EET die Inferenzgeschwindigkeit und Ressourcennutzung erheblich verbessern kann, ohne die Modellgenauigkeit zu verlieren, und eine einfache und effektive Lösung für groß angelegte Modellanwendungen in der industriellen Produktion darstellt.

Zuerst haben wir einen hochoptimierten Kernel für lange Eingaben und große versteckte Größen entworfen.

Darüber hinaus schlagen wir einen flexiblen CUDA-Speichermanager vor, um den Speicherbedarf bei der Bereitstellung großer Modelle zu reduzieren. Im Vergleich zur hochmodernen Transformer-Inferenzbibliothek (Faster Transformer v4.0) ist EET in der Lage, auf der A100-GPU eine durchschnittliche 1,40- bis 4,20-fache Beschleunigung der Decodierungsebene zu erreichen.

Papieradresse

https://arxiv.org/abs/2104.12470

Github-Adresse

https://github.com/NetEase-FuXi/EET

Das obige ist der detaillierte Inhalt vonEinfacher und effizienter Transformator (Online-Inferenz-Engine für ultragroße Modelle von NetEase). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:163.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage