Gemeinschaft Lernen Tools-Bibliothek Freizeit

Deutsch

Heim > Technologie-Peripheriegeräte > KI > Einfacher und effizienter Transformator (Online-Inferenz-Engine für ultragroße Modelle von NetEase)

Einfacher und effizienter Transformator (Online-Inferenz-Engine für ultragroße Modelle von NetEase)

王林

Freigeben： 2024-01-24 10:45:05

nach vorne

439 Leute haben es durchsucht

Easy and Efficient Transformer（网易超大模型线上推理引擎）

Das Open-Source-Inferenzbeschleunigungs-Framework von NetEase für transformatorbasierte Modelle unterstützt die leistungsstarke Single-Card-Inferenz von zig Milliarden Modellen auf der Ampere-Architektur des mittleren bis unteren Preissegments.

Projekthintergrund

Transformatorbasierte Großmodelle haben sich bei vielfältigen Aufgaben in vielen Bereichen bewährt. Die Anwendung auf die industrielle Produktion erfordert jedoch einen erheblichen Aufwand, um die Inferenzkosten zu senken. Um diese Lücke zu schließen, schlagen wir eine skalierbare Inferenzlösung vor: Easy and Efficient Transformer (EET). EET ist ein System, das eine Reihe von Transformer-Argumentationsoptimierungen auf Algorithmus- und Implementierungsebene umfasst. Durch die Optimierung der Berechnungs- und Datenprozesse von Transformer kann EET die Inferenzkosten erheblich senken und die Effizienz und Leistung des Modells verbessern. Unsere experimentellen Ergebnisse zeigen, dass EET die Inferenzgeschwindigkeit und Ressourcennutzung erheblich verbessern kann, ohne die Modellgenauigkeit zu verlieren, und eine einfache und effektive Lösung für groß angelegte Modellanwendungen in der industriellen Produktion darstellt.

Zuerst haben wir einen hochoptimierten Kernel für lange Eingaben und große versteckte Größen entworfen.

Darüber hinaus schlagen wir einen flexiblen CUDA-Speichermanager vor, um den Speicherbedarf bei der Bereitstellung großer Modelle zu reduzieren. Im Vergleich zur hochmodernen Transformer-Inferenzbibliothek (Faster Transformer v4.0) ist EET in der Lage, auf der A100-GPU eine durchschnittliche 1,40- bis 4,20-fache Beschleunigung der Decodierungsebene zu erreichen.

Papieradresse

https://arxiv.org/abs/2104.12470

Github-Adresse

https://github.com/NetEase-FuXi/EET

Das obige ist der detaillierte Inhalt vonEinfacher und effizienter Transformator (Online-Inferenz-Engine für ultragroße Modelle von NetEase). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten：

学术论文

Quelle：163.com

Vorheriger Artikel：Wie nutzt der Selbstaufmerksamkeitsmechanismus Zufallsstichproben, um die Trainings- und Generalisierungsfähigkeiten von Modellen der künstlichen Intelligenz zu verbessern? Nächster Artikel：Was sind die Ursprünge und Anwendungen der RLHF-Technologie in Sprachmodellen?

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Neueste Artikel des Autors

Gestalten Sie die Zukunft: Java-Programmierung für absolute Anfänger

2024-10-13 13:32:21
Sie sind nicht allein: Beherrschen Sie Python mit einer unterstützenden Community an Ihrer Seite

2024-10-12 11:58:51
Vom Anfänger zum Programmierer: Nutzen Sie die Leistungsfähigkeit der Python-Programmierung

2024-10-11 20:06:51
Denken Sie wie ein Programmierer: Erlernen der Grundlagen von Java

2024-10-11 18:59:31
Java leicht gemacht: Ein Leitfaden für Anfänger zur Programmierleistung

2024-10-11 18:30:51
Erstellen Sie einen Blog mit PHP: Ein anfängerfreundliches Projekt

2024-10-11 15:51:51
Sprechen Sie die Sprache der Systeme: Lernen Sie C, Zeile für Zeile

2024-10-11 15:42:10
Datenstrukturen und Algorithmen in C: Ein anfängerfreundlicher Ansatz

2024-10-11 14:41:20
Programmieren ohne Tränen: C auf einfache Weise lernen

2024-10-11 14:08:31
Datenanalyse mit Java: Ein Leitfaden für Anfänger zur Informationsverarbeitung

2024-10-11 13:42:21

Aktuelle Ausgaben

Gibt es eine Möglichkeit, die vertikale Zentrierung des Texts in der Flexbox zu erzwingen, unabhängig davon, welchen anderen CSS-Code wir haben? Ich habe den folgenden CSS-Code, der Teil eines größeren CSS-Codes ist, der in einer Websi...

Aus 2024-04-06 20:41:51

0

1

518

Vergleichen Sie Imagick, Adobe Photoshop und Windows – Auflösung erkennen (Pixel pro Zentimeter oder Pixel pro Zoll) Dies ist keine Frage, sondern ein Versuch, mein Verständnis darüber zu verbessern, wie DPI...

Aus 2024-04-06 16:01:27

0

1

397

So verwenden Sie @can mithilfe der Strategie korrekt in der Blade-Vorlage Ich kann @can() nicht in der Blade-Vorlage erstellen, da aus der Dokumentation hervorgeht,...

Aus 2024-04-04 13:51:55

0

1

344

Übersetzen Sie „Öffentliches Verzeichnis entfernen' im Laravel-Projekt ins Chinesische als „Öffentliches Verzeichnis entfernen' Ich mache ein Laravel-Projekt, habe aber ein großes Problem: Ich kann den Namen /public/ n...

Aus 2024-04-03 19:26:05

0

1

355

Suchen Sie nach einer effizienten Möglichkeit, eine große Anzahl wiederholter If-Anweisungsprüfungen durchzuführen Wenn ich versuche, ein Suchtool für eine Datenbank zu erstellen, die ich für meine Bachelo...

Aus 2024-04-03 19:20:08

0

1

297

verwandte Themen

Mehr>

Beliebte Empfehlungen

Beliebte Tutorials

Mehr>

Verwandte Tutorials

Beliebte Empfehlungen

Aktuelle Kurse

Neueste Downloads

Mehr>

Web-Effekte

Quellcode der Website

Website-Materialien

Frontend-Vorlage