Wie implementiert man log2(__m256d) effizient in AVX2 ohne die Compiler-Abhängigkeiten von Intel?-C++-php.cn

Wie implementiert man log2(__m256d) effizient in AVX2 ohne die Compiler-Abhängigkeiten von Intel?

Patricia Arquette

Freigeben： 2024-12-15 12:03:10

Original

948 Leute haben es durchsucht

How to Efficiently Implement log2(__m256d) in AVX2 without Intel's Compiler Dependencies?

Effiziente Implementierung von log2(__m256d) in AVX2

Im Kontext von AVX2 ist die Funktion __m256d _mm256_log2_pd (__m256d a) von Intel nicht mit anderen Compilern außer Intel und kompatibel weist Berichten zufolge eine verringerte Leistung auf AMD-Prozessoren auf. Um dieses Problem anzugehen, untersuchen wir eine alternative Implementierung, die Effizienz und umfassende Kompatibilität bietet.

Strategien für die log2-Approximation

Typischerweise wird log2(ab) als log2(a) log2 berechnet (B). Da a durch eine 2^Exponent Mantisse dargestellt wird, vereinfacht sich die Berechnung zum Exponenten log2(Mantisse). Der begrenzte Mantissenbereich (1,0 bis 2,0) ermöglicht eine maßgeschneiderte Polynomnäherung zur Berechnung von log2(Mantisse).

Polynomnäherung

Taylor-Reihenentwicklungen werden üblicherweise als Ausgangspunkte für Koeffizienten verwendet, aber Zur Minimierung von Fehlern im Zielbereich wird eine Minimax-Anpassung empfohlen. Für eine höhere Genauigkeit um Werte nahe 1,0 kann Mantisse-1,0 als Polynomeingabe verwendet werden, wodurch die Notwendigkeit eines konstanten Termes entfällt.

Überlegungen zur Genauigkeit

Der gewünschte Genauigkeitsgrad beeinflusst die Implementierungsauswahl . Eine höhere Genauigkeit geht aufgrund zusätzlicher Rechenschritte typischerweise auf Kosten der Geschwindigkeit. Die VCL-Bibliothek von Agner Fog bietet hochpräzise Funktionen, verwendet jedoch komplexe Techniken, die möglicherweise nicht für alle Anwendungen unbedingt erforderlich sind.

VCL-Algorithmus für log2

Die log2-Funktion von VCL umfasst die folgenden Schritte:

Extrahieren und Konvertieren der Exponentenbits in einen Float.
Anpassen der Mantisse zu [0,5, 1,0) oder (0,5, 1,0], gefolgt von einer Subtraktion um 1,0.
Anwenden einer polynomialen Näherung, um log(x) um x=1,0 zu berechnen, unter Verwendung eines einzelnen Polynoms 5. Ordnung ( double) oder ein Verhältnis zweier Polynome 5. Ordnung (Float).
Addieren exponent polynomial_ approx_log(mantisse), um das Endergebnis zu erhalten.

Schritte zur Verbesserung der Genauigkeit und Geschwindigkeit

Um die Genauigkeit zu verbessern:

Erwägen Sie die Verwendung eines genaueren Polynomnäherung.
Subtraktion um 1,0 vermeiden (als Mantisse belassen). - 1,0), um mögliche Präzisionsverluste zu reduzieren.

Um die Geschwindigkeit zu optimieren:

Verwenden Sie abgeschnittene Polynomnäherungen mit weniger Termen.
Verwenden Sie vektorisierte Anweisungen zur Verarbeitung mehrere Werte gleichzeitig.
Vermeiden Sie unnötige Prüfungen für Sonderfälle (z. B. Unterlauf, Überlauf, Denormal), wenn bekannt ist, dass die Eingabewerte endlich und positiv sind.

Das obige ist der detaillierte Inhalt vonWie implementiert man log2(__m256d) effizient in AVX2 ohne die Compiler-Abhängigkeiten von Intel?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!