Im Kontext von AVX2 ist die Funktion __m256d _mm256_log2_pd (__m256d a) von Intel nicht mit anderen Compilern außer Intel und kompatibel weist Berichten zufolge eine verringerte Leistung auf AMD-Prozessoren auf. Um dieses Problem anzugehen, untersuchen wir eine alternative Implementierung, die Effizienz und umfassende Kompatibilität bietet.
Typischerweise wird log2(ab) als log2(a) log2 berechnet (B). Da a durch eine 2^Exponent Mantisse dargestellt wird, vereinfacht sich die Berechnung zum Exponenten log2(Mantisse). Der begrenzte Mantissenbereich (1,0 bis 2,0) ermöglicht eine maßgeschneiderte Polynomnäherung zur Berechnung von log2(Mantisse).
Taylor-Reihenentwicklungen werden üblicherweise als Ausgangspunkte für Koeffizienten verwendet, aber Zur Minimierung von Fehlern im Zielbereich wird eine Minimax-Anpassung empfohlen. Für eine höhere Genauigkeit um Werte nahe 1,0 kann Mantisse-1,0 als Polynomeingabe verwendet werden, wodurch die Notwendigkeit eines konstanten Termes entfällt.
Der gewünschte Genauigkeitsgrad beeinflusst die Implementierungsauswahl . Eine höhere Genauigkeit geht aufgrund zusätzlicher Rechenschritte typischerweise auf Kosten der Geschwindigkeit. Die VCL-Bibliothek von Agner Fog bietet hochpräzise Funktionen, verwendet jedoch komplexe Techniken, die möglicherweise nicht für alle Anwendungen unbedingt erforderlich sind.
Die log2-Funktion von VCL umfasst die folgenden Schritte:
Um die Genauigkeit zu verbessern:
Um die Geschwindigkeit zu optimieren:
Das obige ist der detaillierte Inhalt vonWie implementiert man log2(__m256d) effizient in AVX2 ohne die Compiler-Abhängigkeiten von Intel?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!