AVX2에서 log2(__m256d)의 효율적인 구현
소개
내장 __m256d _mm256_log2_pd (__m256d a)는 Intel 컴파일러 이상으로 지원되지 않으며 AMD 프로세서에서는 성능이 저하됩니다. 이 문서의 목적은 AVX2 명령어 세트를 사용하여 복식 벡터에 대한 log2()를 계산하기 위한 성능이 뛰어난 크로스 컴파일러 솔루션을 제공하는 것입니다.
접근 방식
일반적인 방법은 다음과 같습니다. log(a*b)를 log(a) log(b)로 나누고 지수 편향을 조정합니다. log2의 경우 결과는 지수 log2(가수)와 동일합니다. 가수 범위(1.0~2.0)가 제한되어 있으므로 log2(가수)에 대한 다항식 근사를 사용할 수 있습니다.
정확도 고려 사항
근사 정확도가 영향을 미칩니다. 상대 오류. 최대 절대 또는 상대 오차를 최소화하려면 단순히 Taylor 계열 확장을 사용하는 것이 아니라 Minimax 피팅을 통해 계수를 조정해야 합니다.
벡터화
AVX2 명령어를 활용하려면 벡터 처리를 위해 설정된 경우 다음 단계가 구현됩니다.
성능 향상
성능을 향상하려면:
구현
아래 구현에서는 벡터화를 위한 내장 함수와 효율적인 곱셈과 덧셈을 위한 FMA 명령어를 사용합니다.
__m256d Log2(__m256d x) { // Extract exponent and adjust bias const __m256i exps64 = _mm256_srli_epi64(_mm256_and_si256(gDoubleExpMask, _mm256_castpd_si256(x)), 52); const __m256i exps32_avx = _mm256_permutevar8x32_epi32(exps64, gTo32bitExp); const __m128i exps32_sse = _mm256_castsi256_si128(exps32_avx); const __m128i normExps = _mm_sub_epi32(exps32_sse, gExpNormalizer); const __m256d expsPD = _mm256_cvtepi32_pd(normExps); // Prepare mantissa const __m256d y = _mm256_or_pd(_mm256_castsi256_pd(gDoubleExp0), _mm256_andnot_pd(_mm256_castsi256_pd(gDoubleExpMask), x)); // Calculate t=(y-1)/(y+1) and t**2 const __m256d tNum = _mm256_sub_pd(y, gVect1); const __m256d tDen = _mm256_add_pd(y, gVect1); const __m256d t = _mm256_div_pd(tNum, tDen); const __m256d t2 = _mm256_mul_pd(t, t); // t**2 // Calculate terms and final log2 const __m256d t3 = _mm256_mul_pd(t, t2); // t**3 const __m256d terms01 = _mm256_fmadd_pd(gCoeff1, t3, t); const __m256d t5 = _mm256_mul_pd(t3, t2); // t**5 const __m256d terms012 = _mm256_fmadd_pd(gCoeff2, t5, terms01); const __m256d t7 = _mm256_mul_pd(t5, t2); // t**7 const __m256d terms0123 = _mm256_fmadd_pd(gCoeff3, t7, terms012); const __m256d t9 = _mm256_mul_pd(t7, t2); // t**9 const __m256d terms01234 = _mm256_fmadd_pd(gCoeff4, t9, terms0123); const __m256d log2_y = _mm256_mul_pd(terms01234, gCommMul); const __m256d log2_x = _mm256_add_pd(log2_y, expsPD); return log2_x; }
결론
이 구현은 효율적이고 AVX2를 사용한 log2() 계산을 위한 휴대용 솔루션입니다. 속도와 정확성을 모두 최적화함으로써 내장 기능에 대한 크로스 컴파일러 대안을 제공하고 성능을 크게 향상시킬 수 있습니다.
위 내용은 AVX2에서 log2(__m256d)를 효율적으로 구현하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!