AVX2를 사용하여 벡터화된 로그 함수를 어떻게 효율적으로 구현할 수 있습니까?-C++-php.cn

AVX2를 사용하여 벡터화된 로그 함수를 어떻게 효율적으로 구현할 수 있습니까?

Mary-Kate Olsen

풀어 주다： 2024-11-28 07:47:13

원래의

437명이 탐색했습니다.

How Can We Efficiently Implement a Vectorized Logarithm Function Using AVX2?

AVX2에서 효율적인 벡터화된 로그 구현

목표는 다음을 사용하여 4개의 배정밀도 숫자에 대한 log2 함수의 효율적인 벡터화된 버전을 구현하는 것입니다. SVML의 __m256d 성능에 필적하는 AVX2 _mm256_log2_pd (__m256d a)이지만 다른 컴파일러에서 사용할 수 있습니다.

구현 접근 방식

log2(a)의 일반적인 전략에는 지수의 합과 log2의 합을 계산하는 것이 포함됩니다. 가수는 범위가 1.0에서 2.0으로 제한되어 있습니다. 이를 통해 가수의 log2에 대해 다항식 근사를 사용할 수 있습니다.

지수 추출: 입력 벡터의 지수 부분을 추출하여 다시 배정밀도로 변환합니다. 값, 편향을 조정합니다.
가수 추출 및 조정: 추출 가수를 선택하고 [0.5, 1.0) 범위로 조정합니다. 이렇게 하면 우리가 사용하는 다항식 근사가 더 정확해집니다.
다항식 근사: 다항식 근사를 사용하여 조정된 가수의 log2를 계산합니다. 급수 확장 또는 미니맥스 기술을 사용하여 다항식을 피팅할 수 있습니다.
조합: 계산된 지수와 가수의 log2의 다항식 근사를 추가하여 최종 log2를 얻습니다. 결과.

최적화

정확성을 높이기 위해 단일 고차 다항식 대신 두 다항식의 비율을 사용할 수 있습니다. 이 기술은 반올림 오류를 줄이고 높은 정밀도를 유지합니다.

또한 입력 값이 양수이고 유한한 것으로 알려진 경우 언더플로, 오버플로 또는 비정규 값에 대한 검사를 건너뛸 수 있습니다. 이러한 최적화를 통해 구현 속도를 크게 높일 수 있습니다.

성능 고려 사항

명령 지연 시간: 최신 하드웨어는 명령 지연 시간이 깁니다. 성능을 최적화하기 위해 다항식 항의 병렬 실행을 허용하는 Estrin의 방식과 같은 더 빠른 다항식 평가 방식을 사용할 수 있습니다.
FMA 활용: FMA(융합-곱하기-덧셈) 교육이 매우 효율적입니다. 구현에 FMA를 사용하면 다항식 평가 프로세스를 가속화할 수 있습니다.

정확도 및 범위

구현의 정확도와 범위는 특정 항목에 따라 다릅니다. 다항식 근사가 사용되었습니다. 특정 범위의 가수 값에 대해 매우 높은 정확도를 달성하는 것이 가능합니다.

기존 구현과 비교

제안된 구현은 빠르고 효율적인 벡터화된 log2 제공을 목표로 합니다. AVX2를 지원하는 모든 플랫폼에서 사용할 수 있는 기능입니다. 이는 Intel 컴파일러의 SVML 구현에 필적하는 고성능을 목표로 하는 동시에 다른 컴파일러에서도 사용할 수 있습니다.

위 내용은 AVX2를 사용하여 벡터화된 로그 함수를 어떻게 효율적으로 구현할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!