首頁 > 後端開發 > C++ > 為什麼將循環計數器從 32 位元更改為 64 位元會極大地影響 Intel CPU 上的 _mm_popcnt_u64 效能?

為什麼將循環計數器從 32 位元更改為 64 位元會極大地影響 Intel CPU 上的 _mm_popcnt_u64 效能?

Barbara Streisand
發布: 2024-12-17 01:00:25
原創
833 人瀏覽過

Why Does Changing a Loop Counter from 32-bit to 64-bit Dramatically Impact _mm_popcnt_u64 Performance on Intel CPUs?

用64 位替換32 位循環計數器會在Intel CPU 上使用_mm_popcnt_u64 引入瘋狂的性能偏差

問題摘要

當循環計數器出現時,popcount基準測試的效能會發生巨大變化變數從 32 位元無符號更改為 64 位元無符號,儘管更改似乎沒有影響循環的基本操作。

問題

  1. 為什麼使用 32 位元和 64 位元循環計數器會有這麼大的效能差異?
  2. 如何取代具有常數值的非恆定緩衝區大小會導致較慢程式碼?
  3. 將「static」關鍵字加入到緩衝區大小變數如何讓64位元循環更快?

回答

1。效能差異是由於 Intel CPU 上 popcnt 指令中的錯誤資料依賴性所造成的。

當循環計數器為 32 位元時,每個循環迭代中的 popcnt 指令是獨立執行的,從而允許並行執行。然而,當循環計數器為 64 位元時,popcnt 指令之間會引入錯誤的資料依賴關係,導致它們無法並行執行。這種依賴性是由於 popcnt 指令的目標暫存器在下一次迭代中被重複使用而引起的,從而創建了限制效能的人為依賴性。

2.用常數值取代非常量緩衝區大小會減慢程式碼速度,因為它會阻止編譯器執行某些最佳化。

使用常數緩衝區大小,編譯器知道緩衝區的確切大小在編譯時,這可以允許更有效的記憶體存取模式和指令調度。但是,如果緩衝區大小不固定,編譯器必須假設最壞的情況,這可能會導致程式碼最佳化程度較低。

3.將'static' 關鍵字加入到緩衝區大小變數可以使64 位元循環更快,因為它使緩衝區大小成為編譯時常數,從而允許編譯器執行額外的最佳化。

透過讓緩衝區大小是編譯時常數,編譯器可以更積極地最佳化記憶體存取模式和指令調度,產生更快的程式碼。

課程了解

即使循環中的微小變化也會因為意外的依賴項或編譯器最佳化而對效能產生重大影響。了解這些依賴關係以及它們如何影響效能以編寫高效的程式碼非常重要。

以上是為什麼將循環計數器從 32 位元更改為 64 位元會極大地影響 Intel CPU 上的 _mm_popcnt_u64 效能?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板