問題摘要
當循環計數器出現時,popcount基準測試的效能會發生巨大變化變數從 32 位元無符號更改為 64 位元無符號,儘管更改似乎沒有影響循環的基本操作。
問題
回答
1。效能差異是由於 Intel CPU 上 popcnt 指令中的錯誤資料依賴性所造成的。
當循環計數器為 32 位元時,每個循環迭代中的 popcnt 指令是獨立執行的,從而允許並行執行。然而,當循環計數器為 64 位元時,popcnt 指令之間會引入錯誤的資料依賴關係,導致它們無法並行執行。這種依賴性是由於 popcnt 指令的目標暫存器在下一次迭代中被重複使用而引起的,從而創建了限制效能的人為依賴性。
2.用常數值取代非常量緩衝區大小會減慢程式碼速度,因為它會阻止編譯器執行某些最佳化。
使用常數緩衝區大小,編譯器知道緩衝區的確切大小在編譯時,這可以允許更有效的記憶體存取模式和指令調度。但是,如果緩衝區大小不固定,編譯器必須假設最壞的情況,這可能會導致程式碼最佳化程度較低。
3.將'static' 關鍵字加入到緩衝區大小變數可以使64 位元循環更快,因為它使緩衝區大小成為編譯時常數,從而允許編譯器執行額外的最佳化。
透過讓緩衝區大小是編譯時常數,編譯器可以更積極地最佳化記憶體存取模式和指令調度,產生更快的程式碼。
課程了解
即使循環中的微小變化也會因為意外的依賴項或編譯器最佳化而對效能產生重大影響。了解這些依賴關係以及它們如何影響效能以編寫高效的程式碼非常重要。
以上是為什麼將循環計數器從 32 位元更改為 64 位元會極大地影響 Intel CPU 上的 _mm_popcnt_u64 效能?的詳細內容。更多資訊請關注PHP中文網其他相關文章!