Apakah yang menyebabkan kehilangan prestasi 4x Go pada penanda aras akses tatasusunan ini (berbanding dengan GCC)?-Golang-php.cn

Apakah yang menyebabkan kehilangan prestasi 4x Go pada penanda aras akses tatasusunan ini (berbanding dengan GCC)?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2024-02-10 08:51:09

ke hadapan

718 orang telah melayarinya

在这个数组访问微基准测试中（相对于 GCC），Go 的性能损失了 4 倍，是什么原因造成的？

Dalam penanda aras akses tatasusunan ini (berbanding dengan GCC), Go mengalami kehilangan prestasi sebanyak 4x. Apakah yang menyebabkan ini? Isu ini melibatkan banyak aspek seperti mekanisme masa jalan dan pengoptimuman pengkompil bagi bahasa Go. Pertama sekali, bahasa Go menggunakan mekanisme semakan sempadan apabila mengakses tatasusunan, iaitu, semakan sempadan dilakukan setiap kali elemen tatasusunan diakses, yang akan menyebabkan kehilangan prestasi tertentu. Kedua, pengkompil bahasa Go agak lemah dalam pengoptimuman dan tidak dapat mengoptimumkan akses tatasusunan dengan baik. Selain itu, mekanisme kutipan sampah bahasa Go juga akan memberi kesan tertentu terhadap prestasi. Jika digabungkan, faktor ini digabungkan menyebabkan Go mengalami kehilangan prestasi 4x ganda dalam penanda aras akses tatasusunan.

Kandungan soalan

Saya menulis penanda aras mikro ini untuk lebih memahami ciri prestasi go supaya saya boleh membuat pilihan termaklum tentang masa untuk menggunakannya.

Daripada perspektif overhed prestasi, saya rasa ini akan menjadi senario yang sesuai untuk pergi:

Tiada peruntukan/percuma di dalam gelung
Akses tatasusunan jelas dalam had (semakan sempadan boleh dialih keluar)

Namun begitu, saya melihat perbezaan kelajuan 4x berbanding gcc -o3 pada amd64. kenapa begitu?

(Gunakan pemasaan shell. Ia mengambil masa beberapa saat setiap kali, jadi permulaan boleh diabaikan)

package main

import "fmt"

func main() {
    fmt.println("started");

    var n int32 = 1024 * 32

    a := make([]int32, n, n)
    b := make([]int32, n, n)

    var it, i, j int32

    for i = 0; i < n; i++ {
        a[i] =  i
        b[i] = -i
    }

    var r int32 = 10
    var sum int32 = 0

    for it = 0; it < r; it++ {
        for i = 0; i < n; i++ {
            for j = 0; j < n; j++ {
                sum += (a[i] + b[j]) * (it + 1)
            }
        }
    }
    fmt.printf("n = %d, r = %d, sum = %d\n", n, r, sum)
}

Salin selepas log masuk

c Versi:

#include <stdio.h>
#include <stdlib.h>


int main() {
    printf("started\n");

    int32_t n = 1024 * 32;

    int32_t* a = malloc(sizeof(int32_t) * n);
    int32_t* b = malloc(sizeof(int32_t) * n);

    for(int32_t i = 0; i < n; ++i) {
        a[i] =  i;
        b[i] = -i;
    }

    int32_t r = 10;
    int32_t sum = 0;

    for(int32_t it = 0; it < r; ++it) {
        for(int32_t i = 0; i < n; ++i) {
            for(int32_t j = 0; j < n; ++j) {
                sum += (a[i] + b[j]) * (it + 1);
            }
        }
    }
    printf("n = %d, r = %d, sum = %d\n", n, r, sum);

    free(a);
    free(b);
}

Salin selepas log masuk

Kemas kini:

Digunakan seperti yang disyorkan range boleh meningkatkan kelajuan pergi sebanyak 2 kali ganda.
Sebaliknya, dalam ujian saya, -march=native 将 c 速度提高了 2 倍。（并且-mno-sse给出编译错误，显然与-o3tidak serasi)
gccgo kelihatan setara dengan gcc di sini (dan tidak memerlukan range)

Penyelesaian

Lihat pada output pemasang program C dan program Go Sekurang-kurangnya pada versi Go dan GCC yang saya gunakan (masing-masing 1.19.6 dan 12.2.0), perbezaan yang paling langsung dan jelas ialah GCC. Vectorize program C secara automatik, yang pengkompil Go nampaknya tidak dapat lakukan.

Ini juga menerangkan dengan baik mengapa anda akan melihat peningkatan prestasi empat kali ganda, memandangkan GCC menggunakan SSE dan bukannya AVX apabila tidak menyasarkan seni bina tertentu, yang bermaksud arahan skalar 32-bit adalah empat kali lebih lebar untuk beroperasi. Malah, menambah -march=native memberi saya peningkatan prestasi 2x ganda kerana ia menghasilkan kod AVX keluaran GCC pada CPU saya.

Saya tidak cukup mahir dengan Go untuk memberitahu anda jika pengkompil Go secara intrinsik tidak dapat autovektor, atau jika program tertentu ini sahaja yang menyebabkannya pepijat atas sebab tertentu, tetapi itu nampaknya puncanya

Atas ialah kandungan terperinci Apakah yang menyebabkan kehilangan prestasi 4x Go pada penanda aras akses tatasusunan ini (berbanding dengan GCC)?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!