Pemprosesan CSV Besar Menggunakan Go-Golang-php.cn

Ideanya ialah:

Memandangkan CSV tiruan yang besar (1 juta baris) mengandungi sampel data pelanggan dan melakukan pemprosesan dengan matlamat di bawah:

Ekstrak data daripada CSV

Kira bilangan data / baris

Mengumpulkan bilangan pelanggan untuk setiap bandar

Isih bandar mengikut pelanggan dikira dari tertinggi hingga terendah

Kira masa pemprosesan

Contoh CSV pelanggan boleh dimuat turun di sini https://github.com/datablist/sample-csv-files

Muat Dan Ekstrak Data

Nampaknya Go mempunyai lib standard untuk pemprosesan CSV. Kami tidak memerlukan pergantungan pihak ketiga untuk menyelesaikan masalah kami lagi yang bagus. Jadi penyelesaiannya agak mudah:

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

Salin selepas log masuk

Buka fail dari laluan yang diberikan
Muatkan fail yang dibuka ke pembaca csv
Memegang semua nilai rekod / baris csv yang diekstrak ke dalam kepingan rekod untuk diproses kemudian

FieldsPerRecord ditetapkan kepada -1 kerana saya ingin melangkau medan menyemak pada baris memandangkan bilangan medan atau lajur mungkin berbeza dalam setiap format

Pada keadaan ini kami sudah dapat memuatkan dan mengekstrak semua data daripada csv dan bersedia untuk keadaan pemprosesan seterusnya. Kami juga akan dapat mengetahui bilangan baris dalam CSV dengan menggunakan fungsi len(rekod).

Mengumpulkan Jumlah Pelanggan kepada Setiap Bandar

Kini kami dapat mengulangi rekod dan mencipta peta mengandungi nama bandar dan jumlah pelanggan kelihatan seperti ini:

["Jakarta": 10, "Bandung": 200, ...]

Salin selepas log masuk

Data bandar dalam baris csv terletak dalam indeks ke-7 dan kodnya akan kelihatan seperti ini

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

Salin selepas log masuk

Jika peta bandar tidak wujud, buat peta baharu dan tetapkan jumlah pelanggan sebagai 1. Jika tidak, tambahkan jumlah bilangan bandar tertentu.

Kini kami mempunyai peta m yang mengandungi koleksi bandar dan berapa ramai pelanggan di dalamnya. Pada ketika ini kami telah menyelesaikan masalah mengumpulkan bilangan pelanggan untuk setiap bandar.

Mengisih Jumlah Pelanggan Tertinggi

Saya cuba mencari adakah terdapat sebarang fungsi dalam lib standard untuk mengisih peta tetapi malangnya saya tidak menemuinya. Pengisihan hanya mungkin untuk hirisan kerana kami boleh menyusun semula susunan data berdasarkan kedudukan indeks. Jadi ya, mari kita buat potongan daripada peta semasa kita.

// convert to slice first for sorting purposes
dc := []CityDistribution{}
for k, v := range m {
  dc = append(dc, CityDistribution{City: k, CustomerCount: v})
}

Salin selepas log masuk

Sekarang bagaimana kami mengisihnya mengikut Kiraan Pelanggan daripada tertinggi ke terendah? Algoritma yang paling biasa untuk ini adalah menggunakan pendek gelembung. Walaupun ia bukan yang terpantas tetapi ia boleh melakukan kerja.

Isih Buih ialah algoritma pengisihan paling mudah yang berfungsi dengan menukar elemen bersebelahan berulang kali jika ia berada dalam susunan yang salah. Algoritma ini tidak sesuai untuk set data yang besar kerana kerumitan masa purata dan kes terburuknya agak tinggi.

Rujukan: https://www.geeksforgeeks.org/bubble-sort-algorithm/

Menggunakan kepingan kami, ia akan melingkari data dan menyemak nilai indeks seterusnya dan menukarnya jika data semasa kurang daripada indeks seterusnya. Anda boleh menyemak algoritma terperinci pada tapak web rujukan.

Sekarang proses pengisihan kami boleh jadi seperti ini

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

Salin selepas log masuk

Menjelang penghujung gelung, kepingan terakhir akan memberi kami data yang diisih.

Kira Masa Pemprosesan

Mengira masa pemprosesan agak mudah, kami mendapat cap masa sebelum & selepas melaksanakan proses utama program dan mengira perbezaannya. Dalam Go pendekatannya hendaklah cukup mudah:

["Jakarta": 10, "Bandung": 200, ...]

Salin selepas log masuk

Hasilnya

Jalankan program dengan arahan

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

Salin selepas log masuk

Yang dicetak ialah kiraan baris, data diisih dan masa pemprosesan. Sesuatu seperti ini di bawah:

Large CSV Processing Using Go

Seperti yang dijangkakan daripada prestasi Go, ia mengendalikan 1 juta baris csv di bawah 1 saat!

Semua kod yang lengkap sudah diterbitkan pada Repositori Github saya:

https://github.com/didikz/csv-processing/tree/main/golang

Pengajaran

Pemprosesan CSV dalam Go sudah tersedia dalam lib standard, tidak perlu menggunakan lib pihak ketiga
Memproses data agak mudah. Cabarannya ialah untuk mengetahui cara mengisih data kerana perlu dilakukan secara manual

Apa yang terlintas di fikiran?

Saya fikir penyelesaian semasa saya mungkin boleh dioptimumkan lagi kerana saya menggelungkan semua rekod yang diekstrak csv untuk dipetakan dan jika kami menyemak pada sumber ReadAll(), ia juga mempunyai gelung untuk mencipta kepingan berdasarkan pembaca fail yang diberikan. Dengan ini, 1 baris Mil boleh menghasilkan 2 x gelung untuk 1 Mil data yang tidak bagus.

Saya fikir jika saya boleh membaca data terus daripada Pembaca fail, ia hanya memerlukan 1 gelung kerana saya boleh membuat peta terus daripadanya. Kecuali kepingan rekod akan digunakan di tempat lain tetapi tidak dalam kes ini.

Saya masih tiada masa untuk memikirkannya lagi, tetapi saya juga memikirkan beberapa kelemahan jika saya akan melakukannya secara manual:

Mungkin perlu mengendalikan lebih banyak ralat proses penghuraian
Saya tidak pasti betapa pentingnya ia akan mengurangkan masa pemprosesan untuk mempertimbangkan penyelesaian itu berbaloi atau tidak

Selamat Pengekodan!

Atas ialah kandungan terperinci Pemprosesan CSV Besar Menggunakan Go. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!