Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimana Mengendalikan Fail CSV Besar dengan Berkesan dalam Python 2.7?

Bagaimana Mengendalikan Fail CSV Besar dengan Berkesan dalam Python 2.7?

Mary-Kate Olsen
Lepaskan: 2024-11-08 03:32:02
asal
636 orang telah melayarinya

How to Effectively Handle Large CSV Files in Python 2.7?

Membaca Fail .csv Besar dalam Python

Masalah: Membaca fail .csv besar-besaran (sehingga 1 juta baris, 200 lajur) dalam Python 2.7 menghadapi ralat ingatan.

Pendekatan awal berulang melalui keseluruhan fail dan menyimpan data dalam ingatan sebagai senarai. Walau bagaimanapun, kaedah ini menjadi tidak praktikal untuk fail besar, kerana ia menggunakan memori yang berlebihan.

Penyelesaian:

1. Proses Baris Seperti yang Dihasilkan:

Elakkan memuatkan keseluruhan fail ke dalam memori. Sebaliknya, proses baris semasa ia dijana menggunakan fungsi penjana.

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield the header row
        for row in datareader:
            if row[3] == criterion:
                yield row
Salin selepas log masuk

2. Gunakan Fungsi Penjana untuk Penapisan:

Tapis data semasa melelaran melalui fail menggunakan fungsi penjana. Pendekatan ini membolehkan pemadanan berbilang baris berturut-turut memenuhi kriteria tertentu.

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield the header row
        yield from takewhile(
            lambda r: r[3] == criterion,
            dropwhile(lambda r: r[3] != criterion, datareader))
        return
Salin selepas log masuk

3. Optimumkan Penggunaan Memori:

Refactor getdata() untuk menggunakan fungsi penjana juga, memastikan hanya satu baris disimpan dalam ingatan pada bila-bila masa.

def getdata(filename, criteria):
    for criterion in criteria:
        for row in getstuff(filename, criterion):
            yield row
Salin selepas log masuk

Petua Tambahan untuk Kelajuan:

  • Gunakan csv.reader dengan parameter saiz ketulan: Baca fail dalam ketulan yang lebih kecil untuk mengurangkan jejak memori.
  • Pertimbangkan untuk menggunakan enjin pangkalan data: Jika data sesuai, simpan dalam pangkalan data untuk pemprosesan yang lebih pantas dan cekap.

Atas ialah kandungan terperinci Bagaimana Mengendalikan Fail CSV Besar dengan Berkesan dalam Python 2.7?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan