Bagaimanakah saya boleh memproses fail CSV raksasa dalam Python 2.7 dengan cekap tanpa menghadapi masalah ingatan?-Tutorial Python-php.cn

Bagaimanakah saya boleh memproses fail CSV raksasa dalam Python 2.7 dengan cekap tanpa menghadapi masalah ingatan?

Linda Hamilton

Lepaskan： 2024-11-08 04:52:01

asal

1031 orang telah melayarinya

How can I efficiently process gigantic CSV files in Python 2.7 without running into memory issues?

Membaca Fail CSV Raksasa: Mengoptimumkan Memori dan Kelajuan

Apabila cuba memproses fail CSV besar-besaran dengan berjuta-juta baris dan beratus-ratus lajur, tradisional pendekatan menggunakan iterator boleh membawa kepada isu berkaitan memori. Artikel ini meneroka teknik yang dioptimumkan untuk mengendalikan data CSV berskala besar dalam Python 2.7.

Pengoptimuman Memori:

Inti masalah memori terletak pada membina senarai dalam memori untuk menyimpan set data yang besar. Untuk mengurangkan isu ini, Python menawarkan kata kunci hasil, yang menukar fungsi kepada fungsi penjana. Fungsi ini menjeda pelaksanaan selepas setiap penyataan hasil, membenarkan pemprosesan tambahan data seperti yang dihadapi.

Dengan menggunakan fungsi penjana, anda boleh memproses data baris demi baris, menghapuskan keperluan untuk menyimpan keseluruhan fail dalam memori. Kod berikut menunjukkan pendekatan ini:

import csv

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield header row

        count = 0
        for row in datareader:
            if row[3] == criterion:
                yield row
                count += 1
            elif count:  # stop processing when a consecutive series of non-matching rows is encountered
                return

Salin selepas log masuk

Peningkatan Kelajuan:

Selain itu, anda boleh memanfaatkan fungsi dropwhile dan takewhile Python untuk meningkatkan lagi kelajuan pemprosesan. Fungsi ini boleh menapis data dengan cekap, membolehkan anda mencari dengan cepat baris yang diminati. Begini caranya:

from itertools import dropwhile, takewhile

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield header row

        yield from takewhile(  # yield matching rows
            lambda r: r[3] == criterion,
            dropwhile(  # skip non-matching rows
                lambda r: r[3] != criterion, datareader))
        return

Salin selepas log masuk

Pemprosesan Bergelung Dipermudah:

Dengan menggabungkan fungsi penjana, anda boleh memudahkan proses penggulungan melalui set data anda. Berikut ialah kod yang dioptimumkan untuk getstuff dan getdata:

def getdata(filename, criteria):
    for criterion in criteria:
        for row in getstuff(filename, criterion):
            yield row

Salin selepas log masuk

Kini, anda boleh lelaran terus ke atas penjana getdata, yang menghasilkan aliran baris baris demi baris, membebaskan sumber memori yang berharga.

Ingat, matlamatnya adalah untuk meminimumkan storan data dalam memori sambil memaksimumkan kecekapan pemprosesan pada masa yang sama. Dengan menggunakan teknik pengoptimuman ini, anda boleh mengendalikan fail CSV raksasa dengan berkesan tanpa menghadapi sekatan jalan memori.

Atas ialah kandungan terperinci Bagaimanakah saya boleh memproses fail CSV raksasa dalam Python 2.7 dengan cekap tanpa menghadapi masalah ingatan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!