Wie kann ich riesige CSV-Dateien in Python 2.7 effizient verarbeiten, ohne auf Speicherprobleme zu stoßen?-Python-Tutorial-php.cn

Wie kann ich riesige CSV-Dateien in Python 2.7 effizient verarbeiten, ohne auf Speicherprobleme zu stoßen?

Linda Hamilton

Freigeben： 2024-11-08 04:52:01

Original

1029 Leute haben es durchsucht

How can I efficiently process gigantic CSV files in Python 2.7 without running into memory issues?

Lesen riesiger CSV-Dateien: Speicher und Geschwindigkeit optimieren

Beim Versuch, riesige CSV-Dateien mit Millionen von Zeilen und Hunderten von Spalten zu verarbeiten, traditionell Ansätze, die Iteratoren verwenden, können zu Speicherproblemen führen. In diesem Artikel werden optimierte Techniken für den Umgang mit umfangreichen CSV-Daten in Python 2.7 untersucht.

Speicheroptimierung:

Der Kern des Speicherproblems liegt in der Erstellung von In-Memory-Listen um große Datensätze zu speichern. Um dieses Problem zu entschärfen, bietet Python das Schlüsselwort yield an, das Funktionen in Generatorfunktionen umwandelt. Diese Funktionen unterbrechen die Ausführung nach jeder Yield-Anweisung und ermöglichen so eine inkrementelle Verarbeitung der Daten, sobald sie gefunden werden.

Durch den Einsatz von Generatorfunktionen können Sie Daten Zeile für Zeile verarbeiten, wodurch die Notwendigkeit entfällt, ganze Dateien im Speicher zu speichern. Der folgende Code demonstriert diesen Ansatz:

import csv

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield header row

        count = 0
        for row in datareader:
            if row[3] == criterion:
                yield row
                count += 1
            elif count:  # stop processing when a consecutive series of non-matching rows is encountered
                return

Nach dem Login kopieren

Geschwindigkeitsverbesserungen:

Zusätzlich können Sie die Dropwhile- und Takewhile-Funktionen von Python nutzen, um die Verarbeitungsgeschwindigkeit weiter zu verbessern. Mit diesen Funktionen können Daten effizient gefiltert werden, sodass Sie die gewünschten Zeilen schnell finden können. So geht's:

from itertools import dropwhile, takewhile

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield header row

        yield from takewhile(  # yield matching rows
            lambda r: r[3] == criterion,
            dropwhile(  # skip non-matching rows
                lambda r: r[3] != criterion, datareader))
        return

Nach dem Login kopieren

Vereinfachte Schleifenverarbeitung:

Durch die Kombination von Generatorfunktionen können Sie den Prozess der Schleife durch Ihren Datensatz erheblich vereinfachen. Hier ist der optimierte Code für getstuff und getdata:

def getdata(filename, criteria):
    for criterion in criteria:
        for row in getstuff(filename, criterion):
            yield row

Nach dem Login kopieren

Jetzt können Sie direkt über den getdata-Generator iterieren, der Zeile für Zeile einen Stream von Zeilen erzeugt und so wertvolle Speicherressourcen freigibt.

Denken Sie daran, dass das Ziel darin besteht, die In-Memory-Datenspeicherung zu minimieren und gleichzeitig die Verarbeitungseffizienz zu maximieren. Durch die Anwendung dieser Optimierungstechniken können Sie riesige CSV-Dateien effektiv verarbeiten, ohne auf Speicherblockaden zu stoßen.

Das obige ist der detaillierte Inhalt vonWie kann ich riesige CSV-Dateien in Python 2.7 effizient verarbeiten, ohne auf Speicherprobleme zu stoßen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!