如何在 Python 2.7 中有效處理巨大的 CSV 檔案而不遇到記憶體問題？-Python教學-PHP中文網

如何在 Python 2.7 中有效處理巨大的 CSV 檔案而不遇到記憶體問題？

Linda Hamilton

發布： 2024-11-08 04:52:01

原創

1029 人瀏覽過

How can I efficiently process gigantic CSV files in Python 2.7 without running into memory issues?

讀取巨大的CSV 檔案：最佳化記憶體和速度

當嘗試處理具有數百萬行和數百列的大量CSV文件時，傳統方法使用迭代器的方法可能會導致與記憶體相關的問題。本文探討了 Python 2.7 中處理大規模 CSV 資料的最佳化技術。

記憶體最佳化：

記憶體問題的癥結在於建立記憶體清單來儲存大型資料集。為了緩解這個問題，Python 提供了yield 關鍵字，它將函數轉換為生成器函數。這些函數在每個yield語句後暫停執行，允許在遇到資料時增量處理資料。

透過使用生成器函數，您可以逐行處理數據，無需將整個檔案儲存在記憶體中。以下程式碼示範了這種方法：

import csv

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield header row

        count = 0
        for row in datareader:
            if row[3] == criterion:
                yield row
                count += 1
            elif count:  # stop processing when a consecutive series of non-matching rows is encountered
                return

登入後複製

速度增強：

此外，您可以利用 Python 的 dropwhile 和 takewhile 函數進一步提高處理速度。這些功能可以有效地過濾數據，使您能夠快速找到感興趣的行。具體方法如下：

from itertools import dropwhile, takewhile

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield header row

        yield from takewhile(  # yield matching rows
            lambda r: r[3] == criterion,
            dropwhile(  # skip non-matching rows
                lambda r: r[3] != criterion, datareader))
        return

登入後複製

簡化循環處理：

透過組合產生器函數，您可以大幅簡化循環資料集的過程。以下是 getstuff 和 getdata 的最佳化程式碼：

def getdata(filename, criteria):
    for criterion in criteria:
        for row in getstuff(filename, criterion):
            yield row

登入後複製

現在，您可以直接迭代 getdata 產生器，它會逐行產生行流，釋放寶貴的記憶體資源。

請記住，目標是最大限度地減少記憶體資料存儲，同時最大限度地提高處理效率。透過應用這些優化技術，您可以有效地處理巨大的 CSV 文件，而不會遇到記憶體障礙。

以上是如何在 Python 2.7 中有效處理巨大的 CSV 檔案而不遇到記憶體問題？的詳細內容。更多資訊請關注PHP中文網其他相關文章！