讀取巨大的CSV 檔案:最佳化記憶體和速度
當嘗試處理具有數百萬行和數百列的大量CSV文件時,傳統方法使用迭代器的方法可能會導致與記憶體相關的問題。本文探討了 Python 2.7 中處理大規模 CSV 資料的最佳化技術。
記憶體最佳化:
記憶體問題的癥結在於建立記憶體清單來儲存大型資料集。為了緩解這個問題,Python 提供了yield 關鍵字,它將函數轉換為生成器函數。這些函數在每個yield語句後暫停執行,允許在遇到資料時增量處理資料。
透過使用生成器函數,您可以逐行處理數據,無需將整個檔案儲存在記憶體中。以下程式碼示範了這種方法:
import csv def getstuff(filename, criterion): with open(filename, "rb") as csvfile: datareader = csv.reader(csvfile) yield next(datareader) # yield header row count = 0 for row in datareader: if row[3] == criterion: yield row count += 1 elif count: # stop processing when a consecutive series of non-matching rows is encountered return
速度增強:
此外,您可以利用 Python 的 dropwhile 和 takewhile 函數進一步提高處理速度。這些功能可以有效地過濾數據,使您能夠快速找到感興趣的行。具體方法如下:
from itertools import dropwhile, takewhile def getstuff(filename, criterion): with open(filename, "rb") as csvfile: datareader = csv.reader(csvfile) yield next(datareader) # yield header row yield from takewhile( # yield matching rows lambda r: r[3] == criterion, dropwhile( # skip non-matching rows lambda r: r[3] != criterion, datareader)) return
簡化循環處理:
透過組合產生器函數,您可以大幅簡化循環資料集的過程。以下是 getstuff 和 getdata 的最佳化程式碼:
def getdata(filename, criteria): for criterion in criteria: for row in getstuff(filename, criterion): yield row
現在,您可以直接迭代 getdata 產生器,它會逐行產生行流,釋放寶貴的記憶體資源。
請記住,目標是最大限度地減少記憶體資料存儲,同時最大限度地提高處理效率。透過應用這些優化技術,您可以有效地處理巨大的 CSV 文件,而不會遇到記憶體障礙。
以上是如何在 Python 2.7 中有效處理巨大的 CSV 檔案而不遇到記憶體問題?的詳細內容。更多資訊請關注PHP中文網其他相關文章!