在 Python 中读取大文件的惰性方法:分段处理
在 Python 中读取大文件可能具有挑战性,特别是如果它们超出了计算机的处理能力可用内存。为了缓解这个问题,惰性方法提供了一种解决方案,即逐段读取文件,处理每个部分,然后单独存储结果。
方法 1:使用基于产量的生成器
创建惰性方法的一种方法是通过生成器函数,该函数在读取数据时生成数据块。这允许您迭代文件,而无需将整个文件加载到内存中。
def read_in_chunks(file_object, chunk_size=1024): while True: data = file_object.read(chunk_size) if not data: break yield data
用法:
with open('really_big_file.dat') as f: for piece in read_in_chunks(f): process_data(piece)
方法 2:使用 Iter 和辅助函数
另一种选择是使用 iter 函数和辅助函数来定义每个的大小chunk.
f = open('really_big_file.dat') def read1k(): return f.read(1024) for piece in iter(read1k, ''): process_data(piece)
方法 3:使用基于行的迭代
如果文件是基于行的,则可以利用 Python 内置的惰性文件在读取时生成行的对象。
for line in open('really_big_file.dat'): process_data(line)
这些惰性方法允许通过仅读取大文件来高效处理大文件一次必要的部分,减少内存消耗并防止系统挂起。
以上是如何在 Python 中高效处理大文件而不将它们完全加载到内存中?的详细内容。更多信息请关注PHP中文网其他相关文章!