在Python 中計算大檔案的MD5 雜湊值
當處理非常大的檔案時,使用hashlib 函式庫計算MD5 雜湊值的傳統方法變得不切實際,因為它們需要將整個檔案載入到記憶體中。這種方法可能會耗盡系統資源,導致錯誤和速度變慢。
解:分塊雜湊
為了解決這個問題,可以採用一種稱為分塊雜湊的技術來計算MD5 增量雜湊,無需將整個文件載入到記憶體中。這涉及到:
程式碼實作:
以下Python 函數md5_for_file() 實作分塊雜湊:
<code class="python">def md5_for_file(f, block_size=2**20): md5 = hashlib.md5() while True: data = f.read(block_size) if not data: break md5.update(data) return md5.digest()</code>
要使用此功能,請確保以二進位模式(rb)開啟檔案。
完整方法:
為了方便,這是一個完整的方法generate_file_md5(),它將分塊雜湊與檔案開啟一步結合起來:
<code class="python">def generate_file_md5(rootdir, filename, blocksize=2**20): m = hashlib.md5() with open(os.path.join(rootdir, filename), "rb") as f: while True: buf = f.read(blocksize) if not buf: break m.update(buf) return m.hexdigest()</code>
此方法以字串形式傳回指定檔案的十六進位編碼的MD5 雜湊。您可以使用 jacksum 等外部工具來驗證結果進行比較。
以上是如何在Python中高效率計算大檔案的MD5雜湊?的詳細內容。更多資訊請關注PHP中文網其他相關文章!