如何在Python中高效率計算大檔案的MD5雜湊？-Python教學-PHP中文網

如何在Python中高效率計算大檔案的MD5雜湊？

Patricia Arquette

發布： 2024-10-20 11:29:30

原創

307 人瀏覽過

How to Calculate MD5 Hash of Large Files in Python Efficiently?

在Python 中計算大檔案的MD5 雜湊值

當處理非常大的檔案時，使用hashlib 函式庫計算MD5 雜湊值的傳統方法變得不切實際，因為它們需要將整個檔案載入到記憶體中。這種方法可能會耗盡系統資源，導致錯誤和速度變慢。

解：分塊雜湊

為了解決這個問題，可以採用一種稱為分塊雜湊的技術來計算MD5 增量雜湊，無需將整個文件載入到記憶體中。這涉及到：

將檔案分成可管理大小的較小區塊（例如 1 MB）。
使用 hashlib.md5() 計算每個區塊的 MD5 雜湊值。
連接散列區塊以獲得最終的 MD5 雜湊。

程式碼實作：

以下Python 函數md5_for_file() 實作分塊雜湊：

<code class="python">def md5_for_file(f, block_size=2**20):
    md5 = hashlib.md5()
    while True:
        data = f.read(block_size)
        if not data:
            break
        md5.update(data)
    return md5.digest()</code>

登入後複製

要使用此功能，請確保以二進位模式（rb）開啟檔案。

完整方法：

為了方便，這是一個完整的方法generate_file_md5()，它將分塊雜湊與檔案開啟一步結合起來：

<code class="python">def generate_file_md5(rootdir, filename, blocksize=2**20):
    m = hashlib.md5()
    with open(os.path.join(rootdir, filename), "rb") as f:
        while True:
            buf = f.read(blocksize)
            if not buf:
                break
            m.update(buf)
    return m.hexdigest()</code>

登入後複製

此方法以字串形式傳回指定檔案的十六進位編碼的MD5 雜湊。您可以使用 jacksum 等外部工具來驗證結果進行比較。

以上是如何在Python中高效率計算大檔案的MD5雜湊？的詳細內容。更多資訊請關注PHP中文網其他相關文章！