Bagaimana untuk menggelung melalui folder yang mengandungi sejumlah besar fail menggunakan Python?-Tutorial Python-php.cn

Bagaimana untuk menggelung melalui folder yang mengandungi sejumlah besar fail menggunakan Python?

WBOY

Lepaskan： 2023-04-25 15:22:08

ke hadapan

1209 orang telah melayarinya

Apabila memproses data latihan untuk model besar, selalunya perlu melintasi folder besar, yang mungkin termasuk berpuluh atau ratusan juta fail Pada masa ini, fungsi traversal Python umum akan menjadi sangat perlahan, seperti os.walk, glob, path.rglob, dsb. Pada masa yang sama, masa traversal keseluruhan tidak boleh dianggarkan.

Bagaimana untuk menggelung melalui folder yang mengandungi sejumlah besar fail menggunakan Python?

Artikel ini menggunakan os.scandir Python dan berdasarkan algoritma carian luas pertama untuk mencapai traversal fail yang boleh dikawal dan cekap Pada masa yang sama, ia mengeluarkan log traversal dan menyokong penapisan dan penyingkiran akhiran Sembunyikan fail dan laksanakan fungsi merentasi folder yang mengandungi sejumlah besar fail.

os.scandir ialah fungsi lelaran direktori yang mengembalikan lelaran objek os.DirEntry, sepadan dengan entri dalam direktori yang ditentukan oleh laluan Entri ini dijana dalam sebarang susunan, tidak termasuk entri khas‘.’ dan‘…’. Kecekapan operasi os.scandir lebih tinggi daripada os.walk Dalam PEP 471, pegawai Python juga mengesyorkan menggunakan os.scandir untuk melintasi direktori.

Kod sumber

def traverse_dir_files_for_large(root_dir, ext=""):
    """
    列出文件夹中的文件, 深度遍历
    :param root_dir: 根目录
    :param ext: 后缀名
    :return: 文件路径列表
    """
    paths_list = []
    dir_list = list()
    dir_list.append(root_dir)
    while len(dir_list) != 0:
        dir_path = dir_list.pop(0)
        dir_name = os.path.basename(dir_path)
        for i in tqdm(os.scandir(dir_path), f"[Info] dir {dir_name}"):
            path = i.path
            if path.startswith(&#39;.&#39;):  # 去除隐藏文件
                continue
            if os.path.isdir(path):
                dir_list.append(path)
            else:
                if ext:  # 根据后缀名搜索
                    if path.endswith(ext):
                        paths_list.append(path)
                else:
                    paths_list.append(path)
    return paths_list

Salin selepas log masuk

Log keluaran:

[Maklumat] Laluan permulaan bermula!
[Maklumat] Set data laluan : /alphafoldDB/pdb_from_uniprot
[Maklumat] dir pdb_from_uniprot: 256it [00:10, 24.47it/s]
[Maklumat] dir 00: 240753it [00:30, 78] [00:30, 68] Maklumat ] dir 01: 241432it [00:24, 9975.56it/s]
[Info] dir 02: 240466it [00:24, 9809.68it/s]
[Maklumat] dir 02: 240466it [00:24, 9809.68it/s]
[Maklumat] dir 023: 24 , 10936.76it/s]
[Maklumat] dir 04: 241278it [00:24, 10011.14it/s]
[Maklumat] dir 05: 241348it [00:25, 9414it] <1. 🎜 >

Tambahan

Selain kaedah di atas, editor juga telah menyusun kaedah Python lain untuk melintasi folder Jika anda memerlukannya, anda boleh merujuknya

Kaedah 1: Traverse melalui os.walk() dan proses fail terus

def traverse_dir_files(root_dir, ext=None, is_sorted=True):
    """
    列出文件夹中的文件, 深度遍历
    :param root_dir: 根目录
    :param ext: 后缀名
    :param is_sorted: 是否排序，耗时较长
    :return: [文件路径列表, 文件名称列表]
    """
    names_list = []
    paths_list = []
    for parent, _, fileNames in os.walk(root_dir):
        for name in fileNames:
            if name.startswith(&#39;.&#39;):  # 去除隐藏文件
                continue
            if ext:  # 根据后缀名搜索
                if name.endswith(tuple(ext)):
                    names_list.append(name)
                    paths_list.append(os.path.join(parent, name))
            else:
                names_list.append(name)
                paths_list.append(os.path.join(parent, name))
    if not names_list:  # 文件夹为空
        return paths_list, names_list
    if is_sorted:
        paths_list, names_list = sort_two_list(paths_list, names_list)
    return paths_list, names_list

Salin selepas log masuk

Kaedah 2: Traverse melalui pathlib.Path().rglob() , penapisan diperlukan Keluarkan fail dengan lebih pantas. Ambil perhatian bahawa glob() tidak menyokong traversal rekursif

Atas ialah kandungan terperinci Bagaimana untuk menggelung melalui folder yang mengandungi sejumlah besar fail menggunakan Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!