Apabila memproses data latihan untuk model besar, selalunya perlu melintasi folder besar, yang mungkin termasuk berpuluh atau ratusan juta fail Pada masa ini, fungsi traversal Python umum akan menjadi sangat perlahan, seperti os.walk, glob, path.rglob, dsb. Pada masa yang sama, masa traversal keseluruhan tidak boleh dianggarkan.
Artikel ini menggunakan os.scandir Python dan berdasarkan algoritma carian luas pertama untuk mencapai traversal fail yang boleh dikawal dan cekap Pada masa yang sama, ia mengeluarkan log traversal dan menyokong penapisan dan penyingkiran akhiran Sembunyikan fail dan laksanakan fungsi merentasi folder yang mengandungi sejumlah besar fail.
os.scandir ialah fungsi lelaran direktori yang mengembalikan lelaran objek os.DirEntry, sepadan dengan entri dalam direktori yang ditentukan oleh laluan Entri ini dijana dalam sebarang susunan, tidak termasuk entri khas‘.’ dan‘…’. Kecekapan operasi os.scandir lebih tinggi daripada os.walk Dalam PEP 471, pegawai Python juga mengesyorkan menggunakan os.scandir untuk melintasi direktori.
Kod sumber
def traverse_dir_files_for_large(root_dir, ext=""): """ 列出文件夹中的文件, 深度遍历 :param root_dir: 根目录 :param ext: 后缀名 :return: 文件路径列表 """ paths_list = [] dir_list = list() dir_list.append(root_dir) while len(dir_list) != 0: dir_path = dir_list.pop(0) dir_name = os.path.basename(dir_path) for i in tqdm(os.scandir(dir_path), f"[Info] dir {dir_name}"): path = i.path if path.startswith('.'): # 去除隐藏文件 continue if os.path.isdir(path): dir_list.append(path) else: if ext: # 根据后缀名搜索 if path.endswith(ext): paths_list.append(path) else: paths_list.append(path) return paths_list
Log keluaran:
Tambahan[Maklumat] Laluan permulaan bermula!
[Maklumat] Set data laluan : /alphafoldDB/pdb_from_uniprot
[Maklumat] dir pdb_from_uniprot: 256it [00:10, 24.47it/s]
[Maklumat] dir 00: 240753it [00:30, 78] [00:30, 68] Maklumat ] dir 01: 241432it [00:24, 9975.56it/s]
[Info] dir 02: 240466it [00:24, 9809.68it/s]
[Maklumat] dir 02: 240466it [00:24, 9809.68it/s]
[Maklumat] dir 023: 24 , 10936.76it/s]
[Maklumat] dir 04: 241278it [00:24, 10011.14it/s]
[Maklumat] dir 05: 241348it [00:25, 9414it] <1. 🎜 >
Selain kaedah di atas, editor juga telah menyusun kaedah Python lain untuk melintasi folder Jika anda memerlukannya, anda boleh merujuknya
Kaedah 1: Traverse melalui os.walk() dan proses fail terusdef traverse_dir_files(root_dir, ext=None, is_sorted=True): """ 列出文件夹中的文件, 深度遍历 :param root_dir: 根目录 :param ext: 后缀名 :param is_sorted: 是否排序,耗时较长 :return: [文件路径列表, 文件名称列表] """ names_list = [] paths_list = [] for parent, _, fileNames in os.walk(root_dir): for name in fileNames: if name.startswith('.'): # 去除隐藏文件 continue if ext: # 根据后缀名搜索 if name.endswith(tuple(ext)): names_list.append(name) paths_list.append(os.path.join(parent, name)) else: names_list.append(name) paths_list.append(os.path.join(parent, name)) if not names_list: # 文件夹为空 return paths_list, names_list if is_sorted: paths_list, names_list = sort_two_list(paths_list, names_list) return paths_list, names_list
Atas ialah kandungan terperinci Bagaimana untuk menggelung melalui folder yang mengandungi sejumlah besar fail menggunakan Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!