使用線程池並發執行子進程以提高效率
本文旨在介绍如何使用 Python 的 subprocess 模块并发执行多个子进程,并通过线程池来显著提高程序的执行效率。我们将分析常见的使用 subprocess.Popen 和 .communicate() 方法的场景,并提供使用 ThreadPool 并发等待子进程完成的示例代码。
在使用 subprocess 模块执行多个子进程时,一个常见的误解是 Popen 函数会阻塞程序的执行。实际上,Popen 函数是非阻塞的,它会立即返回一个 Popen 对象,允许程序继续执行。然而,Popen 对象的 communicate() 方法是阻塞的,它会等待子进程执行完毕并返回其输出。如果在循环中依次调用 communicate() 方法,实际上会导致子进程按顺序执行,从而降低程序的效率。
为了解决这个问题,可以使用线程池来并发等待子进程完成。线程池可以创建多个线程,每个线程负责等待一个子进程完成。这样,多个子进程可以同时运行,从而提高程序的执行效率。
下面是一个使用线程池并发等待子进程完成的示例代码:
import subprocess import logging from multiprocessing.pool import ThreadPool logging.basicConfig(level=logging.DEBUG, format='%(asctime)s - %(levelname)s - %(message)s') log = logging.getLogger(__name__) def runShowCommands(cmdTable) -> dict: """return a dictionary of captured output from commands defined in cmdTable.""" procOutput = {} # dict to store the output text from show commands procHandles = {} for cmd, command in cmdTable.items(): try: log.debug(f"running subprocess {cmd} -- {command}") procHandles[cmd] = subprocess.Popen(command, stdout=subprocess.PIPE, stderr=subprocess.PIPE, shell=True) except Exception as e: log.error(f"Error launching subprocess {cmd}: {e}") continue def handle_proc_stdout(handle): try: proc = procHandles[handle] stdout, stderr = proc.communicate(timeout=180) procOutput[handle] = stdout.decode("utf-8") # turn stdout portion into text log.debug(f"subprocess returned {handle}") if stderr: log.error(f"subprocess {handle} returned stderr: {stderr.decode('utf-8')}") except subprocess.TimeoutExpired: log.error(f"subprocess {handle} timed out") proc.kill() # Terminate the process except Exception as e: log.error(f"Error handling subprocess {handle}: {e}") threadpool = ThreadPool() threadpool.map(handle_proc_stdout, procHandles.keys()) threadpool.close() threadpool.join() return procOutput if __name__ == '__main__': cmdTable = { 'himom': "echo hi there momma", 'goodbye': "echo goodbye", 'date': "date", 'sleep': "sleep 2 && echo slept" } output = runShowCommands(cmdTable) for cmd, out in output.items(): print(f"Output from {cmd}:\n{out}")
代码解释:
-
runShowCommands(cmdTable) 函数:
- 接受一个字典 cmdTable,其中键是命令的名称,值是要执行的命令字符串。
- 创建一个空字典 procOutput 来存储每个命令的输出。
- 创建一个空字典 procHandles 来存储每个 Popen 对象。
- 循环遍历 cmdTable 中的每个命令:
- 使用 subprocess.Popen 启动子进程,并将 stdout 和 stderr 重定向到管道。 shell=True 允许直接执行字符串命令,但要注意安全性。
- 将 Popen 对象存储在 procHandles 字典中,键是命令名称。
- 定义一个内部函数 handle_proc_stdout(handle):
- 此函数负责处理单个子进程的输出。
- 使用 procHandles[handle].communicate(timeout=180) 获取子进程的输出,并设置超时时间为 180 秒。
- 将输出解码为 UTF-8 字符串,并将其存储在 procOutput 字典中。
- 记录子进程返回的消息。
- 处理 TimeoutExpired 异常,如果子进程超时,则记录错误并终止该进程。
- 处理其他异常,如果发生任何其他错误,则记录错误消息。
- 创建一个 ThreadPool 对象。
- 使用 threadpool.map(handle_proc_stdout, procHandles.keys()) 将 handle_proc_stdout 函数应用于 procHandles 字典中的每个键(命令名称)。 这会在线程池中并行执行 handle_proc_stdout 函数。
- 调用 threadpool.close() 以防止向线程池提交更多任务。
- 调用 threadpool.join() 以等待所有线程完成。
- 返回 procOutput 字典。
-
if __name__ == '__main__': 块:
- 创建一个示例 cmdTable 字典。
- 调用 runShowCommands(cmdTable) 执行命令并获取输出。
- 循环遍历 output 字典,并打印每个命令的输出。
注意事项:
- 超时处理: communicate(timeout=180) 设置了超时时间,防止子进程无限期运行。如果子进程在指定时间内未完成,将引发 TimeoutExpired 异常,并且该进程将被终止。
- 错误处理: 代码包含 try...except 块,用于捕获可能发生的异常,例如子进程启动失败或超时。
- 线程安全: 确保在多线程环境中访问和修改共享资源(例如 procOutput 字典)是线程安全的。 在此示例中,由于每个线程都写入不同的键,因此字典的写入操作是线程安全的。
- 资源限制: 创建过多的线程可能会消耗大量系统资源。 线程池的大小应根据系统资源和任务的性质进行调整。
- 安全性: 使用 shell=True 执行命令时,需要注意命令注入的风险。 确保命令字符串来自可信来源,或者对输入进行适当的转义。
- 日志记录: 使用 logging 模块记录程序的运行状态,方便调试和排错。
总结:
通过使用线程池,可以并发执行多个子进程,从而显著提高程序的执行效率。 在处理大量并发任务时,线程池是一种非常有用的技术。 请记住考虑超时处理、错误处理、线程安全性和资源限制等因素,以确保程序的正确性和稳定性。
以上是使用線程池並發執行子進程以提高效率的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undress AI Tool
免費脫衣圖片

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Stock Market GPT
人工智慧支援投資研究,做出更明智的決策

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

運行pipinstall-rrequirements.txt可安裝依賴包,建議先創建並激活虛擬環境以避免衝突,確保文件路徑正確且pip已更新,必要時使用--no-deps或--user等選項調整安裝行為。

本教程詳細介紹瞭如何將PEFT LoRA適配器與基礎模型高效合併,生成一個完全獨立的模型。文章指出直接使用transformers.AutoModel加載適配器並手動合併權重是錯誤的,並提供了使用peft庫中merge_and_unload方法的正確流程。此外,教程還強調了處理分詞器的重要性,並討論了PEFT版本兼容性問題及解決方案。

Pytest是Python中簡單強大的測試工具,安裝後按命名規則自動發現測試文件。編寫以test_開頭的函數進行斷言測試,使用@pytest.fixture創建可複用的測試數據,通過pytest.raises驗證異常,支持運行指定測試和多種命令行選項,提升測試效率。

theargparsemodulestherecommondedwaywaytohandlecommand-lineargumentsInpython,提供式刺激,typeValidation,helpmessages anderrornhandling; useSudys.argvforsimplecasesRequeRequeRingminimalSetup。

本文旨在探討Python及NumPy中浮點數計算精度不足的常見問題,解釋其根源在於標準64位浮點數的表示限制。針對需要更高精度的計算場景,文章將詳細介紹並對比mpmath、SymPy和gmpy等高精度數學庫的使用方法、特點及適用場景,幫助讀者選擇合適的工具來解決複雜的精度需求。

PyPDF2、pdfplumber和FPDF是Python處理PDF的核心庫。使用PyPDF2可進行文本提取、合併、拆分及加密,如通過PdfReader讀取頁面並調用extract_text()獲取內容;pdfplumber更適合保留佈局的文本提取和表格識別,支持extract_tables()精準抓取表格數據;FPDF(推薦fpdf2)用於生成PDF,通過add_page()、set_font()和cell()構建文檔並輸出。合併PDF時,PdfWriter的append()方法可集成多個文件

Import@contextmanagerfromcontextlibanddefineageneratorfunctionthatyieldsexactlyonce,wherecodebeforeyieldactsasenterandcodeafteryield(preferablyinfinally)actsas__exit__.2.Usethefunctioninawithstatement,wheretheyieldedvalueisaccessibleviaas,andthesetup

獲取當前時間在Python中可通過datetime模塊實現,1.使用datetime.now()獲取本地當前時間,2.用strftime("%Y-%m-%d%H:%M:%S")格式化輸出年月日時分秒,3.通過datetime.now().time()獲取僅時間部分,4.推薦使用datetime.now(timezone.utc)獲取UTC時間,避免使用已棄用的utcnow(),日常操作以datetime.now()結合格式化字符串即可滿足需求。
