如何使用正規表示式在 Python 中提取兩個字串之間的最短匹配？-Python教學-PHP中文網

如何使用正規表示式在 Python 中提取兩個字串之間的最短匹配？

DDD

發布： 2024-10-24 02:56:29

原創

384 人瀏覽過

How to Extract Shortest Matches Between Two Strings in Python with Regex?

提取兩個字串之間的最短匹配

處理大型日誌檔案時，提取兩個字串之間的特定數據可能是一個挑戰。當開始和結束字串在整個文件中多次出現時，任務會變得更加複雜，並且所需的輸出涉及最短匹配。

正規表示式解決方案

解決此問題，可以採用正規表示式方法。理想的正規表示式將捕獲開始和結束字串之間的文本，並優先考慮最短的匹配。

提供的正規表示式 (start((?!start).)*?end) 滿足以下條件：

start 與起始字串完全匹配。
((?!start).)*?使用惰性量詞 *? 重複匹配 start 以外的任何字元優先考慮最短匹配。
end 完全符合結束字串。

使用 Python 實作

在 Python 中， re 模組提供應用此正規表示式的必要功能。下面的程式碼示範如何使用re.findall 提取最短匹配：

<code class="python">import re

text = "start spam\nstart rubbish\nstart wait for it...\n    profit!\nhere end\nstart garbage\nstart second match\nwin. end"

matches = re.findall('(start((?!start).)*?end)', text, re.S)

for match in matches:
    print(match)</code>

登入後複製

輸出：

start wait for it...
    profit!
here end
start second match
win. end

登入後複製

大檔案的其他注意事項

對於特別大的檔案（例如2GB），效率變得至關重要。可以應用以下最佳化：

利用基於緩衝區的方法來避免將整個檔案讀入記憶體。
使用正規表示式引擎標誌（如 re.MULTILINE）來處理多個線路輸入。

以上是如何使用正規表示式在 Python 中提取兩個字串之間的最短匹配？的詳細內容。更多資訊請關注PHP中文網其他相關文章！