我已經努力了一段時間,試圖為以下任務取得正確的正規表示式:
我想使用 python 從 html 檔案中的表格標籤中刪除資料。為此,我的方法是遞歸執行以下操作(將標籤之間的 HTML 行儲存為字串):
s = "
s = re.sub('<{1}(不是 '<' 也不是 '>').*>{1}', '', s)
我的問題是如何實現括號中粗體部分。謝謝。 您的文字
我試過了
import re test_str = '<td style="color:blue">Hello</td>' test_str = re.sub('<{1}^[<>].*>{1}','',test_str) print(test_str)
你可以看到我的測試字串保持不變。我做錯了什麼?
上面的程式碼我期望給我 test_str =“Hello”,我會將其回饋給此方法,然後提取“”,給我“Hello”。
要否定字元類,應將
^
放在[
之後。此外,您不需要為出現一次的字元指定{1}
。但是,請注意,使用像 BeautifulSoup 這樣的專用 HTML 解析器而不是正規表示式來從 HTML 取得資料更為合適。