私は、次のタスクのための正しい正規表現を取得するのにしばらく苦労してきました:
Pythonを使用してHTMLファイル内のテーブルタグからデータを削除したいと考えています。これに対する私のアプローチは、次のことを再帰的に実行することです (タグ間の HTML 行を文字列として保存します)。
s = "必須コンテンツ
は '<{1}('<' 也不是 '> ではありません).*>{1}', '', s)
テスト文字列が同じままであることがわかります。私が何を間違えたのでしょうか? 私が期待している上記のコードは私に与えます test_str = "Hello
" の場合、これをこのメソッドにフィードバックし、"" を抽出して "Hello" を返します。
文字クラスを否定するには、
リーリー[
の後に^
を置きます。また、1 回出現する文字については{1}
を指定する必要はありません。ただし、HTML からデータを取得するには、正規表現の代わりに BeautifulSoup のような専用の HTML パーサーを使用する方が適切であることに注意してください。