如何使用Python正規表示式去除HTML標籤-Python教學-PHP中文網

HTML（HyperText Markup Language）是用於建立網頁頁面的標準語言，它使用標籤和屬性來描述頁面上的各種元素，例如文字、圖像、表格和連結等等。但是，在處理HTML文字時，很難將其中的文字內容快速地提取出來用於後續的處理。這時，我們可以使用Python中的正規表示式來移除HTML標籤，以達到快速擷取純文字的目的。

在Python中，正規表示式模組是re。在移除HTML標籤時，我們可以使用re.sub()函數將HTML標籤替換為空格或其他字符，從而得到純文字內容。以下是具體的實作步驟：

1.取得HTML文字內容
首先，我們需要從網頁或其他檔案讀取HTML文字內容。假設我們已經將HTML檔案儲存到了資料夾中，並且知道了其路徑，那麼我們可以使用Python中的檔案操作函數open()、read()和close()來讀取HTML檔案的內容。

# 打开文件并读取HTML文本内容 file_path = 'path/to/html/file.html' with open(file_path, 'r') as f: html_text = f.read()

登入後複製

2.建立正規表示式模式
我們需要先建立一個正規表示式模式，以符合所有HTML標籤及其內容。下面是一個簡單的模式：

pattern = r'<[^>]+>'

登入後複製

這個模式中，「<」表示符合標籤的開始部分，「¹」表示符合標籤中的所有內容，直到“>”結束標誌。因此，整個模式可以去除一對尖括號之間的所有內容，包括尖括號本身。但這個模式還有一些局限性，例如無法處理嵌套的標籤或註釋等情況，需要根據需要進行修改或升級。

3.使用正規表示式進行替換
接下來，我們可以使用re.sub()函數，將正規表示式模式套用到HTML文字中，完成標籤的取代。目前，我們選擇將所有標籤替換為空格，這樣可以保留文字內容的空格及換行符等格式資訊。

import re # HTML标签替换为空格 pattern = r'<[^>]+>' text_without_html = re.sub(pattern, ' ', html_text)

登入後複製

這段程式碼將會用一個空格取代所有符合的HTML標籤，最後得到一個只包含純文字內容的字串。

4.進一步處理文字內容
如果需要進一步處理文字內容，例如移除多餘空格、標點符號或其它無意義的字元等，我們可以使用Python中的字串運算函數進行處理。以下是一些例子：

# 去除多余空格 text_without_html = re.sub(r's+', ' ', text_without_html) # 去除标点符号 import string text_without_html = ''.join([c for c in text_without_html if c not in string.punctuation])

登入後複製

這些程式碼將會使用Python中的re.sub()函數和字串操作函數來去除多餘的空格和標點符號，從而得到更純淨的文字內容。

總結：
使用Python中的正規表示式可以方便地移除HTML文字中的標籤，並擷取其中的純文字內容。不過，需要注意正規表示式模式的建構和應用，以處理不同的HTML文字情況。