BeautifulSoup：將頂級文字與經典標籤查找功能結合？-PHP中文網路問答

文章專題學習下載問答程式設計字典遊戲最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

BeautifulSoup：將頂級文字與經典標籤查找功能結合？

P粉471207302 2023-09-15 09:16:45

400

我正在嘗試使用 BeautifulSoup 從非統一結構的 html 區塊中提取資訊。我正在尋找一種方法來組合搜尋/過濾器輸出中標籤之間的文字區塊。例如，來自 html：

 Description Section1  line1
 line2
 line3
 
 Section2 Content2

我想建立一個輸出列表，忽略某些類型的標籤（上例中的ul和li），但捕獲頂級未標記文字。我發現的最接近的是.select(':not(ul,li)')或.find_all(['strong'])，但兩者都不是它們可以同時捕捉未標記的頂級文字和各種目標標記。理想的行為是這樣的：

.find_all(['strong','UNTAGGED'])

產生如下輸出：

[ Description, Section1, Section2, Content2 ]

P粉471207302

全部回覆 (1)

P粉9051445142023-09-16 00:38:21 1樓

要獲得輸出，您可以先選擇，然後選擇它的next_sibling。

範例

from bs4 import BeautifulSoup html = '''  Description Section1  line1
 line2
 line3
 
 Section2 Content2  ''' soup = BeautifulSoup(html) data = [] for e in soup.select('strong'): data.extend([e,e.next_sibling.strip()]) data

輸出

[Description, 'Section1', Section2, 'Content2']

點贊+0

新增回覆

熱門專題

更多>

php8，我來也

30分鐘學會網站佈局

尚觀Oracle入門到精通視頻教程

你的第一行UNI-APP程式碼

Flutter 從頭到應用程式啟動

兄弟連新版Linux視頻教程

AXURE 9影片教學（適用於產品經理互動產品設計UI）

零基礎PS影片教學

16天帶你入門UI視頻教程

PS技巧和切片技巧影片教學

阿裡雲環境搭建以及項目上線視頻教程

電腦網路概述－程式設計師必須掌握的基礎知識

程式設計師必備教學——HTTP協定講解

Websocket影片教學

範例

輸出