BeautifulSoup: トップレベルのテキストと従来のタグ検索機能を組み合わせますか?
P粉471207302
P粉471207302 2023-09-15 09:16:45
0
1
513

BeautifulSoup を使用して、不均一な構造の HTML ブロックから情報を抽出しようとしています。検索/フィルター出力のタグ間のテキストのブロックを結合する方法を探しています。たとえば、HTML から:

リーリー

特定の種類のタグ (上記の例では ulli) を無視し、タグなしの最上位テキストをキャプチャする出力リストを作成したいと考えています。私が見つけた最も近いのは .select(':not(ul,li)') または .find_all(['strong']) ですが、どちらも機能しませんトップレベルのテキストとさまざまなターゲットタグを同時に表示します。理想的な動作は次のとおりです:

リーリー

次の出力が生成されます:

ああああ

P粉471207302
P粉471207302

全員に返信(1)
P粉905144514

出力を取得するには、まず を選択し、次にその next_sibling を選択します。

###例### リーリー ###出力### リーリー
いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート