BeautifulSoup を使用して 'href' 属性を抽出する方法
HTML データを操作する場合、'href' 属性などの特定の情報を取得することが重要になる場合があります。 。この場合、2 つのタグがあり、1 つはネストされた要素を持ち、目標は、テキストの内容を無視して、'a' タグから 'href' 属性を抽出することです。
BeautifulSoup を使用してこれを達成するには、次のようにします。 「find_all」メソッドを使用できます。この方法を使用すると、属性などのさまざまな基準に基づいてタグを検索できます。コードは次のとおりです。
from bs4 import BeautifulSoup html = '''<a href="some_url">next</a> <span class="class"><a href="another_url">later</a></span>''' soup = BeautifulSoup(html) for a in soup.find_all('a', href=True): print("Found the URL:", a['href'])
このコードは、「href」属性を持つすべての「a」タグを反復処理し、各タグの「href」属性の値を出力します。出力は次のようになります:
Found the URL: some_url Found the URL: another_url
また、名前に関係なく、「href」属性を持つすべてのタグを取得したい場合は、次のメソッドを使用できます:
href_tags = soup.find_all(href=True)
このメソッドHTML ドキュメント内の「href」属性を持つすべてのタグのリストを返します。
以上がBeautifulSoupを使用してネストされたHTML要素から「href」属性を抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。