Wie extrahiere ich mit BeautifulSoup \'href\'-Attribute aus verschachtelten HTML-Elementen?-Python-Tutorial-php.cn

Wie extrahiere ich mit BeautifulSoup \'href\'-Attribute aus verschachtelten HTML-Elementen?

Linda Hamilton

Freigeben： 2024-10-28 17:52:29

Original

1030 Leute haben es durchsucht

How to Extract 'href' Attributes from Nested HTML Elements Using BeautifulSoup?

So extrahieren Sie „href“-Attribute mit BeautifulSoup

Bei der Arbeit mit HTML-Daten kann das Abrufen spezifischer Informationen wie „href“-Attribute von entscheidender Bedeutung sein . In diesem Fall haben wir zwei Tags, eines mit verschachtelten Elementen, und das Ziel besteht darin, das „href“-Attribut aus dem „a“-Tag zu extrahieren und dabei den Textinhalt zu ignorieren.

Um dies mit BeautifulSoup zu erreichen, müssen Sie kann die Methode „find_all“ verwenden. Mit dieser Methode können Sie anhand verschiedener Kriterien, einschließlich Attributen, nach Tags suchen. Hier ist der Code:

from bs4 import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print("Found the URL:", a['href'])

Nach dem Login kopieren

Dieser Code durchläuft alle „a“-Tags mit einem „href“-Attribut und gibt den Wert des „href“-Attributs für jedes Tag aus. Die Ausgabe lautet:

Found the URL: some_url
Found the URL: another_url

Nach dem Login kopieren

Wenn Sie alternativ alle Tags mit einem „href“-Attribut abrufen möchten, unabhängig von ihrem Namen, können Sie Folgendes verwenden:

href_tags = soup.find_all(href=True)

Nach dem Login kopieren

Diese Methode gibt eine Liste aller Tags mit einem „href“-Attribut im HTML-Dokument zurück.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich mit BeautifulSoup 'href'-Attribute aus verschachtelten HTML-Elementen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!