Comment extraire efficacement les attributs HREF du HTML à l'aide de BeautifulSoup ?-Tutoriel Python-php.cn

Comment extraire efficacement les attributs HREF du HTML à l'aide de BeautifulSoup ?

Mary-Kate Olsen

Libérer： 2024-10-30 18:36:03

original

818 Les gens l'ont consulté

How to Efficiently Extract HREF Attributes from HTML Using BeautifulSoup?

Extraire HREF de BeautifulSoup

Lorsque vous travaillez avec des documents HTML à l'aide de BeautifulSoup, l'extraction d'attributs spécifiques comme href peut être essentielle. Cet article fournit des solutions pour récupérer efficacement les valeurs href, même dans les scénarios où plusieurs balises sont présentes.

Utiliser find_all pour la récupération HREF

Pour cibler uniquement des balises avec des attributs href , utilisez la méthode find_all comme suit :

<code class="python"># Python2
from BeautifulSoup import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print "Found the URL:", a['href']</code>

Copier après la connexion

Cette approche vous permet de parcourir toutes les balises a trouvées et d'imprimer leurs valeurs href. Notez que pour les versions BeautifulSoup antérieures à 4, le nom de la méthode était findAll.

Récupération de toutes les balises avec HREF

Si vous souhaitez obtenir toutes les balises possédant des attributs href, vous pouvez omettez simplement le paramètre name :

<code class="python">href_tags = soup.find_all(href=True)</code>

Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!