Maison > développement back-end > Tutoriel Python > Comment extraire efficacement les attributs HREF du HTML à l'aide de BeautifulSoup ?

Comment extraire efficacement les attributs HREF du HTML à l'aide de BeautifulSoup ?

Mary-Kate Olsen
Libérer: 2024-10-30 18:36:03
original
818 Les gens l'ont consulté

How to Efficiently Extract HREF Attributes from HTML Using BeautifulSoup?

Extraire HREF de BeautifulSoup

Lorsque vous travaillez avec des documents HTML à l'aide de BeautifulSoup, l'extraction d'attributs spécifiques comme href peut être essentielle. Cet article fournit des solutions pour récupérer efficacement les valeurs href, même dans les scénarios où plusieurs balises sont présentes.

Utiliser find_all pour la récupération HREF

Pour cibler uniquement des balises avec des attributs href , utilisez la méthode find_all comme suit :

<code class="python"># Python2
from BeautifulSoup import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print "Found the URL:", a['href']</code>
Copier après la connexion

Cette approche vous permet de parcourir toutes les balises a trouvées et d'imprimer leurs valeurs href. Notez que pour les versions BeautifulSoup antérieures à 4, le nom de la méthode était findAll.

Récupération de toutes les balises avec HREF

Si vous souhaitez obtenir toutes les balises possédant des attributs href, vous pouvez omettez simplement le paramètre name :

<code class="python">href_tags = soup.find_all(href=True)</code>
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal