Lorsque vous traitez des documents HTML, l'extraction d'éléments et d'attributs spécifiques peut être cruciale. Une tâche courante consiste à récupérer l'attribut « href » des balises « a », qui représentent des hyperliens. Cet article explique comment y parvenir à l'aide de la bibliothèque « BeautifulSoup ».
Considérez l'extrait HTML suivant :
<code class="html"><a href="some_url">next</a> <span class="class">...</span></code>
Notre objectif est d'extraire la valeur « href », qui est « some_url ». '.
Pour y parvenir, nous pouvons utiliser la méthode 'find_all' de 'BeautifulSoup'. Cette méthode nous permet de rechercher des balises, des attributs et d'autres critères spécifiques dans le document HTML.
<code class="python">for a in soup.find_all('a', href=True): print(a['href'])</code>
Ce code recherche toutes les balises 'a' qui ont un attribut 'href' et imprime la valeur de l'attribut 'href' pour chaque balise correspondante.
Si nous souhaitons récupérer toutes les balises avec un attribut 'href', nous pouvons omettre la 'tag' argument dans la méthode 'find_all' :
<code class="python">href_tags = soup.find_all(href=True)</code>
Cela renvoie une liste de toutes les balises qui contiennent un attribut 'href', quel que soit leur nom de balise.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!