Comment BeautifulSoup peut-il être utilisé pour extraire les attributs HREF des documents HTML ?-Tutoriel Python-php.cn

Comment BeautifulSoup peut-il être utilisé pour extraire les attributs HREF des documents HTML ?

Mary-Kate Olsen

Libérer： 2024-10-29 15:14:02

original

656 Les gens l'ont consulté

How Can BeautifulSoup Be Used to Extract HREF Attributes from HTML Documents?

Extraire des attributs HREF avec BeautifulSoup

Lorsque vous traitez des documents HTML, l'extraction d'éléments et d'attributs spécifiques peut être cruciale. Une tâche courante consiste à récupérer l'attribut « href » des balises « a », qui représentent des hyperliens. Cet article explique comment y parvenir à l'aide de la bibliothèque « BeautifulSoup ».

Considérez l'extrait HTML suivant :

<code class="html"><a href="some_url">next</a>
<span class="class">...</span></code>

Copier après la connexion

Notre objectif est d'extraire la valeur « href », qui est « some_url ». '.

Trouver toutes les balises 'a' avec des attributs HREF

Pour y parvenir, nous pouvons utiliser la méthode 'find_all' de 'BeautifulSoup'. Cette méthode nous permet de rechercher des balises, des attributs et d'autres critères spécifiques dans le document HTML.

<code class="python">for a in soup.find_all('a', href=True):
    print(a['href'])</code>

Copier après la connexion

Ce code recherche toutes les balises 'a' qui ont un attribut 'href' et imprime la valeur de l'attribut 'href' pour chaque balise correspondante.

Omettre le nom de la balise pour tous les attributs HREF

Si nous souhaitons récupérer toutes les balises avec un attribut 'href', nous pouvons omettre la 'tag' argument dans la méthode 'find_all' :

<code class="python">href_tags = soup.find_all(href=True)</code>

Copier après la connexion

Cela renvoie une liste de toutes les balises qui contiennent un attribut 'href', quel que soit leur nom de balise.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!