Extraire des Hrefs du HTML à l'aide de BeautifulSoup
Dans le web scraping, extraire des informations spécifiques du HTML est une tâche courante. Une de ces informations peut être l'attribut href des balises d'ancrage (). BeautifulSoup, une bibliothèque Python largement utilisée, fournit diverses méthodes pour naviguer dans le HTML et récupérer les éléments souhaités.
Considérons une situation dans laquelle nous devons extraire le href du HTML contenant plusieurs balises, notamment et Ceci renvoie une liste de toutes les balises HTML avec un attribut href.<code class="python">from bs4 import BeautifulSoup
html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''
soup = BeautifulSoup(html)
for a in soup.find_all('a', href=True):
print("Found the URL:", a['href'])<p>La méthode find_all prend deux arguments : le nom de la balise à rechercher et un dictionnaire facultatif d'attributs à filtrer. Dans ce cas, nous recherchons les balises 'a' avec l'attribut href, puis nous imprimons la valeur de l'attribut href pour chaque balise correspondante.</p>
<p>Pour les anciennes versions de BeautifulSoup, le nom de la méthode est 'findAll'. au lieu de 'find_all'.</p>
<p>Notez que si nous voulons extraire toutes les balises avec un attribut href, quel que soit leur nom, nous pouvons omettre le paramètre tag name :</p>
<pre class="brush:php;toolbar:false"><code class="python">href_tags = soup.find_all(href=True)</code>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!