Récupération de liens de pages Web avec Python et BeautifulSoup
Question : Comment extraire les hyperliens d'une page Web et obtenir leurs URL en utilisant Python ?
Réponse :
Pour extraire efficacement les liens et les adresses URL d'une page Web à l'aide de Python et BeautifulSoup, vous pouvez utiliser la classe SoupStrainer. Voici un extrait de code :
import httplib2 from bs4 import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request('http://www.nytimes.com') for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')): if link.has_attr('href'): print(link['href'])
Ce code récupère d'abord le contenu HTML d'une page Web (à l'aide de la bibliothèque httplib2). Ensuite, il utilise BeautifulSoup pour analyser le code HTML, en filtrant uniquement les balises à l'aide de la classe SoupStrainer pour une meilleure efficacité. Enfin, il parcourt les balises a et imprime l'attribut href de chacune, extrayant ainsi efficacement les URL des liens.
Reportez-vous à la documentation BeautifulSoup pour des informations plus détaillées sur les différents scénarios d'analyse :
[BeautifulSoup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!