Récupérer des liens à partir de pages Web avec Python et BeautifulSoup
Extraire des liens à partir d'une page Web est une tâche courante dans le web scraping. La bibliothèque BeautifulSoup de Python fournit un moyen efficace et polyvalent d'y parvenir.
Approche
Pour récupérer des liens à partir d'une page Web, vous pouvez suivre les étapes suivantes :
Code Extrait
import httplib2 from bs4 import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request('http://www.nytimes.com') for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')): if link.has_attr('href'): print(link['href'])
Remarque :
Le SoupStrainer est un moyen efficace de filtrer des balises spécifiques pendant le processus d'analyse. Cela peut économiser de la mémoire et améliorer les performances, en particulier lors de l'analyse de pages Web volumineuses.
La documentation BeautifulSoup fournit des explications détaillées et des exemples pour divers scénarios liés à l'analyse de contenu Web.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!