Comment puis-je extraire des hyperliens et des URL d'une page Web à l'aide de Python et BeautifulSoup ?-Tutoriel Python-php.cn

Comment puis-je extraire des hyperliens et des URL d'une page Web à l'aide de Python et BeautifulSoup ?

Patricia Arquette

Libérer： 2024-12-08 00:12:11

original

1020 Les gens l'ont consulté

How Can I Extract Hyperlinks and URLs from a Webpage Using Python and BeautifulSoup?

Récupération de liens de pages Web avec Python et BeautifulSoup

Question : Comment extraire les hyperliens d'une page Web et obtenir leurs URL en utilisant Python ?

Réponse :

Pour extraire efficacement les liens et les adresses URL d'une page Web à l'aide de Python et BeautifulSoup, vous pouvez utiliser la classe SoupStrainer. Voici un extrait de code :

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

Copier après la connexion

Ce code récupère d'abord le contenu HTML d'une page Web (à l'aide de la bibliothèque httplib2). Ensuite, il utilise BeautifulSoup pour analyser le code HTML, en filtrant uniquement les balises à l'aide de la classe SoupStrainer pour une meilleure efficacité. Enfin, il parcourt les balises a et imprime l'attribut href de chacune, extrayant ainsi efficacement les URL des liens.

Reportez-vous à la documentation BeautifulSoup pour des informations plus détaillées sur les différents scénarios d'analyse :

[BeautifulSoup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!