Le
Web scraping est un outil puissant pour collecter des données à partir de sites Web. Que vous collectiez des avis sur des produits, suiviez les prix ou, dans notre cas, scrappiez des livres Goodreads, le web scraping offre des opportunités infinies pour les applications basées sur les données.
Dans cet article de blog, nous explorerons les principes fondamentaux du web scraping, la puissance de la bibliothèque Python BeautifulSoup et décomposerons un script Python conçu pour récupérer les données des Goodreads Choice Awards. Enfin, nous verrons comment stocker ces données dans un fichier CSV pour une analyse ou des applications plus approfondies.
Qu'est-ce que Goodreads ?
Goodreads est la plus grande plateforme au monde de recommandations de lecteurs et de livres. Il permet aux utilisateurs d'accéder aux critiques de livres, aux détails des auteurs et aux classements populaires. Chaque année, Goodreads organise les Goodreads Choice Awards, où les lecteurs votent pour leurs livres préférés dans divers genres comme la fiction, la fantasy, la romance, etc. Cela fait de Goodreads une cible idéale pour le web scraping afin de recueillir des informations sur les livres et les auteurs tendances.
Le Web scraping consiste à extraire des données de sites Web de manière automatisée. Il vous permet de collecter et de structurer des informations pour des tâches telles que :
Avant de plonger dans le script, vous devez installer les bibliothèques nécessaires.
Installer Python
Assurez-vous que Python est installé sur votre système.
Installer les bibliothèques requises
Installez les bibliothèques requises à l'aide de pip :
pip install beautifulsoup4 pip install requests
requête : permet d'envoyer des requêtes HTTP vers une URL et de récupérer le contenu de la page Web.
BeautifulSoup : simplifie l'analyse HTML et l'extraction de données.
Une fois ces installations terminées, vous êtes prêt à scrapper !
BeautifulSoup est une bibliothèque Python pour analyser les documents HTML et XML. Il permet aux développeurs de parcourir les structures de pages, d'extraire du contenu et de transformer le HTML brut en un format structuré.
Méthodes clés dans BeautifulSoup
Voici quelques méthodes essentielles que nous utiliserons dans notre script :
Pour une liste complète des méthodes, consultez la documentation BeautifulSoup.
Commençons par importer les bibliothèques nécessaires et définir des en-têtes personnalisés pour imiter un navigateur. Cela permet d'éviter d'être bloqué par le site Web.
pip install beautifulsoup4 pip install requests
Nous commençons par définir les URL de la page Goodreads’ Choice Awards et de l’application principale. Nous enverrons une demande à start_url et obtiendrons le contenu de la page Web.
from bs4 import BeautifulSoup as bs import requests import re import csv HEADERS = { "User-Agent": "Mozilla/5.0 (X11; Linux x86_64)...", "Accept-Language": "en-US, en;q=0.5", }
Chaque catégorie contient un genre et un lien vers sa page respective. En utilisant soup.select, nous extrayons toutes les catégories répertoriées sous la classe .category.
Ensuite, parcourez chaque catégorie pour obtenir le nom du genre et l'URL de sa page.
app_url = "https://www.goodreads.com" start_url = "https://www.goodreads.com/choiceawards/best-books-2024" res = requests.get(start_url, headers=HEADERS) soup = bs(res.text, 'html.parser') categories = soup.select('.category')
Ici, nous extrayons le nom de la catégorie (genre) et l'URL de la page de catégorie pour un traitement ultérieur.
Nous enverrons une autre demande à chaque URL de catégorie et localiserons tous les livres de cette catégorie.
for index, category in enumerate(categories): genre = category.select('h4.category__copy')[0].text.strip() url = category.select('a')[0].get('href') category_url = f"{app_url}{url}"
category_books contiendra la liste de tous les livres de la catégorie respective.
Une fois que nous aurons la liste des livres, nous allons parcourir chaque livre et extraire les données.
Extraire les votes
res = requests.get(category_url, headers=HEADERS) soup = bs(res.text, 'html.parser') category_books = soup.select('.resultShown a.pollAnswer__bookLink')
Si on voit dans le DOM, le décompte des votes est présent dans l'élément parent de l'élément catégorie. Nous devons donc utiliser la méthode find_parent pour localiser l'élément et extraire le décompte des votes.
Extraire le titre du livre, l'auteur et l'URL de l'image
for book_index, book in enumerate(category_books): parent_tag = book.find_parent(class_='resultShown') votes = parent_tag.find(class_='result').text.strip() book_votes = clean_string(votes).split(" ")[0].replace(",", "")
L'URL de chaque livre, l'URL de l'image de couverture, le titre et l'auteur sont extraits.
La fonction clean_string garantit que le titre est soigneusement formaté. Vous pouvez le définir en haut du script
book_url = book.get('href') book_url_formatted = f"{app_url}{book_url}" book_img = book.find('img') book_img_url = book_img.get('src') book_img_alt = book_img.get('alt') book_title = clean_string(book_img_alt) print(book_title) book_name = book_title.split('by')[0].strip() book_author = book_title.split('by')[1].strip()
Extraire plus de détails sur le livre
Pour obtenir plus de détails sur le livre comme la note, les critiques, etc., nous enverrons une autre demande à book_url_formatted.
def clean_string(string): cleaned = re.sub(r'\s+', ' ', string).strip() return cleaned
Ici, get_ratings_reviews renvoie le texte des notes et des avis bien formaté.
Vous pouvez définir cette fonction en haut du script.
pip install beautifulsoup4 pip install requests
En accédant à la page de détails de chaque livre, des informations supplémentaires telles que des notes, des critiques et des descriptions détaillées sont extraites. Ici, nous vérifions également si l'élément de description du livre existe, sinon nous mettons une description par défaut pour que le script n'échoue pas.
from bs4 import BeautifulSoup as bs import requests import re import csv HEADERS = { "User-Agent": "Mozilla/5.0 (X11; Linux x86_64)...", "Accept-Language": "en-US, en;q=0.5", }
Ici, nous avons également rassemblé les détails de l'auteur, les informations de publication et d'autres métadonnées.
Créer un dictionnaire de livres
Stockons toutes les données que nous avons extraites pour un livre dans un dictionnaire.
app_url = "https://www.goodreads.com" start_url = "https://www.goodreads.com/choiceawards/best-books-2024" res = requests.get(start_url, headers=HEADERS) soup = bs(res.text, 'html.parser') categories = soup.select('.category')
Nous utiliserons ce dictionnaire pour ajouter les données dans un fichier csv.
Nous utiliserons le module csv qui fait partie de la bibliothèque standard de Python. Vous n'avez donc pas besoin de l'installer séparément.
Nous devons d’abord vérifier s’il s’agit de la première entrée. Cette vérification est obligatoire pour ajouter l'en-tête dans le fichier csv en première ligne.
for index, category in enumerate(categories): genre = category.select('h4.category__copy')[0].text.strip() url = category.select('a')[0].get('href') category_url = f"{app_url}{url}"
Nous utilisons mode="w" qui créera un nouveau fichier csv avec l'entrée d'en-tête.
Maintenant, pour toutes les entrées suivantes, nous ajouterons les données au fichier CSV :
res = requests.get(category_url, headers=HEADERS) soup = bs(res.text, 'html.parser') category_books = soup.select('.resultShown a.pollAnswer__bookLink')
mode="a" ajoutera les données au fichier CSV.
Maintenant, asseyez-vous, détendez-vous et savourez une tasse de café ☕️ pendant que le script s'exécute.
Une fois cela fait, les données finales ressembleront à ceci :
Vous pouvez trouver le code source complet dans ce référentiel github.
Nous avons appris à récupérer les données Goodreads à l'aide de Python et BeautifulSoup. De la configuration de base au stockage des données dans un fichier CSV, nous avons exploré tous les aspects du processus de scraping. Les données récupérées peuvent être utilisées pour :
Le Web scraping ouvre des possibilités d'analyse et d'applications créatives de données. Avec des bibliothèques comme BeautifulSoup, même les tâches de scraping complexes deviennent gérables. N'oubliez pas de suivre des pratiques éthiques et de respecter les conditions d'utilisation du site Web lors du scraping !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!