Maison interface Web js tutoriel Comment faire du Web Scrape avec Puppeteer : un guide convivial pour les débutants

Comment faire du Web Scrape avec Puppeteer : un guide convivial pour les débutants

Jan 08, 2025 am 12:46 AM

How to Web Scrape with Puppeteer: A Beginner-Friendly Guide

Le Web scraping est un outil incroyablement puissant pour collecter des données à partir de sites Web. Avec Puppeteer, la bibliothèque de navigateur sans tête de Google pour Node.js, vous pouvez automatiser le processus de navigation dans les pages, de clic sur les boutons et d'extraction d'informations, tout en imitant le comportement de navigation humain. Ce guide vous guidera à travers les bases du web scraping avec Puppeteer d'une manière simple, claire et exploitable.

Qu'est-ce que le Marionnettiste ?

Puppeteer est une bibliothèque Node.js qui vous permet de contrôler une version sans tête de Google Chrome (ou Chromium). Un navigateur sans tête fonctionne sans interface utilisateur graphique (GUI), ce qui le rend plus rapide et parfait pour les tâches d'automatisation telles que le scraping. Cependant, Puppeteer peut également fonctionner en mode navigateur complet si vous avez besoin de voir ce qui se passe visuellement.

Pourquoi choisir Puppeteer pour le Web Scraping ?

Flexibilité : Puppeteer gère facilement les sites Web dynamiques et les applications monopage (SPA).
Prise en charge de JavaScript : il exécute JavaScript sur les pages, ce qui est essentiel pour supprimer les applications Web modernes.
Puissance d'automatisation : vous pouvez effectuer des tâches telles que remplir des formulaires, cliquer sur des boutons et même prendre des captures d'écran.

Utiliser des proxys avec Puppeteer

Lors du scraping de sites Web, les proxys sont essentiels pour éviter les interdictions IP et accéder au contenu géo-restreint. Les proxys agissent comme intermédiaires entre votre scraper et le site Web cible, masquant votre véritable adresse IP. Pour Puppeteer, vous pouvez facilement intégrer des proxys en les passant comme arguments de lancement :

javascript
Copier le code
const navigateur = wait puppeteer.launch({
args : ['--proxy-server=votre-proxy-server:port']
});
Les proxys sont particulièrement utiles pour intensifier vos efforts de scraping. Les proxys rotatifs garantissent que chaque requête provient d'une adresse IP différente, réduisant ainsi les chances de détection. Les proxys résidentiels, connus pour leur authenticité, sont excellents pour contourner les défenses contre les robots, tandis que les proxys des centres de données sont plus rapides et plus abordables. Choisissez le type qui correspond à vos besoins de grattage et testez toujours les performances pour garantir la fiabilité.

Mise en place du marionnettiste

Avant de commencer à gratter, vous devrez configurer Puppeteer. Passons au processus étape par étape :
Étape 1 : Installez Node.js et Puppeteer
Installez Node.js : Téléchargez et installez Node.js depuis le site officiel.
Configurer Puppeteer : ouvrez votre terminal et exécutez la commande suivante :
bash
Copier le code
npm installer le marionnettiste

Cela installera Puppeteer et Chromium, le navigateur qu'il contrôle.
Étape 2 : Écrivez votre premier scénario de marionnettiste
Créez un nouveau fichier JavaScript, scraper.js. Cela hébergera votre logique de scraping. Écrivons un script simple pour ouvrir une page Web et extraire son titre :
javascript
Copier le code
const marionnettiste = require('marionnettiste');

(async() => {
const navigateur = wait puppeteer.launch();
const page = attendre navigateur.newPage();

// Naviguer vers un site Web
attendre page.goto('https://example.com');

// Extraire le titre
const title = attendre page.title();
console.log(Titre de la page : ${title});

attendre navigateur.close();
})();

Exécutez le script en utilisant :
bash
Copier le code
nœud scraper.js

Vous venez d'écrire votre premier grattoir Marionnettiste !

Fonctionnalités de base du marionnettiste pour le grattage

Maintenant que vous maîtrisez les bases, explorons quelques fonctionnalités clés de Puppeteer que vous utiliserez pour le scraping.

  1. Navigation vers les pages
    La méthode page.goto(url) vous permet d'ouvrir n'importe quelle URL. Ajoutez des options telles que les paramètres de délai d'expiration si nécessaire :
    javascript
    Copier le code
    wait page.goto('https://example.com', { timeout: 60000 });

  2. Sélection des éléments
    Utilisez des sélecteurs CSS pour identifier les éléments sur une page. Puppeteer propose des méthodes telles que :
    page.$(sélecteur) pour le premier match
    page.$$(sélecteur) pour tous les matchs
    Exemple :
    javascript
    Copier le code
    élément const = page d'attente.$('h1');
    const text = wait page.evaluate(el => el.textContent, element);
    console.log(Titre : ${text});

  3. Interagir avec les éléments
    Simulez les interactions des utilisateurs, telles que les clics et la saisie :
    javascript
    Copier le code
    attendre page.click('#submit-button');
    wait page.type('#search-box', 'Puppeteer scraping');

  4. En attente des éléments
    Les pages Web se chargent à différentes vitesses. Puppeteer vous permet d'attendre des éléments avant de continuer :
    javascript
    Copier le code
    wait page.waitForSelector('#dynamic-content');

  5. Prendre des captures d'écran
    Le débogage visuel ou l'enregistrement de données sous forme d'images est facile :
    javascript
    Copier le code
    wait page.screenshot({ chemin : 'screenshot.png', fullPage : true });

Gestion du contenu dynamique

De nombreux sites Web utilisent aujourd'hui JavaScript pour charger du contenu de manière dynamique. Puppeteer brille ici car il exécute JavaScript, vous permettant de récupérer le contenu qui pourrait ne pas être visible dans la source de la page.
Exemple : Extraction de données dynamiques
javascript
Copier le code
attendre page.goto('https://news.ycombinator.com');
attendre page.waitForSelector('.storylink');

const headlines = wait page.$$eval('.storylink', links => links.map(link => link.textContent));
console.log('Titres :', titres);

Gérer le CAPTCHA et la détection de robots

Certains sites Web ont mis en place des mesures pour bloquer les robots. Le Marionnettiste peut aider à contourner des contrôles simples :
Utiliser le mode furtif : installez le plugin puppeteer-extra :
bash
Copier le code
npm install marionnettiste-extra marionnettiste-extra-plugin-stealth
Ajoutez-le à votre script :
javascript
Copier le code
const marionnettiste = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

Imitez le comportement humain : randomisez les actions telles que les mouvements de la souris et les vitesses de frappe pour paraître plus humain.
Rotation des agents utilisateurs : modifiez l'agent utilisateur de votre navigateur à chaque demande :
javascript
Copier le code
wait page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');

Sauvegarde des données récupérées

Après avoir extrait les données, vous souhaiterez probablement les enregistrer. Voici quelques formats courants :
JSON :
javascript
Copier le code
const fs = require('fs');
const data = { nom : 'Marionnette', type : 'bibliothèque' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));

CSV : utilisez une bibliothèque comme csv-writer :
bash
Copier le code
npm installer csv-writer
javascript
Copier le code
const createCsvWriter = require('csv-writer').createObjectCsvWriter;

const csvWriter = createCsvWriter({
chemin : 'data.csv',
en-tête : [
{ identifiant : 'nom', titre : 'Nom' },
{ id : 'type', titre : 'Type' }
]
});

const records = [{ nom : 'Marionnette', type : 'bibliothèque' }];
csvWriter.writeRecords(records).then(() => console.log('Fichier CSV écrit.'));
Pratiques éthiques de Web Scraping
Avant de supprimer un site Web, gardez ces directives éthiques à l'esprit :
Vérifiez les conditions d'utilisation : assurez-vous toujours que le site Web autorise le scraping.
Respectez les limites de débit : évitez d’envoyer trop de demandes en peu de temps. Utilisez setTimeout ou page.waitForTimeout() de Puppeteer pour espacer les requêtes :
javascript
Copier le code
attendre page.waitForTimeout(2000); // Attend 2 secondes

Évitez les données sensibles : ne récupérez jamais d'informations personnelles ou privées.

Dépannage des problèmes courants

La page ne se charge pas correctement : essayez d'ajouter un délai d'attente plus long ou d'activer le mode navigateur complet :
javascript
Copier le code
const navigateur = wait puppeteer.launch({ headless: false });

Les sélecteurs ne fonctionnent pas : inspectez le site Web avec les outils de développement du navigateur (Ctrl Maj C) pour confirmer les sélecteurs.
Bloqué par CAPTCHA : utilisez le plugin furtif et imitez le comportement humain.

Foire aux questions (FAQ)

  1. Le marionnettiste est-il gratuit ? Oui, Puppeteer est open source et gratuit.
  2. Puppeteer peut-il gratter des sites Web contenant beaucoup de JavaScript ? Absolument! Puppeteer exécute JavaScript, ce qui le rend parfait pour scraper des sites dynamiques.
  3. Le Web Scraping est-il légal ? Ça dépend. Vérifiez toujours les conditions d’utilisation du site Web avant de gratter.
  4. Le marionnettiste peut-il contourner le CAPTCHA ? Puppeteer peut gérer les défis CAPTCHA de base, mais les défis avancés peuvent nécessiter des outils tiers.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Porce de variable PHP expliquée
1 Il y a quelques mois By 百草
Commentant le code en php
4 Il y a quelques semaines By 百草
Conseils pour écrire des commentaires PHP
4 Il y a quelques semaines By 百草
<🎜>: Grow A Garden - Guide complet des marchands itinérants
3 Il y a quelques semaines By Jack chen

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel PHP
1510
276
Appareils et contextes avancés JavaScript Appareils et contextes avancés JavaScript Jul 24, 2025 am 12:42 AM

La portée de JavaScript détermine la portée d'accessibilité des variables, qui sont divisées en étendue globale, fonction et au niveau du bloc; Le contexte détermine la direction de cela et dépend de la méthode d'appel de fonction. 1. Les étendues incluent la portée globale (accessible n'importe où), la portée de la fonction (valide uniquement dans la fonction) et la portée au niveau du bloc (LET et const sont valides dans {}). 2. Le contexte d'exécution contient l'objet variable, la chaîne de portée et les valeurs de cela. Cela pointe vers global ou non défini dans la fonction ordinaire, l'appel de méthode pointe vers l'objet d'appel, le constructeur pointe vers le nouvel objet, et peut également être explicitement spécifié par appel / application / liaison. 3. La fermeture fait référence aux fonctions accédant et en se souvenant des variables de portée externes. Ils sont souvent utilisés pour l'encapsulation et le cache, mais peuvent provoquer

Construire des iframes de sable à sable sécurisé avec JavaScript Construire des iframes de sable à sable sécurisé avec JavaScript Jul 16, 2025 am 02:33 AM

Pour utiliser JavaScript pour créer un sandbox sable sécurisé iframe, utilisez d'abord l'attribut de bac à sable de HTML pour limiter le comportement IFRAME, tel que l'interdiction de l'exécution du script, des fenêtres contextuelles et de la soumission de formulaire; Deuxièmement, en ajoutant des jetons spécifiques tels que des scénaristes pour assouplir les autorisations au besoin; Combinez ensuite PostMessage () pour obtenir une communication inter-domaine sécurisée, tout en vérifiant strictement les sources et les données de messages; Enfin, évitez les erreurs de configuration courantes, telles que ne pas vérifier la source, ne pas configurer CSP, etc., et effectuer des tests de sécurité avant de se rendre en ligne.

Comment obtenir la valeur d'un bouton radio sélectionné avec JS? Comment obtenir la valeur d'un bouton radio sélectionné avec JS? Jul 18, 2025 am 04:17 AM

Il existe deux méthodes de base pour obtenir la valeur du bouton radio sélectionné. 1. Utilisez QuerySelector pour obtenir directement l'élément sélectionné, et utilisez l'entrée [name = "Votre nom-radio"]: Sélecteur vérifié pour obtenir l'élément sélectionné et lire son attribut de valeur. Il convient aux navigateurs modernes et a un code concis; 2. Utilisez Document.PetelementsByName pour traverser et trouver la première radio vérifiée via la boucle Nodelist et obtenir sa valeur, qui convient aux scénarios compatibles avec les anciens navigateurs ou nécessitent un contrôle manuel du processus; De plus, vous devez faire attention à l'orthographe de l'attribut de nom, à la gestion des situations non sélectionnées et à un chargement dynamique du contenu

Maîtriser les modèles de concurrence JavaScript: les travailleurs du web contre les threads Java Maîtriser les modèles de concurrence JavaScript: les travailleurs du web contre les threads Java Jul 25, 2025 am 04:31 AM

Il existe une différence essentielle entre les travailleurs Web de JavaScript et Javathreads dans un traitement simultané. 1. JavaScript adopte un modèle unique. WebWorkers est un fil indépendant fourni par le navigateur. Il convient pour effectuer des tâches longues qui ne bloquent pas l'interface utilisateur, mais ne peuvent pas utiliser le DOM; 2. Java prend en charge le multithreading réel à partir du niveau de la langue, créé via la classe de threads, adapté à un traitement simultanée complexe et côté serveur; 3. Les travailleurs Web utilisent PostMessage () pour communiquer avec le fil principal, qui est hautement sécurisé et isolé; Les threads Java peuvent partager la mémoire, de sorte que les problèmes de synchronisation doivent être prêts à prêter attention; 4. Les travailleurs Web sont plus adaptés à l'informatique parallèle frontale, comme le traitement d'image, et

API de composition Vue 3 Vs API Options: une comparaison détaillée API de composition Vue 3 Vs API Options: une comparaison détaillée Jul 25, 2025 am 03:46 AM

CompositionAPI dans Vue3 convient plus à la logique complexe et à la dérivation de type, et OptionsAPI convient aux scénarios et débutants simples; 1. OptionsAPI organise le code en fonction d'options telles que les données et les méthodes, et a une structure claire mais les composants complexes sont fragmentés; 2. CompositionAPI utilise la configuration pour concentrer la logique liée, ce qui est propice à la maintenance et à la réutilisation; 3. CompositionAPI réalise la réutilisation logique sans conflit et paramétrisable par le biais de fonctions composables, ce qui est mieux que le mixin; 4. CompositionAPI a une meilleure prise en charge de la dérivation de type dactylographiée et de type plus précise; 5. Il n'y a pas de différence significative dans le volume de performances et d'emballage des deux; 6.

Techniques de débogage avancées pour les applications JavaScript complexes, en utilisant les principes du débogueur Java Techniques de débogage avancées pour les applications JavaScript complexes, en utilisant les principes du débogueur Java Jul 17, 2025 am 01:42 AM

Le débogage des applications JavaScript complexes nécessite des outils d'utilisation systématiques. 1. Définissez des points d'arrêt et des points d'arrêt conditionnels pour intercepter les processus suspects, tels qu'avant l'entrée de la fonction, la boucle, le rappel asynchrone et le filtre en fonction des conditions; 2. Activer la fonction BlackBoxing pour bloquer les interférences de bibliothèque tierce; 3. Utiliser les déclarations du débogueur pour contrôler l'entrée de débogage en fonction du jugement environnemental; 4. Tracez le lien d'appel via CallStack, analysez le chemin d'exécution et l'état de la variable, localisez ainsi efficacement la cause profonde du problème.

Exploration des règles de coercition de type en javascript Exploration des règles de coercition de type en javascript Jul 21, 2025 am 02:31 AM

La coulée de type est le comportement de la conversion automatique d'un type de valeur en un autre type en JavaScript. Les scénarios courants incluent: 1. Lorsque vous utilisez des opérateurs, si un côté est une chaîne, l'autre côté sera également converti en une chaîne, comme '5' 5. Le résultat est "55"; 2. Dans le contexte booléen, les valeurs non cooliennes seront implicitement converties en types booléens, tels que des chaînes vides, 0, nuls, non définies, etc., qui sont considérées comme fausses; 3. Null participe aux opérations numériques et sera convertie en 0, et non défini sera converti en NAN; 4. Les problèmes causés par la conversion implicite peuvent être évitées grâce à des fonctions de conversion explicites telles que Number (), String () et Boolean (). La maîtrise de ces règles aide

Comment formater une date dans JS? Comment formater une date dans JS? Jul 20, 2025 am 12:10 AM

Les dates de format dans JavaScript peuvent être implémentées via des méthodes natives ou des bibliothèques tierces. 1. Utilisez des coutures d'objets à date native: Obtenez la partie de date via Gettillyar, Getmonth, GetDate et d'autres méthodes, et les épisser manuellement dans des formats Yyyy-MM et d'autres, qui conviennent aux besoins légers et ne reposent pas sur des bibliothèques tierces; 2. Utilisez la méthode TolocaleDateString: vous pouvez sortir tel que le format mm / dd / yyyy en fonction des habitudes locales, en charge multilingue, mais le format peut être incohérent en raison de différents environnements; 3. Utilisez des bibliothèques tierces telles que Day.js ou Date-FNS: Fournit une syntaxe concise et des fonctions riches, adaptées aux opérations fréquentes ou lorsque l'extensibilité est requise, comme DayJS ()

See all articles