如何使用 Puppeteer 进行网页抓取：初学者友好指南-js教程-PHP中文网

How to Web Scrape with Puppeteer: A Beginner-Friendly Guide

网络抓取是从网站收集数据的极其强大的工具。借助 Puppeteer（Google 的 Node.js 无头浏览器库），您可以自动执行页面导航、单击按钮和提取信息的过程，同时模仿人类浏览行为。本指南将以简单、清晰且可操作的方式引导您了解使用 Puppeteer 进行网页抓取的基本知识。

什么是傀儡师？

Puppeteer 是一个 Node.js 库，可让您控制 Google Chrome（或 Chromium）的无头版本。无头浏览器在没有图形用户界面 (GUI) 的情况下运行，使其速度更快，非常适合抓取等自动化任务。但是，如果您需要直观地查看正在发生的情况，Puppeteer 也可以在完整浏览器模式下运行。

为什么选择 Puppeteer 进行网页抓取？

灵活性：Puppeteer 可以轻松处理动态网站和单页应用程序 (SPA)。
JavaScript 支持：它在页面上执行 JavaScript，这对于抓取现代网络应用程序至关重要。
自动化能力：您可以执行填写表格、单击按钮甚至截屏等任务。

将代理与 Puppeteer 一起使用

抓取网站时，代理对于避免 IP 禁令和访问地理限制内容至关重要。代理充当您的抓取工具和目标网站之间的中介，掩盖您的真实 IP 地址。对于 Puppeteer，您可以通过将代理作为启动参数传递来轻松集成代理：

javascript
复制代码
const browser = wait puppeteer.launch({
args: ['--proxy-server=your-proxy-server:port']
});
代理对于扩展抓取工作特别有用。轮换代理可确保每个请求都来自不同的 IP，从而减少检测到的机会。住宅代理以其真实性而闻名，非常适合绕过机器人防御，而数据中心代理速度更快、价格更便宜。选择符合您的抓取需求的类型，并始终测试性能以确保可靠性。

设置 Puppeteer

开始抓取之前，您需要设置 Puppeteer。让我们深入了解分步过程：
第 1 步：安装 Node.js 和 Puppeteer
安装Node.js：从官网下载并安装Node.js。
设置 Puppeteer：打开终端并运行以下命令：
重击
复制代码
npm install puppeteer

这将安装 Puppeteer 和 Chromium，它控制的浏览器。
第 2 步：编写你的第一个 Puppeteer 脚本
创建一个新的 JavaScript 文件 scraper.js。这将容纳您的抓取逻辑。让我们编写一个简单的脚本来打开网页并提取其标题：
javascript
复制代码
const puppeteer = require('puppeteer');

(async () => {
const browser = wait puppeteer.launch();
const page = wait browser.newPage();

// 导航到网站
等待 page.goto('https://example.com');

// 提取标题
const title = wait page.title();
console.log(页面标题: ${title});

等待 browser.close();
})();

使用以下命令运行脚本：
重击
复制代码
节点 scraper.js

您刚刚编写了第一个 Puppeteer scraper！

用于抓取的核心 Puppeteer 功能

现在您已经掌握了基础知识，让我们来探索一些用于抓取的关键 Puppeteer 功能。

导航至页面
page.goto(url) 方法允许您打开任何 URL。如果需要，添加超时设置等选项：
javascript
复制代码
wait page.goto('https://example.com', { timeout: 60000 });
选择元素
使用 CSS 选择器来精确定位页面上的元素。 Puppeteer 提供了如下方法：
第一个匹配的 page.$(selector)
page.$$(选择器) 适用于所有匹配
示例：
javascript
复制代码
const 元素=await page.$('h1');
const text = wait page.evaluate(el => el.textContent, element);
console.log(标题: ${text});
与元素互动
模拟用户交互，例如点击和键入：
javascript
复制代码
等待 page.click('#submit-button');
wait page.type('#search-box', 'Puppeteer scraping');
等待元素
网页以不同的速度加载。 Puppeteer 允许您在继续操作之前等待元素：
javascript
复制代码
等待 page.waitForSelector('#dynamic-content');
截图
可视化调试或将数据保存为图像很容易：
javascript
复制代码
wait page.screenshot({ path: 'screenshot.png', fullPage: true });

处理动态内容

当今许多网站使用 JavaScript 动态加载内容。 Puppeteer 在这里大放异彩，因为它执行 JavaScript，允许您抓取页面源代码中可能不可见的内容。
示例：提取动态数据
javascript
复制代码
等待 page.goto('https://news.ycombinator.com');
等待 page.waitForSelector('.storylink');

const headers = wait page.$$eval('.storylink', links => links.map(link => link.textContent));
console.log('头条新闻：', 头条新闻);

处理验证码和机器人检测

一些网站采取了阻止机器人的措施。 Puppeteer 可以帮助绕过简单的检查：
使用隐身模式：安装 puppeteer-extra 插件：
重击
复制代码
npm install puppeteer-extra puppeteer-extra-plugin-stealth
将其添加到您的脚本中：
javascript
复制代码
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

模仿人类行为：随机化鼠标移动和打字速度等动作，以显得更加人性化。
轮换用户代理：根据每个请求更改浏览器的用户代理：
javascript
复制代码
wait page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');

保存抓取的数据

提取数据后，您可能想要保存它。以下是一些常见的格式：
JSON：
javascript
复制代码
const fs = require('fs');
const data = { name: 'Puppeteer', type: 'library' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));

CSV：使用像 csv-writer 这样的库：
重击
复制代码
npm 安装 csv-writer
javascript
复制代码
const createCsvWriter = require('csv-writer').createObjectCsvWriter;

const csvWriter = createCsvWriter({
路径: 'data.csv',
标题：[
{ id: '姓名', title: '姓名' },
{ id: '类型', title: '类型' }
]
});

const 记录 = [{ name: 'Puppeteer', type: 'library' }];
csvWriter.writeRecords(records).then(() => console.log('CSV 文件已写入。'));
道德网络抓取实践
在抓取网站之前，请记住这些道德准则：
检查服务条款：始终确保网站允许抓取。
尊重速率限制：避免在短时间内发送太多请求。使用 setTimeout 或 Puppeteer 的 page.waitForTimeout() 来间隔请求：
javascript
复制代码
等待页面.waitForTimeout(2000); // 等待2秒

避免敏感数据：切勿抓取个人或私人信息。