首页 > web前端 > js教程 > 如何使用 Puppeteer 进行网页抓取:初学者友好指南

如何使用 Puppeteer 进行网页抓取:初学者友好指南

Mary-Kate Olsen
发布: 2025-01-08 00:46:41
原创
936 人浏览过

How to Web Scrape with Puppeteer: A Beginner-Friendly Guide

网络抓取是从网站收集数据的极其强大的工具。借助 Puppeteer(Google 的 Node.js 无头浏览器库),您可以自动执行页面导航、单击按钮和提取信息的过程,同时模仿人类浏览行为。本指南将以简单、清晰且可操作的方式引导您了解使用 Puppeteer 进行网页抓取的基本知识。

什么是傀儡师?

Puppeteer 是一个 Node.js 库,可让您控制 Google Chrome(或 Chromium)的无头版本。无头浏览器在没有图形用户界面 (GUI) 的情况下运行,使其速度更快,非常适合抓取等自动化任务。但是,如果您需要直观地查看正在发生的情况,Puppeteer 也可以在完整浏览器模式下运行。

为什么选择 Puppeteer 进行网页抓取?

灵活性:Puppeteer 可以轻松处理动态网站和单页应用程序 (SPA)。
JavaScript 支持:它在页面上执行 JavaScript,这对于抓取现代网络应用程序至关重要。
自动化能力:您可以执行填写表格、单击按钮甚至截屏等任务。

将代理与 Puppeteer 一起使用

抓取网站时,代理对于避免 IP 禁令和访问地理限制内容至关重要。代理充当您的抓取工具和目标网站之间的中介,掩盖您的真实 IP 地址。对于 Puppeteer,您可以通过将代理作为启动参数传递来轻松集成代理:

javascript
复制代码
const browser = wait puppeteer.launch({
args: ['--proxy-server=your-proxy-server:port']
});
代理对于扩展抓取工作特别有用。轮换代理可确保每个请求都来自不同的 IP,从而减少检测到的机会。住宅代理以其真实性而闻名,非常适合绕过机器人防御,而数据中心代理速度更快、价格更便宜。选择符合您的抓取需求的类型,并始终测试性能以确保可靠性。

设置 Puppeteer

开始抓取之前,您需要设置 Puppeteer。让我们深入了解分步过程:
第 1 步:安装 Node.js 和 Puppeteer
安装Node.js:从官网下载并安装Node.js。
设置 Puppeteer:打开终端并运行以下命令:
重击
复制代码
npm install puppeteer

这将安装 Puppeteer 和 Chromium,它控制的浏览器。
第 2 步:编写你的第一个 Puppeteer 脚本
创建一个新的 JavaScript 文件 scraper.js。这将容纳您的抓取逻辑。让我们编写一个简单的脚本来打开网页并提取其标题:
javascript
复制代码
const puppeteer = require('puppeteer');

(async () => {
const browser = wait puppeteer.launch();
const page = wait browser.newPage();

// 导航到网站
等待 page.goto('https://example.com');

// 提取标题
const title = wait page.title();
console.log(页面标题: ${title});

等待 browser.close();
})();

使用以下命令运行脚本:
重击
复制代码
节点 scraper.js

您刚刚编写了第一个 Puppeteer scraper!

用于抓取的核心 Puppeteer 功能

现在您已经掌握了基础知识,让我们来探索一些用于抓取的关键 Puppeteer 功能。

  1. 导航至页面
    page.goto(url) 方法允许您打开任何 URL。如果需要,添加超时设置等选项:
    javascript
    复制代码
    wait page.goto('https://example.com', { timeout: 60000 });

  2. 选择元素
    使用 CSS 选择器来精确定位页面上的元素。 Puppeteer 提供了如下方法:
    第一个匹配的 page.$(selector)
    page.$$(选择器) 适用于所有匹配
    示例:
    javascript
    复制代码
    const 元素=await page.$('h1');
    const text = wait page.evaluate(el => el.textContent, element);
    console.log(标题: ${text});

  3. 与元素互动
    模拟用户交互,例如点击和键入:
    javascript
    复制代码
    等待 page.click('#submit-button');
    wait page.type('#search-box', 'Puppeteer scraping');

  4. 等待元素
    网页以不同的速度加载。 Puppeteer 允许您在继续操作之前等待元素:
    javascript
    复制代码
    等待 page.waitForSelector('#dynamic-content');

  5. 截图
    可视化调试或将数据保存为图像很容易:
    javascript
    复制代码
    wait page.screenshot({ path: 'screenshot.png', fullPage: true });

处理动态内容

当今许多网站使用 JavaScript 动态加载内容。 Puppeteer 在这里大放异彩,因为它执行 JavaScript,允许您抓取页面源代码中可能不可见的内容。
示例:提取动态数据
javascript
复制代码
等待 page.goto('https://news.ycombinator.com');
等待 page.waitForSelector('.storylink');

const headers = wait page.$$eval('.storylink', links => links.map(link => link.textContent));
console.log('头条新闻:', 头条新闻);

处理验证码和机器人检测

一些网站采取了阻止机器人的措施。 Puppeteer 可以帮助绕过简单的检查:
使用隐身模式:安装 puppeteer-extra 插件:
重击
复制代码
npm install puppeteer-extra puppeteer-extra-plugin-stealth
将其添加到您的脚本中:
javascript
复制代码
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

模仿人类行为:随机化鼠标移动和打字速度等动作,以显得更加人性化。
轮换用户代理:根据每个请求更改浏览器的用户代理:
javascript
复制代码
wait page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');

保存抓取的数据

提取数据后,您可能想要保存它。以下是一些常见的格式:
JSON:
javascript
复制代码
const fs = require('fs');
const data = { name: 'Puppeteer', type: 'library' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));

CSV:使用像 csv-writer 这样的库:
重击
复制代码
npm 安装 csv-writer
javascript
复制代码
const createCsvWriter = require('csv-writer').createObjectCsvWriter;

const csvWriter = createCsvWriter({
路径: 'data.csv',
标题:[
{ id: '姓名', title: '姓名' },
{ id: '类型', title: '类型' }
]
});

const 记录 = [{ name: 'Puppeteer', type: 'library' }];
csvWriter.writeRecords(records).then(() => console.log('CSV 文件已写入。'));
道德网络抓取实践
在抓取网站之前,请记住这些道德准则:
检查服务条款:始终确保网站允许抓取。
尊重速率限制:避免在短时间内发送太多请求。使用 setTimeout 或 Puppeteer 的 page.waitForTimeout() 来间隔请求:
javascript
复制代码
等待页面.waitForTimeout(2000); // 等待2秒

避免敏感数据:切勿抓取个人或私人信息。

常见问题故障排除

页面无法正确加载:尝试添加更长的超时或启用完整浏览器模式:
javascript
复制代码
const browser = wait puppeteer.launch({ headless: false });

选择器不起作用:使用浏览器开发人员工具(Ctrl Shift C)检查网站以确认选择器。
被验证码阻止:使用隐身插件并模仿人类行为。

常见问题 (FAQ)

  1. Puppeteer 免费吗? 是的,Puppeteer 是开源的并且可以免费使用。
  2. Puppeteer 可以抓取大量 JavaScript 的网站吗? 绝对地! Puppeteer 执行 JavaScript,非常适合抓取动态网站。
  3. 网页抓取合法吗? 这取决于。在抓取之前请务必检查网站的服务条款。
  4. Puppeteer 可以绕过验证码吗? Puppeteer 可以处理基本的验证码挑战,但高级挑战可能需要第三方工具。

以上是如何使用 Puppeteer 进行网页抓取:初学者友好指南的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:dev.to
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板