python - 如何爬取URL不变的网站内容-PHP中文网问答

文章专题学习下载问答编程词典手游最近更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

python - 如何爬取URL不变的网站内容

伊谢尔伦 2017-04-18 10:13:25

1559

[3] function __doPostBack(eventTarget, eventArgument) { if (!theForm.onsubmit || (theForm.onsubmit() != false)) { theForm.__EVENTTARGET.value = eventTarget; theForm.__EVENTARGUMENT.value = eventArgument; theForm.submit(); }

对于这种翻页方式，怎么用爬虫爬取呢？网站翻页后URL没有发生改变。我之前使用bs4和selenium模拟翻页操作再爬取，可是数据量太大，这种方法速度太慢。80%的时间都浪费在翻页上。

伊谢尔伦

小伙看你根骨奇佳，潜力无限，来学PHP伐。

全部回复 (2)

小葫芦2017-04-18 10:15:25 2 楼

这个问题得具体到网址去分析，不同网址会有不同的处理方式。
现在假设在比较常见的情况下，可以用这种方法：

打开浏览器调试模式
点击下一页，查看对应的网络请求的Response，这个响应通常就是下一页的URL
查看该请求的请求头和请求参数，分析找出规律
使用python模拟HTTP请求来批量获得URL
爬取信息，推荐LXML进行HTML解析

至于如何模拟HTTP请求，可参考 python模拟HTTP请求

点赞+0

添加回复

Peter_Zhu2017-04-18 10:15:25 1 楼

估计是有 AJAX 请求吧，直接抓请求得了

点赞+0

添加回复

热门专题

更多>

php8，我来也

30分钟学会网站布局

尚观Oracle入门到精通视频教程

你的第一行 UNI-APP 代码

Flutter 从头到应用启动

兄弟连Linux新版视频教程

AXURE 9视频教程（适合产品经理交互产品设计UI）

零基础PS视频教程

16天带你入门UI视频教程

PS技巧和切片技巧视频教程

阿里云环境搭建以及项目上线视频教程

计算机网络概述——程序员必须掌握的基础知识

程序员必备教程——HTTP协议讲解

Websocket视频教程