网页爬虫 - java爬虫如何解析JavaScript

Question

用java爬取JavaScript动态生成的页面，怎么解析js？用rhino?phantomjs?还是其他的什么？

天蓬老师 · Answer

phantomJS可以。

迷茫 · Answer

除非是非常复杂的前端逻辑（比如说有一大堆逻辑去算token了）否则不建议去模拟执行js
他如果是动态加载的数据直接拿json不是更简单

怪我咯 · Answer

有解析js脚本的jar包，具体包记不清了。

大家讲道理 · Answer

就爬虫而言，直接模拟浏览器解析Javascript是不可取的。你可以直接抓取生成对应网页的json之类的来实现。

迷茫 · Answer

如果用java可以试一下Selinium的WebDriver，如果用js写那就直接phantomjs

大家讲道理 · Answer

参考下这个文档
如何爬取JS动态生成的数据？http://doc.shenjianshou.cn/de...

Php8, 나도 갈게