网页爬虫 - java爬虫如何解析JavaScript

Question

用java爬取JavaScript动态生成的页面，怎么解析js？用rhino?phantomjs?还是其他的什么？

天蓬老师 · Answer

phantomJS可以。

迷茫 · Answer

除非是非常複雜的前端邏輯（比如說有一大堆邏輯去算token了）否則不建議去模擬執行js
他如果是動態載入的資料直接拿json不是更簡單

怪我咯 · Answer

有解析js腳本的jar包，具體包記不清了。

大家讲道理 · Answer

就爬蟲而言，直接模擬瀏覽器解析Javascript是不可取的。你可以直接抓取產生對應網頁的json之類的來實現。

迷茫 · Answer

如果用java可以試試Selinium的WebDriver，如果用js寫那就直接phantomjs

大家讲道理 · Answer

參考下這篇文件
如何爬取JS動態產生的資料？ http://doc.shenjianshou.cn/de...