用java爬取JavaScript动态生成的页面,怎么解析js?用rhino?phantomjs?还是其他的什么?
光阴似箭催人老,日月如移越少年。
phantomJS可以。
除非是非常複雜的前端邏輯(比如說有一大堆邏輯去算token了) 否則不建議去模擬執行js他如果是動態載入的資料 直接拿json不是更簡單
有解析js腳本的jar包,具體包記不清了。
就爬蟲而言,直接模擬瀏覽器解析Javascript是不可取的。你可以直接抓取產生對應網頁的json之類的來實現。
如果用java可以試試Selinium的WebDriver,如果用js寫那就直接phantomjs
參考下這篇文件如何爬取JS動態產生的資料? http://doc.shenjianshou.cn/de...
phantomJS可以。
除非是非常複雜的前端邏輯(比如說有一大堆邏輯去算token了) 否則不建議去模擬執行js
他如果是動態載入的資料 直接拿json不是更簡單
有解析js腳本的jar包,具體包記不清了。
就爬蟲而言,直接模擬瀏覽器解析Javascript是不可取的。你可以直接抓取產生對應網頁的json之類的來實現。
如果用java可以試試Selinium的WebDriver,如果用js寫那就直接phantomjs
參考下這篇文件
如何爬取JS動態產生的資料? http://doc.shenjianshou.cn/de...