84669 人學習
152542 人學習
20005 人學習
5487 人學習
7821 人學習
359900 人學習
3350 人學習
180660 人學習
48569 人學習
18603 人學習
40936 人學習
1549 人學習
1183 人學習
32909 人學習
通过simple_html_dom,我想拉取70000个页面的数据,每个页面url格式一样,所以我用for进行遍历,浏览器在进行过程中总是出现问题,比如file_get_contents(http://o.uhin.org/i1.aspx): failed to open stream: HTTP request failed!请问如何解决这类问题
学习是最好的投资!
用curl获取网页数据,看看curl_error是什么。 另外这个应该算是一个小型爬虫了,建议你直接在cli运行
1、不要在http请求里做大量的循环抓取,会超时的;使用cli去做;2、不要直接抓取直接解析,用一个任务去抓取回来保存到本地,另外一个任务去做解析;3、使用另外一个 HtmlParser (http://www.oschina.net/p/html...) 代替 simple_html_dom,效果高很多,我亲自试过;
看看php爬虫,或者使用phpquery
phpquery
用curl获取网页数据,看看curl_error是什么。
另外这个应该算是一个小型爬虫了,建议你直接在cli运行
1、不要在http请求里做大量的循环抓取,会超时的;使用cli去做;
2、不要直接抓取直接解析,用一个任务去抓取回来保存到本地,另外一个任务去做解析;
3、使用另外一个 HtmlParser (http://www.oschina.net/p/html...) 代替 simple_html_dom,效果高很多,我亲自试过;
看看php爬虫,或者使用
phpquery