84669 Lernen von Personen
152542 Lernen von Personen
20005 Lernen von Personen
5487 Lernen von Personen
7821 Lernen von Personen
359900 Lernen von Personen
3350 Lernen von Personen
180660 Lernen von Personen
48569 Lernen von Personen
18603 Lernen von Personen
40936 Lernen von Personen
1549 Lernen von Personen
1183 Lernen von Personen
32909 Lernen von Personen
在网络爬虫中使用Java语言,比较好操作的。这样的框架各位有用过的,或者是看别人用过相对比较好的技术方案,希望各位分享给我
简单的逆向的话可以用直接用Apache的HttpClient模拟请求,需要登录的要自己维护cookie和session,然后调用api用jackson框架将返回的json数据映射到对象。如果是解析html页面的话,可以用webmagic框架,功能丰富,但是没有登录模块。
webmagic
简单的用curl都行,复杂的当然是phantomjs了,脚本化的浏览器环境,可以直接和网页里的js交互
WebCollector传送门
个人觉得这个是一个不错的Java框架,简单好用
自己做简单的网站爬虫。可以用这些:请求:HttpClient解析HTML:Jsoup模拟浏览器:htmlunit
成熟的爬虫框架:1.nutch地址:apache/nutch · GitHubapache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块。
2.Heritrix地址:internetarchive/heritrix3 · GitHub很早就有了,经历过很多次更新,使用的人比较多,功能齐全,文档完整,网上的资料也多。有自己的web管理控制台,包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。
3.crawler4j地址:yasserg/crawler4j · GitHub因为只拥有爬虫的核心功能,所以上手极为简单,几分钟就可以写一个多线程爬虫程序。
简单的逆向的话可以用直接用Apache的HttpClient模拟请求,需要登录的要自己维护cookie和session,然后调用api用jackson框架将返回的json数据映射到对象。如果是解析html页面的话,可以用webmagic框架,功能丰富,但是没有登录模块。
webmagic
简单的用curl都行,复杂的当然是phantomjs了,脚本化的浏览器环境,可以直接和网页里的js交互
WebCollector传送门
个人觉得这个是一个不错的Java框架,简单好用
自己做简单的网站爬虫。可以用这些:
请求:HttpClient
解析HTML:Jsoup
模拟浏览器:htmlunit
成熟的爬虫框架:
1.nutch
地址:apache/nutch · GitHub
apache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块。
2.Heritrix
地址:internetarchive/heritrix3 · GitHub
很早就有了,经历过很多次更新,使用的人比较多,功能齐全,文档完整,网上的资料也多。有自己的web管理控制台,包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。
3.crawler4j
地址:yasserg/crawler4j · GitHub
因为只拥有爬虫的核心功能,所以上手极为简单,几分钟就可以写一个多线程爬虫程序。