网页爬虫 - Java网络爬虫有哪些比较好的技术,技术方法或者技术框架
巴扎黑
巴扎黑 2017-04-18 10:26:31
0
5
526

在网络爬虫中使用Java语言,比较好操作的。这样的框架各位有用过的,或者是看别人用过相对比较好的技术方案,希望各位分享给我

巴扎黑
巴扎黑

membalas semua(5)
黄舟

Untuk kejuruteraan terbalik yang mudah, anda boleh terus menggunakan HttpClient Apache untuk mensimulasikan permintaan Jika anda perlu log masuk, anda mesti mengekalkan kuki dan sesi sendiri, kemudian memanggil API untuk menggunakan rangka kerja Jackson untuk memetakan json yang dikembalikan. data kepada objek. Jika anda menghuraikan halaman html, anda boleh menggunakan rangka kerja webmagic, yang mempunyai fungsi yang kaya, tetapi tidak mempunyai modul log masuk.

洪涛

webmagic

伊谢尔伦

Mudah untuk menggunakan curl, tetapi yang lebih rumit sudah tentu phantomjs Persekitaran penyemak imbas skrip boleh berinteraksi secara langsung dengan js dalam halaman web

阿神

Portal Pengumpul Web

Secara peribadi saya rasa ini adalah rangka kerja Java yang bagus, ringkas dan mudah digunakan

左手右手慢动作

Buat perangkak tapak web yang mudah sendiri. Anda boleh menggunakan ini:
Permintaan: HttpClient
Parse HTML: Jsoup
Simulasi pelayar: htmlunit

Rangka kerja perangkak matang:
1.nutch
Alamat: apache/nutch · GitHub
Atur cara perangkak sumber terbuka di bawah apache, dengan fungsi kaya dan dokumentasi lengkap. Terdapat modul untuk menangkap data, analisis dan penyimpanan.

2. Heritrix
Alamat: internetarchive/heritrix3 · GitHub
Ia telah lama dikemas kini Ia digunakan oleh ramai orang. dan banyak maklumat di Internet. Mempunyai konsol pengurusan web sendiri, termasuk pelayan HTTP. Operator boleh mengendalikan konsol dengan memilih arahan Crawler.

3.crawler4j
Alamat: yasserg/crawler4j · GitHub
Oleh kerana ia hanya mempunyai fungsi teras perangkak, anda boleh menulis program perangkak berbilang benang dalam beberapa bahagian minit.

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!