Untuk kejuruteraan terbalik yang mudah, anda boleh terus menggunakan HttpClient Apache untuk mensimulasikan permintaan Jika anda perlu log masuk, anda mesti mengekalkan kuki dan sesi sendiri, kemudian memanggil API untuk menggunakan rangka kerja Jackson untuk memetakan json yang dikembalikan. data kepada objek. Jika anda menghuraikan halaman html, anda boleh menggunakan rangka kerja webmagic, yang mempunyai fungsi yang kaya, tetapi tidak mempunyai modul log masuk.
Mudah untuk menggunakan curl, tetapi yang lebih rumit sudah tentu phantomjs Persekitaran penyemak imbas skrip boleh berinteraksi secara langsung dengan js dalam halaman web
Buat perangkak tapak web yang mudah sendiri. Anda boleh menggunakan ini: Permintaan: HttpClient Parse HTML: Jsoup Simulasi pelayar: htmlunit
Rangka kerja perangkak matang: 1.nutch Alamat: apache/nutch · GitHub Atur cara perangkak sumber terbuka di bawah apache, dengan fungsi kaya dan dokumentasi lengkap. Terdapat modul untuk menangkap data, analisis dan penyimpanan.
2. Heritrix Alamat: internetarchive/heritrix3 · GitHub Ia telah lama dikemas kini Ia digunakan oleh ramai orang. dan banyak maklumat di Internet. Mempunyai konsol pengurusan web sendiri, termasuk pelayan HTTP. Operator boleh mengendalikan konsol dengan memilih arahan Crawler.
3.crawler4j Alamat: yasserg/crawler4j · GitHub Oleh kerana ia hanya mempunyai fungsi teras perangkak, anda boleh menulis program perangkak berbilang benang dalam beberapa bahagian minit.
Untuk kejuruteraan terbalik yang mudah, anda boleh terus menggunakan HttpClient Apache untuk mensimulasikan permintaan Jika anda perlu log masuk, anda mesti mengekalkan kuki dan sesi sendiri, kemudian memanggil API untuk menggunakan rangka kerja Jackson untuk memetakan json yang dikembalikan. data kepada objek. Jika anda menghuraikan halaman html, anda boleh menggunakan rangka kerja webmagic, yang mempunyai fungsi yang kaya, tetapi tidak mempunyai modul log masuk.
webmagic
Mudah untuk menggunakan curl, tetapi yang lebih rumit sudah tentu phantomjs Persekitaran penyemak imbas skrip boleh berinteraksi secara langsung dengan js dalam halaman web
Portal Pengumpul Web
Secara peribadi saya rasa ini adalah rangka kerja Java yang bagus, ringkas dan mudah digunakan
Buat perangkak tapak web yang mudah sendiri. Anda boleh menggunakan ini:
Permintaan: HttpClient
Parse HTML: Jsoup
Simulasi pelayar: htmlunit
Rangka kerja perangkak matang:
1.nutch
Alamat: apache/nutch · GitHub
Atur cara perangkak sumber terbuka di bawah apache, dengan fungsi kaya dan dokumentasi lengkap. Terdapat modul untuk menangkap data, analisis dan penyimpanan.
2. Heritrix
Alamat: internetarchive/heritrix3 · GitHub
Ia telah lama dikemas kini Ia digunakan oleh ramai orang. dan banyak maklumat di Internet. Mempunyai konsol pengurusan web sendiri, termasuk pelayan HTTP. Operator boleh mengendalikan konsol dengan memilih arahan Crawler.
3.crawler4j
Alamat: yasserg/crawler4j · GitHub
Oleh kerana ia hanya mempunyai fungsi teras perangkak, anda boleh menulis program perangkak berbilang benang dalam beberapa bahagian minit.