Seperti yang ditunjukkan dalam gambar, adalah sangat menyusahkan untuk melihat dan memuatkan imej melalui rangkaian dengan mengklik kanan satu demi satu untuk menyimpannya. Adakah terdapat sebarang cara untuk menulis perangkak untuk menangkap imej secara berkumpulan di sini?
Keperluan ini, jika anda tahu cara merangkak, sebenarnya sangat mudah, hanya beberapa langkah:
Laman utama atau halaman dengan gambar, dapatkan gambar
url
Akses alamat url imej di atas melalui perpustakaan
requests
库或者urllib
Tulis ke cakera keras tempatan dalam format binari
Kod rujukan:
Untuk butiran lanjut, anda boleh rujuk dokumen rasmi: dokumen permintaan
requests
Ya,
Lima bahagian perangkak:
Penjadual
Penyahduplikasi URL
Pemuat turun
Penghuraian halaman web
Storan data
Idea untuk memuat turun imej ialah:
Dapatkan kandungan halaman web di mana teg img berada, , dapatkan alamat imej, dan kemudian URL gambar yang mudah, muat turun setiap gambar, simpan alamat gambar yang dimuat turun dalam penapis Bloom untuk mengelakkan muat turun berulang, setiap kali anda memuat turun gambar, semak sama ada ia telah dimuat turun melalui URL, apabila gambar dimuat turun ke tempatan, anda boleh Simpan laluan imej dalam pangkalan data dan fail imej dalam folder, atau simpan imej terus dalam pangkalan data.
python menggunakan request+beautifulsoup4
java menggunakan jsoup
Jika beberapa laman web atau satu laman web perlu dirangkak dengan sangat dalam, kaedah di atas boleh secara terus rekursif atau traversal dalam