Kami mula-mula menentukan URL Kami mula-mula menggunakan alat pembangun untuk mencari data yang kami inginkan. Didapati bahawa kandungannya berada dalam kod sumber halaman web.
url = 'https://www.hexuexiao.cn/tj/WuJiayi/' res = requests.get(url) # print(res.text) html_url = re.findall('<a href="https://www.hexuexiao.cn/a/(\d+).html" rel="external nofollow" >',res.text,re.S) urls = sorted(list(set(html_url)), key=html_url.index)
Nilai pembolehubah html_url
kami di sini ialah objek ungkapan biasa, digunakan untuk memadankan pautan ke imej tapak web. Blok kod list(set(html_url))
menukar objek senarai kepada objek koleksi menggunakan kaedah set()
, iaitu kaedah yang menukar elemen dalam senarai kepada koleksi. html_url.index
ialah objek integer yang mewakili bilangan kali setiap elemen dalam html_url
muncul dalam rentetan HTML asal untuk mencapai pengisihan.
for url1 in urls: for page in range(0,10): url2 = f'https://www.hexuexiao.cn/a/{url1}-{page}.html' # print(url2) res1 = requests.get(url2) # print(res1.text) url3 = re.findall('<img src=(.*?)/ alt="Bagaimana untuk menggunakan Python untuk mengumpul data imej?" ></a>',res1.text,re.S)[0] print(url3) url3=re.sub('',"",url3) print(url3)
Senarai urls
dalam kod kami ialah kamus, dengan kuncinya ialah URL dan nilainya ialah nombor halaman. Dalam gelung, kami menggunakan fungsi range()
untuk mengulang nombor halaman dari 0 hingga 9. Seterusnya, kami menggunakan kaedah requests.get()
untuk mendapatkan kod HTML setiap halaman dan menggunakan ungkapan biasa untuk memadankan semua pautan imej. Akhir sekali, kami menggunakan kaedah requests.get()
untuk mendapatkan kandungan setiap pautan imej dan menulisnya pada fail.
content = requests.get(url3).content with open('图片\' + str(num) + '.jpg', mode='wb') as f: f.write(content)
Nilai pembolehubah content
dalam kod kami ialah kandungan yang diperoleh daripada pautan imej url3
. Kemudian, gunakan pernyataan with open()
untuk membuka fail binari dan tulis content
pada fail tersebut. Dalam proses ini, nilai pembolehubah num
ialah nombor siri imej dalam fail semasa. Mendapatkan gambar adalah sama seperti mendapatkan audio sebelum ini, dan disimpan sebagai fail binari.
Dengan cara ini, data imej kami disimpan. Di sini, saya tidak akan menunjukkan kesannya. Jika kita mencari alamat imej, kita boleh mendapatkannya.
Atas ialah kandungan terperinci Bagaimana untuk menggunakan Python untuk mengumpul data imej?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!