Mendapatkan semula Pautan Halaman Web dengan Python dan BeautifulSoup
Mengekstrak pautan daripada halaman web ialah tugas biasa dalam mengikis web. Ini boleh dicapai dengan mudah menggunakan perpustakaan BeautifulSoup Python.
Menggunakan SoupStrainer
Untuk prestasi optimum, gunakan BeautifulSoup's SoupStrainer. Kelas ini membenarkan penghuraian disasarkan dengan menentukan jenis teg yang diingini. Untuk mendapatkan pautan, gunakan:
parse_only=SoupStrainer('a')
Mendapatkan semula URL Pautan
Untuk mendapatkan URL pautan, periksa atribut 'href' bagi teg 'a' :
for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')): if link.has_attr('href'): print(link['href'])
BeautifulSoup Dokumentasi
Rujuk dokumentasi BeautifulSoup yang luas untuk panduan lanjut:
Tambahan Nota
SoupStrainer meningkatkan prestasi dengan mengurangkan penggunaan memori dan masa pemprosesan. Ia amat berguna apabila kandungan yang dihuraikan diketahui terlebih dahulu.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengeluarkan Pautan Halaman Web Dengan Cekap Menggunakan Python dan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!