Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimanakah Saya Boleh Mengeluarkan Pautan Halaman Web Dengan Cekap Menggunakan Python dan BeautifulSoup?

Bagaimanakah Saya Boleh Mengeluarkan Pautan Halaman Web Dengan Cekap Menggunakan Python dan BeautifulSoup?

DDD
Lepaskan: 2024-12-09 13:06:11
asal
776 orang telah melayarinya

How Can I Efficiently Extract Webpage Links Using Python and BeautifulSoup?

Mendapatkan semula Pautan Halaman Web dengan Python dan BeautifulSoup

Mengekstrak pautan daripada halaman web ialah tugas biasa dalam mengikis web. Ini boleh dicapai dengan mudah menggunakan perpustakaan BeautifulSoup Python.

Menggunakan SoupStrainer

Untuk prestasi optimum, gunakan BeautifulSoup's SoupStrainer. Kelas ini membenarkan penghuraian disasarkan dengan menentukan jenis teg yang diingini. Untuk mendapatkan pautan, gunakan:

parse_only=SoupStrainer('a')
Salin selepas log masuk

Mendapatkan semula URL Pautan

Untuk mendapatkan URL pautan, periksa atribut 'href' bagi teg 'a' :

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])
Salin selepas log masuk

BeautifulSoup Dokumentasi

Rujuk dokumentasi BeautifulSoup yang luas untuk panduan lanjut:

  • [BeautifulSoup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/ doc/)

Tambahan Nota

SoupStrainer meningkatkan prestasi dengan mengurangkan penggunaan memori dan masa pemprosesan. Ia amat berguna apabila kandungan yang dihuraikan diketahui terlebih dahulu.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengeluarkan Pautan Halaman Web Dengan Cekap Menggunakan Python dan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan