Mendapatkan Pautan daripada Halaman Web dengan Python dan BeautifulSoup
Mengekstrak pautan daripada halaman web ialah tugas biasa dalam mengikis web. Pustaka BeautifulSoup Python menyediakan cara yang cekap dan serba boleh untuk mencapainya.
Pendekatan
Untuk mendapatkan semula pautan daripada halaman web, anda boleh menggunakan langkah berikut:
Coretan Kod
import httplib2 from bs4 import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request('http://www.nytimes.com') for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')): if link.has_attr('href'): print(link['href'])
Nota:
SupStrainer ialah cara yang cekap untuk menapis teg tertentu semasa proses penghuraian. Ini boleh menjimatkan memori dan meningkatkan prestasi, terutamanya apabila menghuraikan halaman web yang besar.
Dokumentasi BeautifulSoup menyediakan penjelasan dan contoh terperinci untuk pelbagai senario yang berkaitan dengan menghuraikan kandungan web.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengeluarkan Pautan dengan Cekap daripada Halaman Web Menggunakan Python dan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!