Bagaimanakah Saya Boleh Mengeluarkan Pautan dengan Cekap daripada Halaman Web Menggunakan Python dan BeautifulSoup?-Tutorial Python-php.cn

Bagaimanakah Saya Boleh Mengeluarkan Pautan dengan Cekap daripada Halaman Web Menggunakan Python dan BeautifulSoup?

Barbara Streisand

Lepaskan： 2024-12-11 10:37:11

asal

977 orang telah melayarinya

How Can I Efficiently Extract Links from Web Pages Using Python and BeautifulSoup?

Mendapatkan Pautan daripada Halaman Web dengan Python dan BeautifulSoup

Mengekstrak pautan daripada halaman web ialah tugas biasa dalam mengikis web. Pustaka BeautifulSoup Python menyediakan cara yang cekap dan serba boleh untuk mencapainya.

Pendekatan

Untuk mendapatkan semula pautan daripada halaman web, anda boleh menggunakan langkah berikut:

Import modul BeautifulSoup.
Minta kandungan HTML halaman web menggunakan modul httplib2.
Menghuraikan kandungan HTML menggunakan BeautifulSoup.
Tapis teg a (pautan) daripada kandungan yang dihuraikan menggunakan SoupStrainer.
Lelar melalui yang ditapis pautan dan dapatkan semula atribut href (URL alamat).

Coretan Kod

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

Salin selepas log masuk

Nota:

SupStrainer ialah cara yang cekap untuk menapis teg tertentu semasa proses penghuraian. Ini boleh menjimatkan memori dan meningkatkan prestasi, terutamanya apabila menghuraikan halaman web yang besar.

Dokumentasi BeautifulSoup menyediakan penjelasan dan contoh terperinci untuk pelbagai senario yang berkaitan dengan menghuraikan kandungan web.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengeluarkan Pautan dengan Cekap daripada Halaman Web Menggunakan Python dan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!