Heim > Backend-Entwicklung > Python-Tutorial > Wie kann ich mit Python und BeautifulSoup Hyperlinks und URLs von einer Webseite extrahieren?

Wie kann ich mit Python und BeautifulSoup Hyperlinks und URLs von einer Webseite extrahieren?

Patricia Arquette
Freigeben: 2024-12-08 00:12:11
Original
1022 Leute haben es durchsucht

How Can I Extract Hyperlinks and URLs from a Webpage Using Python and BeautifulSoup?

Webseiten-Links mit Python und BeautifulSoup abrufen

Frage: Wie extrahiere ich die Hyperlinks von einer Webseite und Erhalten Sie ihre URLs mit Python?

Antwort:

Um die Links und URL-Adressen effizient aus einer Webseite mit Python und BeautifulSoup zu extrahieren, können Sie die SoupStrainer-Klasse verwenden. Hier ist ein Codeausschnitt:

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])
Nach dem Login kopieren

Dieser Code ruft zunächst den HTML-Inhalt einer Webseite ab (unter Verwendung der httplib2-Bibliothek). Anschließend wird BeautifulSoup zum Analysieren des HTML-Codes verwendet und zur besseren Effizienz nur nach Tags mithilfe der SoupStrainer-Klasse gefiltert. Schließlich iteriert es über die a-Tags und gibt das href-Attribut von jedem aus, wodurch effektiv die Link-URLs extrahiert werden.

Ausführlichere Informationen zu verschiedenen Parsing-Szenarien finden Sie in der BeautifulSoup-Dokumentation:

[BeautifulSoup Dokumentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

Das obige ist der detaillierte Inhalt vonWie kann ich mit Python und BeautifulSoup Hyperlinks und URLs von einer Webseite extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage