Gemeinschaft Lernen Tools-Bibliothek Freizeit

Deutsch

Heim > Backend-Entwicklung > Python-Tutorial > Wie extrahiere ich sichtbaren Webseitentext mit BeautifulSoup?

Wie extrahiere ich sichtbaren Webseitentext mit BeautifulSoup?

DDD

Freigeben： 2024-11-25 18:41:09

Original

778 Leute haben es durchsucht

How to Extract Visible Webpage Text Using BeautifulSoup?

Sichtbaren Webseitentext mit BeautifulSoup extrahieren

Viele Web-Scraping-Aufgaben beinhalten das Abrufen des sichtbaren Textinhalts einer Webseite, mit Ausnahme von Elementen wie Skripten, Kommentare und CSS-Stile. Mit BeautifulSoup kann dies mit dem richtigen Ansatz ganz einfach erreicht werden.

Ein häufiges Problem tritt bei der Verwendung der Funktion findAll() auf, da sie alle Textknoten abruft, einschließlich derjenigen, die in unerwünschten Elementen versteckt sind. Um dies zu beheben, können wir einen benutzerdefinierten Filter definieren, um bestimmte Tags und Kommentare auszuschließen.

Der folgende Code veranschaulicht diesen Ansatz:

from bs4 import BeautifulSoup
from bs4.element import Comment
import urllib.request


def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True


def text_from_html(body):
    soup = BeautifulSoup(body, 'html.parser')
    texts = soup.findAll(text=True)
    visible_texts = filter(tag_visible, texts)
    return u" ".join(t.strip() for t in visible_texts)

html = urllib.request.urlopen('http://www.nytimes.com/2009/12/21/us/21storm.html').read()
print(text_from_html(html))

Nach dem Login kopieren

Die Funktion tag_visible prüft, ob das übergeordnete Element eines Textes ist Knoten mit einem der unerwünschten Tags übereinstimmt oder wenn der Knoten ein Kommentar ist. Knoten, die diesen Filter bestehen, werden dann verwendet, um den sichtbaren Text mithilfe von u" ".join(t.strip() für t in sichtbaren Texten) zu einer einzigen Zeichenfolge zu kombinieren.

Dieser Ansatz extrahiert effektiv nur den sichtbaren Text aus eine Webseite, wobei unnötige Elemente wie Skripte und Kommentare weggelassen werden.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich sichtbaren Webseitentext mit BeautifulSoup?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle：php.cn

Vorheriger Artikel：Wie erstelle ich ein einzelnes Wörterbuch aus einer CSV-Datei in Python? Nächster Artikel：Wie behebe ich den Fehler „ImportError: Kein Modul namens „pygame““?

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Neueste Artikel des Autors

Wie kann ich die Zeitstempelformatierung in der JSON-Kodierung von Go anpassen?

2024-12-19 05:51:36
Warum werden meine E-Mails nicht vom Localhost von XAMPP an Gmail gesendet?

2024-12-19 05:49:46
Wie kann ich SQL-Skripte aus PHP mit dem MySQL-Befehlszeilentool ausführen?

2024-12-19 05:48:38
Wie kann ich PHP-Objekte schnell in assoziative Arrays konvertieren?

2024-12-19 05:47:41
Wie kann ich Baumdatenstrukturen in Java implementieren?

2024-12-19 05:46:08
Wie kann ich den Text der Häkchenbeschriftung in Matplotlib anpassen?

2024-12-19 05:45:10
Warum bleibt „subprocess.Popen' mit „readline()' hängen, wenn aus einem Ruby-Skript gelesen wird, und wie kann das behoben werden?

2024-12-19 05:44:08
Wie kann ich XMLHttpRequest verwenden, um POST-Daten in JavaScript zu senden?

2024-12-19 05:43:08
Wie kann ich einen großen Datenrahmen basierend auf einer eindeutigen Kennung effizient in kleinere Teilmengen aufteilen?

2024-12-19 05:42:17
Wie importiere ich Daten aus einer Textdatei mithilfe eines Bash-Skripts in eine MySQL-Datenbank?

2024-12-19 05:41:14

Aktuelle Ausgaben

function_exists() kann die benutzerdefinierte Funktion nicht ermitteln Funktionstest () {Verwendung der Verwendung durch -Durch -Durch -Durch -Durch -Durch -Durc...

Aus 2024-04-29 11:01:01

0

3

2226

So zeigen Sie die mobile Version von Google Chrome an Hallo Lehrer, wie kann ich Google Chrome in eine mobile Version umwandeln?

Aus 2024-04-23 00:22:19

0

11

2372

Das untergeordnete Fenster bedient das übergeordnete Fenster, aber die Ausgabe antwortet nicht. Die ersten beiden Sätze sind ausführbar, der letzte Satz jedoch nicht.

Aus 2024-04-19 15:37:47

0

1

1980

Im übergeordneten Fenster erfolgt keine Ausgabe document.onclick = function(){ window.opener.document.write('Ich bin die Ausgabe des unter...

Aus 2024-04-18 23:52:34

0

1

1868

Wo gibt es die Kursunterlagen zum CSS-Mindmapping? Kursunterlagen

Aus 2024-04-16 10:10:18

0

0

1938

verwandte Themen

Mehr>

Beliebte Empfehlungen

Beliebte Tutorials

Mehr>

Verwandte Tutorials

Beliebte Empfehlungen

Aktuelle Kurse

Neueste Downloads

Mehr>

Web-Effekte

Quellcode der Website

Website-Materialien

Frontend-Vorlage