So entfernen Sie HTML-Tags in Python-Front-End-Fragen und Antworten-php.cn

So entfernen Sie HTML-Tags in Python

PHPz

Freigeben： 2023-04-27 16:41:50

Original

2181 Leute haben es durchsucht

Wenn Sie häufig mit Webinhalten arbeiten, müssen Sie möglicherweise Webseiten crawlen und Textinhalte daraus extrahieren. Allerdings können Tags und Stilinformationen im HTML-Code die Textverarbeitung erheblich erschweren. In diesem Fall bietet die Programmiersprache Python einige nützliche Funktionen und Bibliotheken zum Entfernen von HTML-Tags, sodass Sie Text einfacher verarbeiten und verwenden können.

Python bietet zwei häufig verwendete Bibliotheken zum Entfernen von HTML-Tags: re und BeautifulSoup. Hier erfahren Sie, wie Sie HTML-Tags mithilfe dieser beiden Bibliotheken entfernen.

Verwenden Sie die re-Bibliothek

Pythons re-Bibliothek (reguläre Ausdrücke) verfügt über leistungsstarke Funktionen zur Zeichenfolgenverarbeitung. Wir können einige Methoden dieser Bibliothek verwenden, um HTML-Tags zu entfernen. Konkret können wir die Funktion re.sub() verwenden, um HTML-Tags zu ersetzen. Schauen wir uns ein Beispiel an:

import re

def remove_tags(text):
    TAG_RE = re.compile(r'<[^>]+>')
    return TAG_RE.sub('', text)

html = '<html><head><title>Test</title></head><body><h1>Parse me!</h1></body></html>'
print(remove_tags(html))

Nach dem Login kopieren

Ausgabe:

Test Parse me!

Nach dem Login kopieren

Im obigen Code wird die Funktion re.compile() verwendet, um ein reguläres Ausdrucksobjekt mit „<¹+>“ zu erstellen HTML-Tags. Anschließend übergeben wir dieses reguläre Ausdrucksobjekt als Parameter an die Funktion re.sub(), die alle passenden Tags durch leere Zeichenfolgen ersetzt. Zum Schluss rufen wir die Funktion mit dem Text auf, bei dem die HTML-Tags entfernt wurden.

Obwohl es möglicherweise ausreicht, die Re-Bibliothek zur Verarbeitung von einfachem HTML-Text zu verwenden, werden Sie bei der Verarbeitung komplexer HTML-Texte feststellen, dass die Verarbeitung schwieriger wird, wenn Sie über die Verarbeitung von CSS-Stilen und JavaScript-Skripten nachdenken. In diesem Fall können Sie die BeautifulSoup-Bibliothek verwenden.

Verwendung der BeautifulSoup-Bibliothek

Die BeautifulSoup-Bibliothek erleichtert die Verarbeitung von HTML-Text und ist flexibler als die Re-Bibliothek. BeautifulSoup hilft Ihnen beim Parsen von HTML-Text und ermöglicht Ihnen die Auswahl bestimmter Elemente wie Tags, Klassen usw. Damit können Sie alle Tags entfernen und anschließend den Textinhalt extrahieren.

Hier ist ein Beispiel:

from bs4 import BeautifulSoup

def remove_tags(text):
    soup = BeautifulSoup(text, 'html.parser')
    return soup.get_text()

html = '<html><head><title>Test</title></head><body><h1>Parse me!</h1></body></html>'
print(remove_tags(html))

Nach dem Login kopieren

Ausgabe:

Test Parse me!

Nach dem Login kopieren

Im obigen Code übergeben wir den HTML-Text zur Analyse an die Funktion BeautifulSoup(). Verwenden Sie dann die Methode „soup.get_text()“, um den Textinhalt zu extrahieren und dabei die HTML-Tags zu ignorieren.

Zusammenfassung

Ob Sie die Re-Bibliothek oder die BeautifulSoup-Bibliothek verwenden, Python bietet viele Methoden zum Entfernen von HTML-Tags. Wenn Sie mit einfachem HTML-Text arbeiten, verwenden Sie die re-Bibliothek. Für komplexere HTML-Texte verwenden Sie die BeautifulSoup-Bibliothek, die die Verarbeitung erheblich erleichtert. Für welche Methode Sie sich auch entscheiden, Sie sollten mit regulären Ausdrücken vertraut sein und die Syntax der von Ihnen gewählten Bibliothek verstehen.

> ↩

Das obige ist der detaillierte Inhalt vonSo entfernen Sie HTML-Tags in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!