Entfernen von HTML-Tags in Python für eine makellose Textdarstellung
Bei der Manipulation von HTML-Antworten müssen häufig relevante Textinhalte extrahiert und gleichzeitig die Formatierungs-Tags entfernt werden. Dies kann durch effektives Entfernen von HTML-Tags erreicht werden, sodass Sie den gewünschten Klartext erhalten.
Nur-Text-Extraktion mit Pythons MLStripper erreichen
Um den Entfernungsprozess zu optimieren, Die Python-Standardbibliothek bietet eine effiziente Funktion, MLStripper, die speziell für diesen Zweck entwickelt wurde. MLStripper nimmt HTML-Eingaben entgegen und analysiert sie, wobei nur Nicht-Markup-Inhalte erhalten bleiben.
Implementierung für Python 3 und 2
Abhängig von Ihrer Python-Version können Sie Folgendes verwenden Codeausschnitte:
Python 3:
from io import StringIO from html.parser import HTMLParser class MLStripper(HTMLParser): def __init__(self): super().__init__() self.reset() self.strict = False self.convert_charrefs= True self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
Python 2:
from HTMLParser import HTMLParser from StringIO import StringIO class MLStripper(HTMLParser): def __init__(self): self.reset() self.text = StringIO() def handle_data(self, d): self.text.write(d) def get_data(self): return self.text.getvalue() def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
Verwendung:
Einfach die Strip_tags aufrufen Funktion, die die HTML-Eingabe als String-Argument übergibt. Der zurückgegebene Wert ist eine gestrippte Zeichenfolge, bei der alle HTML-Tags entfernt wurden.
Diese Technik erweist sich als unschätzbar wertvoll, wenn Sie mit aus HTML-Quellen extrahierten Textdaten arbeiten müssen, um eine saubere und verwaltbare Textdarstellung sicherzustellen.
Das obige ist der detaillierte Inhalt vonWie kann ich HTML-Tags in Python effizient aus Text entfernen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!