Heim > Backend-Entwicklung > Python-Tutorial > Wie kann ich HTML-Tags in Python effizient aus Text entfernen?

Wie kann ich HTML-Tags in Python effizient aus Text entfernen?

Linda Hamilton
Freigeben: 2024-12-19 22:42:16
Original
514 Leute haben es durchsucht

How Can I Efficiently Strip HTML Tags from Text in Python?

Entfernen von HTML-Tags in Python für eine makellose Textdarstellung

Bei der Manipulation von HTML-Antworten müssen häufig relevante Textinhalte extrahiert und gleichzeitig die Formatierungs-Tags entfernt werden. Dies kann durch effektives Entfernen von HTML-Tags erreicht werden, sodass Sie den gewünschten Klartext erhalten.

Nur-Text-Extraktion mit Pythons MLStripper erreichen

Um den Entfernungsprozess zu optimieren, Die Python-Standardbibliothek bietet eine effiziente Funktion, MLStripper, die speziell für diesen Zweck entwickelt wurde. MLStripper nimmt HTML-Eingaben entgegen und analysiert sie, wobei nur Nicht-Markup-Inhalte erhalten bleiben.

Implementierung für Python 3 und 2

Abhängig von Ihrer Python-Version können Sie Folgendes verwenden Codeausschnitte:

Python 3:

from io import StringIO
from html.parser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs= True
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()
Nach dem Login kopieren

Python 2:

from HTMLParser import HTMLParser
from StringIO import StringIO

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()
Nach dem Login kopieren

Verwendung:

Einfach die Strip_tags aufrufen Funktion, die die HTML-Eingabe als String-Argument übergibt. Der zurückgegebene Wert ist eine gestrippte Zeichenfolge, bei der alle HTML-Tags entfernt wurden.

Diese Technik erweist sich als unschätzbar wertvoll, wenn Sie mit aus HTML-Quellen extrahierten Textdaten arbeiten müssen, um eine saubere und verwaltbare Textdarstellung sicherzustellen.

Das obige ist der detaillierte Inhalt vonWie kann ich HTML-Tags in Python effizient aus Text entfernen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage