Heim > Backend-Entwicklung > Python-Tutorial > Wie dekodiere ich HTML-Entitäten in Python?

Wie dekodiere ich HTML-Entitäten in Python?

DDD
Freigeben: 2024-12-16 05:20:13
Original
373 Leute haben es durchsucht

How to Decode HTML Entities in Python?

HTML-Entitäten in Python dekodieren: Eine umfassende Referenz

Beim Parsen von HTML-Inhalten mit BeautifulSoup kann es zu Problemen kommen, wenn HTML-Entitäten codiert bleiben. Um diese Entitäten zu dekodieren und den tatsächlichen Textinhalt zu erhalten, können je nach verwendeter Python-Version verschiedene Ansätze verwendet werden.

Python 3.4

In Python 3.4 und höher ist html.unescape() Die Funktion bietet eine einfache Methode zum Dekodieren von HTML-Entitäten:

import html
print(html.unescape('£682m'))
Nach dem Login kopieren

Dies gibt die gewünschte Ausgabe zurück: „£682m“.

Python 2.6-3.3

Für Python-Versionen zwischen 2.6 und 3.3 erweist sich die Methode HTMLParser.unescape() als nützlich:

try:
    # Python 2.6-2.7
    from HTMLParser import HTMLParser
except ImportError:
    # Python 3
    from html.parser import HTMLParser

h = HTMLParser()
print(h.unescape('£682m'))
Nach dem Login kopieren

Alternativ: Die sechs Kompatibilitätsbibliotheken können Modulimporte vereinfachen und die Verwendung von HTMLParser in Python ermöglichen Versionen:

from six.moves.html_parser import HTMLParser
h = HTMLParser()
print(h.unescape('£682m'))
Nach dem Login kopieren

Durch die Verwendung dieser Python-Tools können Entwickler HTML-Entitäten effizient dekodieren und den gewünschten Textinhalt für ihre Analyseanforderungen erhalten.

Das obige ist der detaillierte Inhalt vonWie dekodiere ich HTML-Entitäten in Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage