Wie konvertiert man XML/HTML-Entitäten in Python in Unicode-Strings?

Susan Sarandon
Freigeben: 2024-11-04 06:36:02
Original
499 Leute haben es durchsucht

How to Convert XML/HTML Entities to Unicode Strings in Python?

Konvertieren von XML/HTML-Entitäten in Unicode-Strings in Python

Beim Web Scraping werden Entitäten häufig zur Darstellung von Nicht-ASCII-Zeichen verwendet. Um diese Entitäten in Python zu dekodieren und die entsprechende Unicode-Darstellung zu erhalten, können Sie die Funktion unescape() verwenden, die im HTMLParser-Modul der Standardbibliothek verfügbar ist.

Beispiel:

Angenommen Sie haben die folgende Entität:

ǎ
Nach dem Login kopieren

die ein „ǎ“ mit einer Tonmarkierung darstellt. Das binäre Äquivalent dazu ist 01ce (16 Bit). So konvertieren Sie diese Entität in den Unicode-Wert u'u01ce':

Python 3.4 und früher:

import HTMLParser
h = HTMLParser.HTMLParser()
unicode_string = h.unescape('© 2010') # u'\xa9 2010'
unicode_string = h.unescape('© 2010') # u'\xa9 2010'
Nach dem Login kopieren

Python 3.4 und höher:

import html
unicode_string = html.unescape('© 2010') # u'\xa9 2010'
unicode_string = html.unescape('© 2010') # u'\xa9 2010'
Nach dem Login kopieren

Der resultierende unicode_string enthält die gewünschte Unicode-Darstellung des Strings, wobei die Entitäten durch ihre tatsächlichen Unicode-Werte ersetzt werden.

Das obige ist der detaillierte Inhalt vonWie konvertiert man XML/HTML-Entitäten in Python in Unicode-Strings?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage