Konvertieren von XML/HTML-Entitäten in Unicode-Strings in Python
Beim Web Scraping werden Entitäten häufig zur Darstellung von Nicht-ASCII-Zeichen verwendet. Um diese Entitäten in Python zu dekodieren und die entsprechende Unicode-Darstellung zu erhalten, können Sie die Funktion unescape() verwenden, die im HTMLParser-Modul der Standardbibliothek verfügbar ist.
Beispiel:
Angenommen Sie haben die folgende Entität:
ǎ
die ein „ǎ“ mit einer Tonmarkierung darstellt. Das binäre Äquivalent dazu ist 01ce (16 Bit). So konvertieren Sie diese Entität in den Unicode-Wert u'u01ce':
Python 3.4 und früher:
import HTMLParser h = HTMLParser.HTMLParser() unicode_string = h.unescape('© 2010') # u'\xa9 2010' unicode_string = h.unescape('© 2010') # u'\xa9 2010'
Python 3.4 und höher:
import html unicode_string = html.unescape('© 2010') # u'\xa9 2010' unicode_string = html.unescape('© 2010') # u'\xa9 2010'
Der resultierende unicode_string enthält die gewünschte Unicode-Darstellung des Strings, wobei die Entitäten durch ihre tatsächlichen Unicode-Werte ersetzt werden.
Das obige ist der detaillierte Inhalt vonWie konvertiert man XML/HTML-Entitäten in Python in Unicode-Strings?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!