Heim > Backend-Entwicklung > Python-Tutorial > Wie konvertiert man XML/HTML-Entitäten in Python in Unicode?

Wie konvertiert man XML/HTML-Entitäten in Python in Unicode?

Barbara Streisand
Freigeben: 2024-11-04 00:06:30
Original
435 Leute haben es durchsucht

How to Convert XML/HTML Entities to Unicode in Python?

Konvertieren von XML/HTML-Entitäten in Unicode in Python

Herausforderung:

Im Web Scraping , HTML-Entitäten werden häufig zur Darstellung von Nicht-ASCII-Zeichen verwendet. Python benötigt ein Dienstprogramm, das einen String mit diesen Entitäten in einen Unicode-Typ konvertieren kann.

Lösung:

Der HTMLParser der Python-Standardbibliothek verfügt über eine undokumentierte Funktion, unescape() , das diese Anforderung effektiv erfüllen kann.

Implementierung:

Für Python 3.4 und früher:

<code class="python">import HTMLParser

h = HTMLParser.HTMLParser()
result = h.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>
Nach dem Login kopieren

Für Python 3.4 und höher:

<code class="python">import html

result = html.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>
Nach dem Login kopieren

Beispiel:

Betrachten Sie die HTML-Entität ǎ, die einem „ǎ“ entspricht " mit einer Tonmarkierung im Binärformat. Mit unescape() können Sie es in den Unicode-Wert u'u01ce':

<code class="python">result = h.unescape('&amp;#x01ce;')  # u'\u01ce'</code>
Nach dem Login kopieren
konvertieren

Das obige ist der detaillierte Inhalt vonWie konvertiert man XML/HTML-Entitäten in Python in Unicode?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage