Comment convertir des entités XML/HTML en Unicode en Python ?-Tutoriel Python-php.cn

Comment convertir des entités XML/HTML en Unicode en Python ?

Barbara Streisand

Libérer： 2024-11-04 00:06:30

original

448 Les gens l'ont consulté

How to Convert XML/HTML Entities to Unicode in Python?

Conversion d'entités XML/HTML en Unicode en Python

Défi :

Dans le web scraping , les entités HTML sont couramment utilisées pour représenter des caractères non-ASCII. Python a besoin d'un utilitaire capable de convertir une chaîne avec ces entités en un type Unicode.

Solution :

Le HTMLParser de la bibliothèque standard Python possède une fonction non documentée, unescape() , qui peut répondre efficacement à cette exigence.

Mise en œuvre :

Pour Python 3.4 et versions antérieures :

<code class="python">import HTMLParser

h = HTMLParser.HTMLParser()
result = h.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>

Copier après la connexion

Pour Python 3.4 et versions ultérieures :

<code class="python">import html

result = html.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>

Copier après la connexion

Exemple :

Considérons l'entité HTML ǎ, qui correspond à un "ǎ " avec une marque de ton en binaire. En utilisant unescape(), vous pouvez le convertir en valeur Unicode u'u01ce' :

<code class="python">result = h.unescape('&amp;#x01ce;')  # u'\u01ce'</code>

Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!