Conversion d'entités XML/HTML en Unicode en Python
Défi :
Dans le web scraping , les entités HTML sont couramment utilisées pour représenter des caractères non-ASCII. Python a besoin d'un utilitaire capable de convertir une chaîne avec ces entités en un type Unicode.
Solution :
Le HTMLParser de la bibliothèque standard Python possède une fonction non documentée, unescape() , qui peut répondre efficacement à cette exigence.
Mise en œuvre :
Pour Python 3.4 et versions antérieures :
<code class="python">import HTMLParser h = HTMLParser.HTMLParser() result = h.unescape('&copy; 2010') # u'\xa9 2010'</code>
Pour Python 3.4 et versions ultérieures :
<code class="python">import html result = html.unescape('&copy; 2010') # u'\xa9 2010'</code>
Exemple :
Considérons l'entité HTML ǎ, qui correspond à un "ǎ " avec une marque de ton en binaire. En utilisant unescape(), vous pouvez le convertir en valeur Unicode u'u01ce' :
<code class="python">result = h.unescape('&#x01ce;') # u'\u01ce'</code>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!