Maison > développement back-end > Tutoriel Python > Comment convertir des entités XML/HTML en Unicode en Python ?

Comment convertir des entités XML/HTML en Unicode en Python ?

Barbara Streisand
Libérer: 2024-11-04 00:06:30
original
448 Les gens l'ont consulté

How to Convert XML/HTML Entities to Unicode in Python?

Conversion d'entités XML/HTML en Unicode en Python

Défi :

Dans le web scraping , les entités HTML sont couramment utilisées pour représenter des caractères non-ASCII. Python a besoin d'un utilitaire capable de convertir une chaîne avec ces entités en un type Unicode.

Solution :

Le HTMLParser de la bibliothèque standard Python possède une fonction non documentée, unescape() , qui peut répondre efficacement à cette exigence.

Mise en œuvre :

Pour Python 3.4 et versions antérieures :

<code class="python">import HTMLParser

h = HTMLParser.HTMLParser()
result = h.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>
Copier après la connexion

Pour Python 3.4 et versions ultérieures :

<code class="python">import html

result = html.unescape('&amp;copy; 2010')  # u'\xa9 2010'</code>
Copier après la connexion

Exemple :

Considérons l'entité HTML ǎ, qui correspond à un "ǎ " avec une marque de ton en binaire. En utilisant unescape(), vous pouvez le convertir en valeur Unicode u'u01ce' :

<code class="python">result = h.unescape('&amp;#x01ce;')  # u'\u01ce'</code>
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal