Comment convertir des entités XML/HTML en chaînes Unicode en Python ?

Susan Sarandon
Libérer: 2024-11-04 06:36:02
original
500 Les gens l'ont consulté

How to Convert XML/HTML Entities to Unicode Strings in Python?

Conversion d'entités XML/HTML en chaînes Unicode en Python

Dans le web scraping, les entités sont fréquemment utilisées pour représenter des caractères non-ASCII. Pour décoder ces entités en Python et obtenir la représentation Unicode correspondante, vous pouvez utiliser la fonction unescape() disponible dans le module HTMLParser de la bibliothèque standard.

Exemple :

Supposons vous avez l'entité suivante :

ǎ
Copier après la connexion

qui représente un "ǎ" avec une marque de ton. L'équivalent binaire de ceci est 01ce (16 bits). Pour convertir cette entité en valeur Unicode u'u01ce' :

Python 3.4 et versions antérieures :

import HTMLParser
h = HTMLParser.HTMLParser()
unicode_string = h.unescape('© 2010') # u'\xa9 2010'
unicode_string = h.unescape('© 2010') # u'\xa9 2010'
Copier après la connexion

Python 3.4 et versions ultérieures :

import html
unicode_string = html.unescape('© 2010') # u'\xa9 2010'
unicode_string = html.unescape('© 2010') # u'\xa9 2010'
Copier après la connexion

La chaîne unicode_string résultante contient la représentation Unicode souhaitée de la chaîne avec les entités remplacées par leurs valeurs Unicode réelles.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal