Maison > développement back-end > Tutoriel Python > Comment décoder des entités HTML en Python ?

Comment décoder des entités HTML en Python ?

DDD
Libérer: 2024-12-16 05:20:13
original
370 Les gens l'ont consulté

How to Decode HTML Entities in Python?

Décodage des entités HTML en Python : une référence complète

Lors de l'analyse du contenu HTML à l'aide de BeautifulSoup, on peut rencontrer des problèmes avec les entités HTML restant encodées. Pour décoder ces entités et obtenir le contenu textuel réel, diverses approches peuvent être utilisées en fonction de la version de Python utilisée.

Python 3.4

Dans Python 3.4 et supérieur, le html.unescape() La fonction offre une méthode simple pour décoder les entités HTML :

import html
print(html.unescape('£682m'))
Copier après la connexion

Cela renverra le résultat souhaité : "682 millions de livres sterling".

Python 2.6-3.3

Pour les versions Python comprises entre 2.6 et 3.3, la méthode HTMLParser.unescape() s'avère utile :

try:
    # Python 2.6-2.7
    from HTMLParser import HTMLParser
except ImportError:
    # Python 3
    from html.parser import HTMLParser

h = HTMLParser()
print(h.unescape('£682m'))
Copier après la connexion

Alternativement, les six bibliothèques de compatibilité peuvent simplifier les importations de modules, permettant l'utilisation de HTMLParser sur Python versions :

from six.moves.html_parser import HTMLParser
h = HTMLParser()
print(h.unescape('£682m'))
Copier après la connexion

En utilisant ces outils Python, les développeurs peuvent décoder efficacement les entités HTML et obtenir le contenu textuel souhaité pour leurs besoins d'analyse.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal