Lors de l'analyse du contenu HTML à l'aide de BeautifulSoup, on peut rencontrer des problèmes avec les entités HTML restant encodées. Pour décoder ces entités et obtenir le contenu textuel réel, diverses approches peuvent être utilisées en fonction de la version de Python utilisée.
Dans Python 3.4 et supérieur, le html.unescape() La fonction offre une méthode simple pour décoder les entités HTML :
import html print(html.unescape('£682m'))
Cela renverra le résultat souhaité : "682 millions de livres sterling".
Pour les versions Python comprises entre 2.6 et 3.3, la méthode HTMLParser.unescape() s'avère utile :
try: # Python 2.6-2.7 from HTMLParser import HTMLParser except ImportError: # Python 3 from html.parser import HTMLParser h = HTMLParser() print(h.unescape('£682m'))
Alternativement, les six bibliothèques de compatibilité peuvent simplifier les importations de modules, permettant l'utilisation de HTMLParser sur Python versions :
from six.moves.html_parser import HTMLParser h = HTMLParser() print(h.unescape('£682m'))
En utilisant ces outils Python, les développeurs peuvent décoder efficacement les entités HTML et obtenir le contenu textuel souhaité pour leurs besoins d'analyse.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!