communauté Apprendre Bibliothèque d'outils Loisirs

Français

Maison > développement back-end > Tutoriel Python > python gère les caractères d'échappement HTML

python gère les caractères d'échappement HTML

高洛峰

Libérer： 2017-03-01 13:27:57

original

2051 Les gens l'ont consulté

L'exemple de cet article décrit comment Python gère les caractères d'échappement HTML. Partagez-le avec tout le monde pour votre référence, les détails sont les suivants :

Récemment, lorsque j'utilise Python pour traiter les données de pages Web, je rencontre souvent des caractères d'échappement HTML (également appelés entités de caractères HTML), tels que ≪> Les entités de caractères sont généralement utilisées pour représenter des caractères réservés dans les pages Web. Par exemple, > est représenté par > pour empêcher le navigateur de penser qu'il s'agit d'une balise. Pour plus de détails, veuillez vous référer aux entités de caractères HTML de w3school. Bien qu’utiles, ils peuvent grandement affecter l’analyse des données Web. Afin de gérer ces caractères d'échappement, il existe les solutions suivantes :

1. Utilisez HTMLParser pour traiter

import HTMLParser
html_cont = " asdfg>123<"
html_parser = HTMLParser.HTMLParser()
new_cont = html_parser.unescape(html_cont)
print new_cont #new_cont = " asdfg>123<"

Copier après la connexion

Reconvertir (seuls les espaces ne peuvent pas être reconvertis) :

import cgi
new_cont = cgi.escape(new_cont)
print new_cont #new_cont = " asdfg>123<"

Copier après la connexion

2. Remplacer directement

html_cont = " asdfg>123<"
new_cont = new_cont.replace(&#39; &#39;, &#39; &#39;)
print new_cont #new_cont = " asdfg>123<"
new_cont = new_cont.replace(&#39;>&#39;, &#39;>&#39;)
print new_cont #new_cont = " asdfg>123<"
new_cont = new_cont.replace(&#39;<&#39;, &#39;<&#39;)
print new_cont #new_cont = " asdfg>123<"

Copier après la connexion

Je ne sais pas s'il existe une meilleure façon.

De plus, stackoverflow fournit une réponse à la gestion des caractères d'échappement en XML : python - Quelle est la meilleure façon de gérer les entités de type - dans les documents XML avec lxml ?

Pour plus d'articles liés au traitement python des caractères d'échappement HTML, veuillez faire attention au site Web PHP chinois !

Étiquettes associées：

html python 转义字符

source：php.cn

Article précédent：Problème de code tronqué lorsque Python capture et enregistre des pages HTML Article suivant：Python lit simplement les gros fichiers

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Exemples de paramètres HTML pour les effets de police gras, italique, souligné, barré et autres

1970-01-01 08:00:00
实现一个 Java 版的 Redis

1970-01-01 08:00:00
La démo d'applet WeChat la plus simple

1970-01-01 08:00:00
Introduction aux méthodes de fonctionnement simples de pandas.DataFrame (créer, indexer, ajouter et supprimer) en python

1970-01-01 08:00:00
WeChat Mini Program : Exemple de mise en œuvre de l'effet d'onglets

1970-01-01 08:00:00
Python construit des méthodes personnalisées pour embellir la sortie de la structure du dictionnaire

1970-01-01 08:00:00
HTML5 : utilisez Canvas pour traiter la vidéo en temps réel

1970-01-01 08:00:00
Asp.net utilise SignalR pour envoyer des images

1970-01-01 08:00:00
Tutoriel de développement de programmes WeChat Mini-App() et Page() Présentation des fonctions

1970-01-01 08:00:00
Explication détaillée de l'utilisation de Python Redis

1970-01-01 08:00:00

Derniers numéros

Python/MySQL ne peut pas conserver correctement les données entières Aucun code n'est requis ici. Je souhaite enregistrer un numéro très long car je crée un je...

Depuis 2024-04-04 19:09:44

0

1

367

En utilisant Selenium, vous voulez cliquer et définir une URL en classe J'ai besoin d'un autre conseil aujourd'hui. J'essaie de créer du code Python/Selenium et l...

Depuis 2024-04-04 14:14:44

0

1

3492

Selenium + Python - inspecter l'image viaexecute_script Je dois vérifier qu'une image est affichée sur la page en utilisant du sélénium en python....

Depuis 2024-04-03 09:32:15

0

1

375

Comment conserver les X premières lignes et supprimer les lignes du tableau J'ai une grande table avec des millions d'enregistrements dans MySQLincident_archive, je s...

Depuis 2024-04-01 18:32:54

0

1

347

Comment récupérer un texte Google Weather spécifique à l'aide de BeautifulSoup ? Comment trouver le texte du cours « New York City, USA » en Python à l'aide de BeautifulSo...

Depuis 2024-04-01 14:06:14

0

1

308

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal