Maison > développement back-end > Tutoriel XML/RSS > Explication détaillée du problème de codage des caractères lorsque lxml traite XML

Explication détaillée du problème de codage des caractères lorsque lxml traite XML

黄舟
Libérer: 2017-03-17 16:53:25
original
2508 Les gens l'ont consulté

Afin de simplifier le problème, le contenu de xml est simplifié sous la forme suivante :

<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文,就是任性]]></da></DOCUMENT>
Copier après la connexion

Son encodage est gbk, et l'un des nœuds est un caractère chinois
Lors de l'utilisation de lxml pour extraire la valeur d'un nœud, l'exception suivante s'est produite

lxml.etree.XMLSyntaxError: Extra content at the end of the document
Copier après la connexion

Le script Python correspondant à ce moment est :

tst = u'<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文,就是任性]]></da></DOCUMENT>'
for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))):
    print("%s, %s" % (element.tag, element.text))
Copier après la connexion

Cependant, avant la simplification, il était signalé C'est une autre exception

lxml.etree.XMLSyntaxError: input conversion failed due to input error, bytes 0x8B 0x2C 0xE6 0x9D
Copier après la connexion

Peu importe de quelle exception il s'agit, elle est probablement liée à la forme d'encodage des caractères.
Après diverses tentatives infructueuses, j'ai vu plus tard cet article sur stackoverflow. Le problème mentionné dans l'article est lié à la valeur d'encodage en XML. J'ai essayé d'ajouter un bout de code

tst = u'<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文,就是任性]]></da></DOCUMENT>'
tst = tst.replace('encoding="gbk"', 'encoding="utf-8"')
for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))):
    print("%s, %s" % (element.tag, element.text))
Copier après la connexion

A. instruction de remplacement, en remplaçant le précédent encoding="gbk" par encoding:"utf-8"
Nous avons donc finalement obtenu le résultat :

da, 中文,就是任性
DOCUMENT, None
Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal