lxml处理xml时的字符编码问题-XML/RSS教程-PHP中文网

lxml处理xml时的字符编码问题

黄舟2017-04-18 09:16:02原创

为了简化问题，就把xml的内容简化为如下的形式:

<?xml version="1.0" encoding="gbk"?>
<DOCUMENT>
<da><![CDATA[中文，就是任性]]></da>
</DOCUMENT>

它的encoding为gbk，其中的节点有一个为中文字符使用lxml提取节点的值时出现了如下的异常

lxml.etree.XMLSyntaxError: Extra content at the end of the document

此时对应的Python脚本为：

tst = u'<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>'
for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))):
    print("%s, %s" % (element.tag, element.text))

不过简化之前，报的是另外一个异常

lxml.etree.XMLSyntaxError: input conversion failed due to input error, bytes 0x8B 0x2C 0xE6 0x9D

不论异常是哪一个，猜测还是和字符的编码形式有关。
经过各种尝试无果，后来在stackoverflow上看到这篇文章，文中提到的问题和xml中的encoding值有关，尝试了增加了一段代码

tst = u'<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>'
tst = tst.replace('encoding="gbk"', 'encoding="utf-8"')
for event,element in etree.iterparse(BytesIO(tst.encode('utf-8'))):
    print("%s, %s" % (element.tag, element.text))

增加了一个替换的语句，将之前的encoding="gbk"替换成encoding:"utf-8" 于是终于得到了结果：

da, 中文，就是任性
DOCUMENT, None

以上就是lxml处理xml时的字符编码问题的详细内容，更多请关注php中文网其它相关文章！

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn核实处理。

专题推荐：lxml，xml，字符编码

上一篇：XSD与XML的检测示例代码下一篇：除Web程序员所关注的XML的详细基础介绍

独孤九贱(3)_JavaScript视频教程

javascript是运行在浏览器上的脚本语言，连续多年，被评为全球最受欢迎的编程语言。是前端开发必备三大法器中，最具杀伤力。如果前端开发是降龙十八掌，好么javascript就是第18掌：亢龙有悔。没有它，你的前端生涯是不完整的。《php.cn独孤九贱（3）－JavaScript视频教程》课程特色：php中文网原创幽默段子系列课程，以恶搞，段子为主题风格的php视频教程！轻松的教学风格，简短的教学模式，让同学们在不知不觉中，学会了javascript知识。

独孤九贱(6)_jQuery视频教程

jQuery是一个快速、简洁的JavaScript框架。设计的宗旨是“write Less，Do More”，即倡导写更少的代码，做更多的事情。它封装JavaScript常用的功能代码，提供一种简便的JavaScript设计模式，优化HTML文档操作、事件处理、动画设计和Ajax交互。核心特性可以总结为：具有独特的链式语法和短小清晰的多功能接口；具有高效灵活的css选择器，并且可对CSS选择器进行扩展；拥有便捷的插件扩展机制和丰富的插件。兼容各种主流浏览器，如IE 6.0+、FF 1.5+、Safari 2.0+、Opera 9.0+等,是全球最流行的前端开发框架之一。PHP中文网根据最新版本,独家录制jQuery最新视频教程,回馈PHP中文网的新老用户。

jQuery与Ajax基础与实战

jQuery是最流行的JS函数库，封装了许多实用的功能,其中最引人入胜的就是Ajax。 jQuery中的Ajax操作,语法简单,操作方便，使Ajax从未如此轻松，前端人员从此不再为与服务器异步交互而发愁,本套课程,精选了最常用的几个方法，从基本的语法到每个参数，再到具体实例进行了全面的讲解。

Git教程(60分钟全程无废话版)

Git 是一个开源的分布式版本控制系统，用于敏捷高效地处理任何或小或大的项目。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subversion 等不同，它采用了分布式版本库的方式，不必服务器端软件支持

lxml处理xml时的字符编码问题

相关文章推荐

相关课程推荐

独孤九贱(3)_JavaScript视频教程

独孤九贱(6)_jQuery视频教程

jQuery与Ajax基础与实战

Git教程(60分钟全程无废话版)

PHP中文网