lxml处理xml时的字符编码问题-XML/RSS教程-PHP中文网

lxml处理xml时的字符编码问题

黄舟

发布： 2017-04-18 09:16:02

原创

2502 人浏览过

为了简化问题，就把xml的内容简化为如下的形式:

<?xml version="1.0" encoding="gbk"?>
<DOCUMENT>
<da><![CDATA[中文，就是任性]]></da>
</DOCUMENT>

登录后复制

它的encoding为gbk，其中的节点有一个为中文字符使用lxml提取节点的值时出现了如下的异常

lxml.etree.XMLSyntaxError: Extra content at the end of the document

登录后复制

此时对应的Python脚本为：

tst = u&#39;<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>&#39;
for event,element in etree.iterparse(BytesIO(tst.encode(&#39;utf-8&#39;))):
    print("%s, %s" % (element.tag, element.text))

登录后复制

不过简化之前，报的是另外一个异常

lxml.etree.XMLSyntaxError: input conversion failed due to input error, bytes 0x8B 0x2C 0xE6 0x9D

登录后复制

不论异常是哪一个，猜测还是和字符的编码形式有关。
经过各种尝试无果，后来在stackoverflow上看到这篇文章，文中提到的问题和xml中的encoding值有关，尝试了增加了一段代码

tst = u&#39;<?xml version="1.0" encoding="gbk"?><DOCUMENT><da><![CDATA[中文，就是任性]]></da></DOCUMENT>&#39;
tst = tst.replace(&#39;encoding="gbk"&#39;, &#39;encoding="utf-8"&#39;)
for event,element in etree.iterparse(BytesIO(tst.encode(&#39;utf-8&#39;))):
    print("%s, %s" % (element.tag, element.text))

登录后复制

增加了一个替换的语句，将之前的encoding="gbk"替换成encoding:"utf-8" 于是终于得到了结果：

da, 中文，就是任性
DOCUMENT, None

登录后复制

以上是lxml处理xml时的字符编码问题的详细内容。更多信息请关注PHP中文网其他相关文章！

php8，我来也

30分钟学会网站布局

尚观Oracle入门到精通视频教程

你的第一行 UNI-APP 代码

Flutter 从头到应用启动

兄弟连Linux新版视频教程

AXURE 9视频教程（适合产品经理交互产品设计UI）

零基础PS视频教程

16天带你入门UI视频教程

PS技巧和切片技巧视频教程

阿里云环境搭建以及项目上线视频教程

计算机网络概述——程序员必须掌握的基础知识

程序员必备教程——HTTP协议讲解

Websocket视频教程

lxml处理xml时的字符编码问题