如何在Clojure中使用clojure.data.xml处理XML？-XML/RSS教程-PHP中文网

clojure.data.xml解析xml后，每个元素会转换为包含:tag（关键字形式的标签名）、:attrs（属性映射）和:content（子元素或文本向量）的clojure映射，整体构成嵌套的数据结构，忠实反映xml的层次关系；2. 构建xml时，使用xml/element函数按层级创建元素，结合xml/emit-str或xml/emit生成格式化或紧凑的xml字符串或输出到流，支持属性、嵌套内容和缩进；3. 处理大型xml文件时，clojure.data.xml因将整个文档加载到内存而可能引发内存溢出和性能问题，应改用sax事件驱动解析、xslt转换或自定义流式处理等内存友好的替代方案以提升效率和稳定性。

如何在Clojure中使用clojure.data.xml处理XML？

在Clojure中处理XML，

clojure.data.xml

登录后复制

库是你的得力助手。它提供了一套功能，能让你方便地将XML文本或流解析成Clojure的数据结构，反之亦然，从Clojure数据生成XML。基本上，无论你是要读取现有的XML文件，还是想用代码动态构建XML输出，它都能搞定。

解决方案

要开始使用

clojure.data.xml

登录后复制

，首先得把它加到你的项目依赖里。如果你用Leiningen，在

project.clj

登录后复制

的

:dependencies

登录后复制

里加上

[org.clojure/data.xml "0.2.0-alpha6"]

登录后复制

。如果是

deps.edn

登录后复制

，那就

org.clojure/data.xml {:mvn/version "0.2.0-alpha6"}

登录后复制

。版本号可能随时间变化，用最新稳定的就好。

解析XML

一旦库准备就绪，解析XML就变得很直接了。

clojure.data.xml/parse

登录后复制

函数可以从各种输入源读取XML，比如一个字符串，或者一个

java.io.InputStream

登录后复制

。它会将XML结构转换成嵌套的Clojure映射和向量。

一个简单的例子：

(require '[clojure.data.xml :as xml])
(require '[clojure.java.io :as io])

(def xml-string "<bookstore><book category=\"cooking\"><title lang=\"en\">Everyday Italian</title><author>Giada De Laurentiis</author><year>2005</year><price>30.00</price></book><book category=\"children\"><title lang=\"en\">Harry Potter</title><author>J.K. Rowling</author><year>2005</year><price>29.99</price></book></bookstore>")

(def parsed-xml (xml/parse (io/input-stream (.getBytes xml-string "UTF-8"))))

;; 打印解析后的结构，你会看到一个嵌套的map
;; (prn parsed-xml)

登录后复制

解析出来的结果，每个XML元素都会变成一个Clojure的map，通常包含

:tag

登录后复制

（元素的标签名，是个关键字）、

:attrs

登录后复制

（一个map，存储元素的属性）和

:content

登录后复制

（一个向量，包含子元素或文本内容）。文本内容就是普通的字符串。

生成XML

反过来，从Clojure数据生成XML也同样方便。

clojure.data.xml/emit

登录后复制

和

clojure.data.xml/emit-str

登录后复制

是常用的函数。

emit

登录后复制

会把XML输出到一个

java.io.Writer

登录后复制

，而

emit-str

登录后复制

则直接返回一个XML字符串。

构建XML时，你通常会用到

clojure.data.xml/element

登录后复制

函数。它接受标签名（关键字）、属性map（可选）和内容（可选，可以是字符串或嵌套的元素）。

(require '[clojure.data.xml :as xml])

(def my-book
  (xml/element :book {:category "fiction"}
    (xml/element :title {} "The Great Clojure Adventure")
    (xml/element :author {} "Clojure Fan")
    (xml/element :year {} "2023")))

(def my-bookstore
  (xml/element :bookstore {}
    my-book
    (xml/element :book {:category "science"}
      (xml/element :title {} "Quantum Computing for Dummies"))))

;; 将Clojure数据结构转换为XML字符串
(xml/emit-str my-bookstore)
;; => "<bookstore><book category=\"fiction\"><title>The Great Clojure Adventure</title><author>Clojure Fan</author><year>2023</year></book><book category=\"science\"><title>Quantum Computing for Dummies</title></book></bookstore>"

;; 如果需要格式化输出，可以这样
(xml/emit-str my-bookstore :indent true)

登录后复制

clojure.data.xml

登录后复制

对XML命名空间也有不错的支持，当你遇到带命名空间的XML时，它能正确地解析和生成。

clojure.data.xml

登录后复制

解析XML后，数据结构是怎样的？

当你用

clojure.data.xml/parse

登录后复制

处理完XML，得到的结果其实是一个嵌套的Clojure数据结构，它忠实地反映了XML的层次性。每个XML元素都会被映射成一个Clojure map，这个map通常包含三个核心键：

```
:tag
```
登录后复制
登录后复制
: 这是一个关键字，表示XML元素的标签名。比如
```
<book>
```
登录后复制
会解析成
```
:book
```
登录后复制
登录后复制
。
```
:attrs
```
登录后复制
登录后复制
: 这是一个map，存储了XML元素的所有属性。属性名也是关键字，属性值是字符串。例如，
```
<book category="cooking">
```
登录后复制
中的
```
category="cooking"
```
登录后复制
会变成
```
{:category "cooking"}
```
登录后复制
。
```
:content
```
登录后复制
登录后复制
登录后复制
: 这是一个向量，包含了该XML元素的子节点。子节点可以是其他XML元素（同样以map形式表示），也可以是文本内容（普通的字符串）。如果一个元素没有子节点，这个向量可能就是空的。

举个例子，考虑这段XML：

<library name="City Library">
  <book id="1">
    <title>Clojure Programming</title>
    <author>Rich Hickey</author>
  </book>
  <magazine id="2">
    <title>Clojure Monthly</title>
  </magazine>
</library>

登录后复制

解析后，你可能会得到类似这样的Clojure数据：

{:tag :library,
 :attrs {:name "City Library"},
 :content
 [{:tag :book,
   :attrs {:id "1"},
   :content
   [{:tag :title, :attrs {}, :content ["Clojure Programming"]}
    {:tag :author, :attrs {}, :content ["Rich Hickey"]}]}
  {:tag :magazine,
   :attrs {:id "2"},
   :content
   [{:tag :title, :attrs {}, :content ["Clojure Monthly"]}]}]}

登录后复制

理解这个结构后，你就可以运用Clojure强大的序列操作函数（如

map

登录后复制

、

filter

登录后复制

、

reduce

登录后复制

、

get-in

登录后复制

等）来查询、遍历和转换这些数据了。比如，要找到所有书的标题，你可能需要先过滤出

:book

登录后复制

标签的元素，然后深入到它们的

:content

登录后复制

中去查找

:title

登录后复制

。这种方式非常“Clojure”，因为它把XML这个外部世界的数据格式，巧妙地融入了Clojure自身的数据处理范式里。

如何在Clojure中构建XML文档以供输出？

构建XML文档，

clojure.data.xml

登录后复制

的核心理念是将XML的层次结构直接映射到Clojure的嵌套数据结构上。最关键的函数是

xml/element

登录后复制

，它让你可以像搭积木一样一层层地构建XML。

xml/element

登录后复制

函数通常接受三个参数：

标签名 (tag-name)：一个关键字，比如
```
:user
```
登录后复制
、
```
:item
```
登录后复制
。
属性 (attributes)：一个可选的map，键是属性名（关键字），值是属性值（字符串）。比如
```
{:id "123", :type "admin"}
```
登录后复制
。
内容 (content)：一个或多个参数，它们可以是字符串（表示文本内容）、其他由
xml/element
登录后复制
登录后复制
登录后复制
登录后复制
创建的嵌套元素，或者是nil（表示空元素）。

让我们看一个构建复杂一点XML的例子：

假设我们要构建一个表示用户订单的XML：

<order id="A123" status="pending">
  <customer>
    <name>John Doe</name>
    <email>john.doe@example.com</email>
  </customer>
  <items>
    <item sku="P001" quantity="2">
      <description>Clojure T-Shirt</description>
      <price>25.00</price>
    </item>
    <item sku="P002" quantity="1">
      <description>Clojure Mug</description>
      <price>15.00</price>
    </item>
  </items>
  <total>65.00</total>
</order>

登录后复制

在Clojure中，你可以这样构建它：

(require '[clojure.data.xml :as xml])

(def order-data
  (xml/element :order {:id "A123" :status "pending"}
    (xml/element :customer {}
      (xml/element :name {} "John Doe")
      (xml/element :email {} "john.doe@example.com"))
    (xml/element :items {}
      (xml/element :item {:sku "P001" :quantity "2"}
        (xml/element :description {} "Clojure T-Shirt")
        (xml/element :price {} "25.00"))
      (xml/element :item {:sku "P002" :quantity "1"}
        (xml/element :description {} "Clojure Mug")
        (xml/element :price {} "15.00")))
    (xml/element :total {} "65.00")))

;; 打印生成的XML字符串
(xml/emit-str order-data :indent true)

登录后复制

这里，

xml/element

登录后复制

的嵌套调用完美地模拟了XML的层级关系。

:indent true

登录后复制

这个选项非常实用，它会让输出的XML带有缩进，便于阅读和调试。如果你不需要字符串，而是想直接写入一个文件或网络流，可以使用

xml/emit

登录后复制

函数，它接受一个

Writer

登录后复制

对象作为第一个参数。这种声明式地构建方式，在我看来，比那些基于字符串拼接或者复杂模板引擎的方式要清晰和安全得多，尤其是当XML结构变得复杂时，错误率会大大降低。

处理大型XML文件时，

clojure.data.xml

登录后复制

有什么注意事项或替代方案？

clojure.data.xml

登录后复制

在处理中小型XML文件时表现非常出色，因为它将整个XML文档解析成一个内存中的Clojure数据结构（类似于DOM解析器的工作方式）。这种方式的优点是你可以方便地在内存中导航、查询和修改数据，因为整个文档的结构都是可访问的。

然而，当面对非常大的XML文件时，比如几个GB甚至几十GB的文件，这种“一次性加载到内存”的策略就会遇到瓶颈：

内存消耗: 整个XML文档及其对应的Clojure数据结构可能会占用大量内存，导致内存溢出（OutOfMemoryError）。
性能: 解析和构建大型数据结构本身就需要时间，对于超大型文件，这个过程会非常慢。

在这种情况下，

clojure.data.xml

登录后复制

可能就不是最佳选择了。你需要考虑采用流式解析（Streaming Parsing）的策略，它不会一次性加载整个文档，而是按事件（如元素开始、元素结束、文本内容）逐块处理。

替代方案或策略：

SAX解析器: Java生态系统提供了标准的SAX (Simple API for XML) 解析器。SAX是一种事件驱动的API，它只在解析器遇到XML结构中的特定事件（如开始标签、结束标签、文本内容等）时通知你的代码。你需要在回调函数中处理这些事件，从而避免将整个文档加载到内存。Clojure可以直接调用Java库，所以你可以使用Java的SAX API来处理超大型XML文件。虽然这会增加一些Java互操作的复杂性，但对于内存受限的场景来说，这是个有效的办法。

例如，你可以使用
```
javax.xml.parsers.SAXParserFactory
```
登录后复制
和
```
org.xml.sax.helpers.DefaultHandler
```
登录后复制
来构建一个SAX解析器。你只需要实现你感兴趣的事件处理方法，比如
```
startElement
```
登录后复制
、
```
endElement
```
登录后复制
来提取所需数据，而不是构建完整的DOM树。
XSLT（Extensible Stylesheet Language Transformations）: 如果你的目标仅仅是从大型XML中提取或转换数据为另一种格式（比如另一个XML、HTML或文本），并且转换规则相对固定，那么XSLT可能是一个强大的声明式工具。你可以编写XSLT样式表，然后使用Java的XSLT处理器（如Saxon-HE）来对大型XML文件进行转换。这种方式将数据处理逻辑与程序代码分离，且许多XSLT处理器都支持流式处理，对内存友好。
自定义流处理: 对于结构相对简单但数据量巨大的XML文件，你甚至可以考虑更“土”但有时非常高效的方法：逐行读取文件，用正则表达式或者简单的字符串匹配来识别你关心的标签和数据。这种方法缺乏通用性，但对于特定格式的超大日志文件或数据导出文件，可能比通用解析器更快、更省内存。当然，这要求你对XML格式有足够的信心，不会遇到太多意外情况。