Petua untuk memproses fail XML yang besar menggunakan Python-Tutorial Python-php.cn

Petua untuk memproses fail XML yang besar menggunakan Python

WBOY

Lepaskan： 2023-08-09 12:01:45

asal

1678 orang telah melayarinya

Petua untuk memproses fail XML yang besar menggunakan Python

Dalam persekitaran pemprosesan data moden, fail XML yang besar selalunya merupakan sumber data biasa. Walau bagaimanapun, disebabkan struktur yang kompleks dan saiz fail XML yang besar, memprosesnya secara langsung mungkin menghadapi beberapa cabaran. Artikel ini akan memperkenalkan beberapa teknik untuk menggunakan Python untuk memproses fail XML yang besar untuk membantu kami mengekstrak data daripadanya dengan cekap.

Gunakan penghurai SAX
SAX (API Mudah untuk XML) ialah penghurai XML dipacu peristiwa yang boleh membaca fail XML baris demi baris dan memproses nod di dalamnya. Berbanding dengan parser DOM, parser SAX lebih cekap apabila memproses fail XML yang besar kerana ia tidak perlu memuatkan keseluruhan fail ke dalam memori. Modul xml.sax terbina dalam Python menyediakan pelaksanaan penghurai SAX.

Berikut ialah contoh kod yang menunjukkan cara menggunakan penghurai SAX untuk menghuraikan fail XML yang besar dan mengekstrak data di dalamnya:

import xml.sax

class MyHandler(xml.sax.ContentHandler):
    def __init__(self):
        self.data = ""

    def startElement(self, tag, attributes):
        if tag == "item":
            self.data = ""

    def endElement(self, tag):
        if tag == "item":
            print(self.data)

    def characters(self, content):
        self.data += content.strip()

parser = xml.sax.make_parser()
handler = MyHandler()
parser.setContentHandler(handler)
parser.parse("large.xml")

Salin selepas log masuk

Dalam kod di atas, kami mentakrifkan kelas ContentHandler tersuai dengan mengatasi startElement, endElement dan kaedah aksara untuk mengendalikan nod XML. Apabila penghurai menemui teg <item>, ia memanggil kaedah startElement, di mana kita memulakan self.data. Apabila penghurai menemui teg </item>, ia memanggil kaedah endElement, di mana kami mencetak nilai self.data. Apabila penghurai membaca kandungan aksara, kaedah aksara dipanggil, di mana kami menambah kandungan aksara semasa pada self.data. <item>标签时，会调用startElement方法，我们在其中对self.data进行初始化。当解析器遇到</item>标签时，会调用endElement方法，我们在其中打印出self.data的值。当解析器读取到字符内容时，会调用characters方法，我们在其中将当前字符内容添加到self.data中。

使用XPath进行数据筛选
XPath是一种用于在XML文档中定位节点的语言，它提供了丰富的查询语法。在处理大型XML文件时，我们可以利用XPath来筛选出需要的数据，避免处理整个文件。Python的lxml库提供了对XPath的支持。

以下是一个使用lxml和XPath提取大型XML文件中数据的示例代码：

from lxml import etree

tree = etree.parse("large.xml")
items = tree.xpath("//item")
for item in items:
    print(item.text)

Salin selepas log masuk

在上述代码中，我们使用etree.parse函数将XML文件加载到内存中，并使用tree.xpath方法传入XPath表达式//item来获取所有<item>节点。然后我们遍历这些节点，并打印出其文本内容。

使用迭代器和生成器
为了避免一次性将整个大型XML文件加载到内存中，我们可以使用迭代器和生成器来逐行读取和处理XML文件。Python的xml.etree.ElementTree模块提供了ElementTree.iterparse方法，可以使用迭代器的方式遍历XML文件的节点。

以下是一个使用迭代器和生成器处理大型XML文件的示例代码：

import xml.etree.ElementTree as ET

def iterparse_large_xml(file_path):
    xml_iterator = ET.iterparse(file_path, events=("start", "end"))
    _, root = next(xml_iterator)
    for event, elem in xml_iterator:
        if event == "end" and elem.tag == "item":
            yield elem.text
            root.clear()

for data in iterparse_large_xml("large.xml"):
    print(data)

Salin selepas log masuk

在上述代码中，我们定义了一个iterparse_large_xml函数，它接受一个文件路径作为参数。函数内部使用ET.iterparse方法创建一个XML迭代器，并通过next方法获取迭代器的第一个元素，即根节点。然后通过遍历迭代器的方式逐行读取XML文件中的节点，当遇到

XPath ialah bahasa untuk mencari nod dalam dokumen XML dan ia menyediakan sintaks pertanyaan yang kaya. Apabila memproses fail XML yang besar, kami boleh menggunakan XPath untuk menapis data yang diperlukan dan mengelakkan pemprosesan keseluruhan fail. Pustaka lxml Python menyediakan sokongan untuk XPath.

//item

<item></item>

Atas ialah kandungan terperinci Petua untuk memproses fail XML yang besar menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!