Python XML处理

XML（可扩展标记语言）是一种用于存储和传输数据的灵活文本格式。在网络应用、配置文件和数据交换中，XML被广泛使用。Python提供了多种库来处理XML文件，使得读取、创建和修改XML数据变得简单高效。

XML基础知识

在深入学习Python的XML处理之前，让我们先了解XML的基本结构：

xml
<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
  <book category="fiction">
    <title>哈利波特与魔法石</title>
    <author>J.K. 罗琳</author>
    <year>1997</year>
    <price>19.99</price>
  </book>
  <book category="science">
    <title>时间简史</title>
    <author>斯蒂芬·霍金</author>
    <year>1988</year>
    <price>15.00</price>
  </book>
</bookstore>

XML文档包含以下基本组件：

声明：指定XML版本和编码
元素：由开始和结束标签定义的数据单元
属性：提供有关元素的额外信息
注释：用于添加说明，不会被解析器处理

Python 中的XML处理库

Python提供了多个XML处理的库，最常用的有：

xml.etree.ElementTree: 轻量级、易用的XML处理库
xml.dom.minidom: 完整的DOM API实现
xml.sax: 用于大型XML文件的流处理
lxml: 第三方库，结合了ElementTree API的简便性和libxml2的强大功能

我们将主要关注ElementTree库，因为它既易于使用又功能强大，适合初学者入门。

使用ElementTree解析XML

首先，让我们看看如何使用ElementTree解析XML文件：

python
import xml.etree.ElementTree as ET

# 从文件解析XML
tree = ET.parse('bookstore.xml')
root = tree.getroot()

# 直接从字符串解析XML
xml_string = """<?xml version="1.0"?>
<bookstore>
  <book category="fiction">
    <title>哈利波特与魔法石</title>
    <author>J.K. 罗琳</author>
    <year>1997</year>
    <price>19.99</price>
  </book>
</bookstore>"""

root = ET.fromstring(xml_string)
print(root.tag)  # 输出: bookstore

输出：

bookstore

遍历XML树

解析XML后，可以轻松地遍历其结构：

python
import xml.etree.ElementTree as ET

# 假设我们已经解析了XML并获取了root元素
tree = ET.parse('bookstore.xml')
root = tree.getroot()

# 遍历所有子元素
for book in root:
    print(f"图书类别: {book.attrib['category']}")
    
    # 遍历图书的详细信息
    for info in book:
        print(f"- {info.tag}: {info.text}")
    print()

输出：

图书类别: fiction
- title: 哈利波特与魔法石
- author: J.K. 罗琳
- year: 1997
- price: 19.99

图书类别: science
- title: 时间简史
- author: 斯蒂芬·霍金
- year: 1988
- price: 15.00

查找元素

ElementTree提供了多种方法来查找XML文档中的特定元素：

python
import xml.etree.ElementTree as ET

tree = ET.parse('bookstore.xml')
root = tree.getroot()

# 查找所有的书名
for title in root.findall('./book/title'):
    print(f"书名: {title.text}")

# 查找特定类别的书
for book in root.findall("./book[@category='fiction']"):
    print(f"小说: {book.find('title').text}")
    
# 使用XPath查找所有价格大于18的书
for book in root.findall("./book[price>18]"):
    print(f"价格高于18元的书: {book.find('title').text}, 价格: {book.find('price').text}")

输出：

书名: 哈利波特与魔法石
书名: 时间简史
小说: 哈利波特与魔法石
价格高于18元的书: 哈利波特与魔法石, 价格: 19.99

备注

ElementTree实现的XPath支持有限。如果你需要更全面的XPath支持，可以考虑使用第三方库lxml。

修改XML

可以轻松修改XML元素的内容：

python
import xml.etree.ElementTree as ET

tree = ET.parse('bookstore.xml')
root = tree.getroot()

# 修改元素的文本内容
for price in root.findall('.//price'):
    # 将价格提高10%
    new_price = float(price.text) * 1.1
    price.text = f"{new_price:.2f}"

# 修改元素的属性
for book in root.findall('.//book'):
    if book.attrib['category'] == 'fiction':
        book.attrib['bestseller'] = 'yes'

# 添加新元素
for book in root.findall('.//book'):
    if book.find('publisher') is None:
        publisher = ET.SubElement(book, 'publisher')
        publisher.text = '未知出版社'

# 保存修改后的XML
tree.write('updated_bookstore.xml', encoding='utf-8')

创建新的XML文档

除了解析和修改现有的XML外，我们还可以从头创建新的XML文档：

python
import xml.etree.ElementTree as ET

# 创建根元素
library = ET.Element('library')

# 创建子元素
book = ET.SubElement(library, 'book')
book.set('category', 'programming')
book.set('id', 'py001')

# 为book添加子元素
title = ET.SubElement(book, 'title')
title.text = 'Python编程：从入门到实践'

author = ET.SubElement(book, 'author')
author.text = 'Eric Matthes'

year = ET.SubElement(book, 'year')
year.text = '2016'

# 添加第二本书
book2 = ET.SubElement(library, 'book')
book2.set('category', 'database')
book2.set('id', 'db001')

title2 = ET.SubElement(book2, 'title')
title2.text = 'SQL必知必会'

# 创建ElementTree对象
tree = ET.ElementTree(library)

# 写入文件
tree.write('library.xml', encoding='utf-8', xml_declaration=True)

# 如果需要格式化输出（美化XML），可以使用minidom
import xml.dom.minidom as minidom
xml_str = ET.tostring(library, encoding='utf-8')
reparsed = minidom.parseString(xml_str)
with open('library_pretty.xml', 'w', encoding='utf-8') as f:
    f.write(reparsed.toprettyxml(indent="  "))

生成的library_pretty.xml文件如下所示：

xml
<?xml version="1.0" encoding="utf-8"?>
<library>
  <book category="programming" id="py001">
    <title>Python编程：从入门到实践</title>
    <author>Eric Matthes</author>
    <year>2016</year>
  </book>
  <book category="database" id="db001">
    <title>SQL必知必会</title>
  </book>
</library>

处理大型XML文件

对于大型XML文件，使用ElementTree可能会占用大量内存。在这种情况下，可以使用xml.sax或iterparse进行流式处理：

python
import xml.etree.ElementTree as ET

# 使用iterparse逐步处理大型XML文件
for event, elem in ET.iterparse('large_file.xml', events=('start', 'end')):
    if event == 'end' and elem.tag == 'book':
        # 处理每一本书
        print(f"处理图书: {elem.find('title').text}")
        
        # 清理元素，释放内存
        elem.clear()

实际应用案例：处理网站配置文件

假设我们有一个网站配置存储在XML中，需要读取并进行更新：

python
import xml.etree.ElementTree as ET

# 解析配置文件
def read_config(filename):
    try:
        tree = ET.parse(filename)
        return tree
    except Exception as e:
        print(f"读取配置文件时出错: {e}")
        return None

# 更新网站设置
def update_settings(tree, settings):
    if tree is None:
        return False
    
    root = tree.getroot()
    settings_elem = root.find('settings')
    
    if settings_elem is None:
        settings_elem = ET.SubElement(root, 'settings')
    
    for key, value in settings.items():
        setting = settings_elem.find(key)
        if setting is not None:
            setting.text = str(value)
        else:
            new_setting = ET.SubElement(settings_elem, key)
            new_setting.text = str(value)
    
    return True

# 保存配置
def save_config(tree, filename):
    try:
        tree.write(filename, encoding='utf-8', xml_declaration=True)
        return True
    except Exception as e:
        print(f"保存配置文件时出错: {e}")
        return False

# 示例用法
if __name__ == "__main__":
    # 示例配置文件
    example_xml = """<?xml version="1.0" encoding="UTF-8"?>
    <website>
        <settings>
            <theme>default</theme>
            <homepage>index.html</homepage>
            <cache_time>3600</cache_time>
        </settings>
        <pages>
            <page id="1" title="首页" />
            <page id="2" title="关于我们" />
        </pages>
    </website>
    """
    
    # 写入示例文件
    with open('website_config.xml', 'w', encoding='utf-8') as f:
        f.write(example_xml)
    
    # 读取配置
    config = read_config('website_config.xml')
    
    # 更新设置
    new_settings = {
        'theme': 'dark',
        'cache_time': '7200',
        'debug_mode': 'true'  # 新设置项
    }
    
    if update_settings(config, new_settings):
        save_config(config, 'website_config_updated.xml')
        print("配置已成功更新")
    
    # 显示更新后的配置
    updated_config = read_config('website_config_updated.xml')
    if updated_config:
        settings = updated_config.getroot().find('settings')
        print("\n更新后的设置:")
        for setting in settings:
            print(f"{setting.tag}: {setting.text}")

输出：

配置已成功更新

更新后的设置:
theme: dark
homepage: index.html
cache_time: 7200
debug_mode: true

XML处理的安全考虑

注意

XML解析可能面临安全风险，如XML实体扩展攻击（XML External Entity, XXE）。处理不信任的XML数据时，应禁用外部实体处理。

python
import xml.etree.ElementTree as ET
import defusedxml.ElementTree as secure_ET

# 不安全的解析（可能存在XXE漏洞）
# tree = ET.parse('untrusted.xml')

# 安全的解析（使用defusedxml库）
tree = secure_ET.parse('untrusted.xml')

总结

Python提供了强大而灵活的工具来处理XML数据。通过本教程，你已经学会了：

使用ElementTree解析XML文件和字符串
遍历和查询XML树结构
修改现有XML文档的内容和结构
创建新的XML文档
处理大型XML文件的技巧
在实际应用中使用XML配置文件
XML处理中的安全考虑

这些知识将帮助你在各种应用场景中有效地处理XML数据，从简单的配置文件到复杂的数据交换格式。

练习与挑战

为了巩固所学知识，尝试完成以下练习：

创建一个XML文件来存储你喜爱的书籍或电影的信息，然后编写Python程序来解析和显示这些信息。
编写一个程序，从网上下载一个RSS源（XML格式），并提取所有文章的标题和链接。
实现一个简单的XML到CSV转换器，可以将XML数据导出为CSV格式。
创建一个程序，可以将HTML页面转换为XML格式，保留其基本结构。

附加资源

掌握了这些基础知识后，你就可以处理各种XML相关的任务，从简单的配置文件到复杂的数据交换格式和API响应。

XML基础知识​

Python 中的XML处理库​

使用ElementTree解析XML​

遍历XML树​

查找元素​

修改XML​

创建新的XML文档​

处理大型XML文件​

实际应用案例：处理网站配置文件​

XML处理的安全考虑​

总结​

练习与挑战​

附加资源​