当前位置：首页 > 技术 > 正文内容

Python中XML数据的解析方法

访客技术 2026年6月23日 1

在开发过程中，常需要从XML文件中提取数据进行处理，Python提供了多种解析方法

一、ElementTree模块应用

该模块是Python标准库中的核心解析工具，适用于常规数据提取场景

操作流程：

引入库：import xml.etree.ElementTree as ET
加载数据源：

文件读取：xml_tree = ET.parse('data.xml')
字符串解析：main_element = ET.fromstring(xml_data)

获取主节点：root_node = xml_tree.getroot()
数据遍历：

直接子节点访问：for item in root_node:
条件查询：使用find/findall方法定位特定节点
内容提取：通过节点.text属性获取值

示例

示例XML结构
<?xml version="1.0" encoding="UTF-8"?>
<catalog>
    <item>
        <name>书籍一</name>
        <author>作者A</author>
        <cost>19.9</cost>
    </item>
    <item>
        <name>书籍二</name>
        <author>作者B</author>
        <cost>29.9</cost>
    </item>
</catalog>

import xml.etree.ElementTree as ET

# 读取文件
xml_doc = ET.parse('books.xml')
root = xml_doc.getroot()

# 遍历所有条目
for product in root.findall('item'):
    title = product.find('name').text
    author = product.find('author').text
    print(f"名称: {title}, 作者: {author}")

# 价格节点遍历
for price in root.iter('cost'):
    print(f"单价: {price.text}")

二、DOM树形解析方法

适用于需要完整文档结构操作的场景，但内存消耗较高

操作流程：

引入库：from xml.dom import minidom
加载文档：document = minidom.parse('data.xml')
获取根节点：doc_root = document.documentElement
节点操作：

使用childNodes属性遍历
通过getElementsByTagName查找节点
使用getElementById定位特定节点
属性获取：node.getAttribute("属性名")
文本内容：node.firstChild.data

from xml.dom import minidom
doc = minidom.parse('test.xml')
print(doc.nodeName)
print(doc.firstChild.tagName)
items = doc.getElementsByTagName("item")
print(len(items))
for item in items:
    name = item.getElementsByTagName('name')[0].firstChild.data
    print(name)

三、命名空间处理方案

基础概念说明

命名空间通过URI标识，通常以xmlns声明
示例格式：

<data xmlns="http://example.com/schema">
  <entry>内容</entry>
</data>

带命名空间的元素表示为ns:element

Python处理步骤

第一步：创建命名空间映射

namespace_map = {
    'ns': 'http://example.com/schema',
    'prefix': 'http://other.namespace'
}

第二步：在查询时使用命名空间前缀

# 单个节点查询
target_node = root.find('ns:content', namespace_map)

# 多个节点查询
nodes_list = root.findall('ns:entry', namespace_map)

完整示例

import xml.etree.ElementTree as ET

# 带命名空间的XML数据
xml_data = '''
<root xmlns:ns="http://example.com/schema">
    <ns:entry>数据1</ns:entry>
    <ns:entry>数据2</ns:entry>
</root>
'''

# 解析处理
root = ET.fromstring(xml_data)
ns_map = {'ns': 'http://example.com/schema'}

# 带命名空间的查询
entries = root.findall('ns:entry', ns_map)
for entry in entries:
    print(entry.text)

标签: Python XML解析 ElementTree库 DOM操作

返回列表

上一篇：JWT工作原理与实战应用

下一篇：Spring Cloud微服务核心组件实践

富文本里可以允许的 HTML 属性

一、所有标签默认允许的安全属性（极少）class （可选）id （通常建议禁用）title️ 注意：id 容易被滥用做锚点注入，很多系统直接禁用class 允许的话最好只允许固定前缀（如 editor-*）二、a 标签允许属性<a href="" t...

方法一：通过官网安装包（最简单，适合初学者）如果你只是想快速安装并开始使用，这是最直接的方法。访问 Node.js 官网。页面会显示两个版本：LTS (Recommended For Most Users)：长期支持版，最稳定。建议选这个。Current：最新特性版，包含最新功能但可能不够稳定。下载 .pkg 安装包并运行。按照安装向导点击“下一步”即可完成。方法二：使用 Homebrew 安装（...

Dom\HTML_NO_DEFAULT_NS 的副作用：自动加闭合标签

在使用Dom\HTMLDocument时，Dom\HTML_NO_DEFAULT_NS 将禁止在解析过程中设置元素的命名空间, 此设置是为了与DOMDocument向后兼容而存在的。当使用它时，已知的一个副作用就是：自动加闭合标签例如 </img> 为什么会这样？当你使用：Dom\HTML_NO_DEFAULT_NS文档会变成无命名空间模式，此时内部更接近 XML...

Laravel 事件和监听器创建

在 Laravel 中，使用 Artisan 命令创建 Events（事件）和 Listeners（监听器）是非常高效的。你可以通过以下几种方式来实现：1. 手动创建单个 Event如果你只想创建一个事件类，可以使用 make:event 命令：Bashphp artisan make:event UserRegistered执行后，文件将生成在 app/Even...

自定义域名解析神器 dnsmasq

什么是 dnsmasq？dnsmasq 是一个轻量级、功能强大的网络服务工具，专为小型和中等规模网络设计。它是一个综合的网络基础设施解决方案[1]。dnsmasq 能做什么？功能说明应用场景DNS 转发与缓存将 DNS 查询转发到上游服务器（ISP、Google DNS 等），并在本地缓存结果加快 DNS 查询速度，减少外部 DNS 流量本地 DNS解析本地网络设备的主机名，无需编辑&n...

PHPStan 有什么用？怎么用?

PHPStan 是一个 PHP 的静态分析工具，在不运行代码的情况下就能帮你发现潜在问题，比如：传错类型（把 string 传给接受 int 的函数）访问不存在的属性 / 方法null 没处理好永远不会执行到的代码数组 key/值类型不一致返回值不符合声明注释和真实类型不匹配它非常适合：想提升代码质量、减少线上 bug、统一团队风格的人（尤其是中大型项目）。一、PHPStan 有什么用（通俗点说）...

老程序员博客

Python中XML数据的解析方法

一、ElementTree模块应用

二、DOM树形解析方法

三、命名空间处理方案

相关文章

富文本里可以允许的 HTML 属性

Mac 安装 Node.js 指南

Dom\HTML_NO_DEFAULT_NS 的副作用：自动加闭合标签

Laravel 事件和监听器创建

自定义域名解析神器 dnsmasq

PHPStan 有什么用？怎么用?

发表评论

Copyright © agingcoder.cn

Powered By Z-BlogPHP. Theme by TOYEAN.

老程序员博客

Python中XML数据的解析方法

一、ElementTree模块应用

二、DOM树形解析方法

三、命名空间处理方案

相关文章

富文本里可以允许的 HTML 属性

Mac 安装 Node.js 指南

Dom\HTML_NO_DEFAULT_NS 的副作用：自动加闭合标签

Laravel 事件和监听器创建

自定义域名解析神器 dnsmasq

PHPStan 有什么用？怎么用?

发表评论取消回复

Copyright © agingcoder.cn

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论