当前位置:首页 > 技术 > 正文内容

Python中XML数据的解析方法

访客 技术 2026年6月23日 1

在开发过程中,常需要从XML文件中提取数据进行处理,Python提供了多种解析方法

一、ElementTree模块应用

该模块是Python标准库中的核心解析工具,适用于常规数据提取场景

操作流程:

  1. 引入库:import xml.etree.ElementTree as ET
  2. 加载数据源:
  • 文件读取:xml_tree = ET.parse('data.xml')
  • 字符串解析:main_element = ET.fromstring(xml_data)
  1. 获取主节点:root_node = xml_tree.getroot()
  2. 数据遍历:
  • 直接子节点访问:for item in root_node:
  • 条件查询:使用find/findall方法定位特定节点
  • 内容提取:通过节点.text属性获取值

示例

示例XML结构
<?xml version="1.0" encoding="UTF-8"?>
<catalog>
    <item>
        <name>书籍一</name>
        <author>作者A</author>
        <cost>19.9</cost>
    </item>
    <item>
        <name>书籍二</name>
        <author>作者B</author>
        <cost>29.9</cost>
    </item>
</catalog>

import xml.etree.ElementTree as ET

# 读取文件
xml_doc = ET.parse('books.xml')
root = xml_doc.getroot()

# 遍历所有条目
for product in root.findall('item'):
    title = product.find('name').text
    author = product.find('author').text
    print(f"名称: {title}, 作者: {author}")

# 价格节点遍历
for price in root.iter('cost'):
    print(f"单价: {price.text}")

二、DOM树形解析方法

适用于需要完整文档结构操作的场景,但内存消耗较高

操作流程:

  1. 引入库:from xml.dom import minidom
  2. 加载文档:document = minidom.parse('data.xml')
  3. 获取根节点:doc_root = document.documentElement
  4. 节点操作:
  • 使用childNodes属性遍历
  • 通过getElementsByTagName查找节点
  • 使用getElementById定位特定节点
  • 属性获取:node.getAttribute("属性名")
  • 文本内容:node.firstChild.data
from xml.dom import minidom
doc = minidom.parse('test.xml')
print(doc.nodeName)
print(doc.firstChild.tagName)
items = doc.getElementsByTagName("item")
print(len(items))
for item in items:
    name = item.getElementsByTagName('name')[0].firstChild.data
    print(name)

三、命名空间处理方案

基础概念说明

  • 命名空间通过URI标识,通常以xmlns声明
  • 示例格式:
<data xmlns="http://example.com/schema">
  <entry>内容</entry>
</data>
  • 带命名空间的元素表示为ns:element

Python处理步骤

第一步:创建命名空间映射

namespace_map = {
    'ns': 'http://example.com/schema',
    'prefix': 'http://other.namespace'
}

第二步:在查询时使用命名空间前缀

# 单个节点查询
target_node = root.find('ns:content', namespace_map)

# 多个节点查询
nodes_list = root.findall('ns:entry', namespace_map)

完整示例

import xml.etree.ElementTree as ET

# 带命名空间的XML数据
xml_data = '''
<root xmlns:ns="http://example.com/schema">
    <ns:entry>数据1</ns:entry>
    <ns:entry>数据2</ns:entry>
</root>
'''

# 解析处理
root = ET.fromstring(xml_data)
ns_map = {'ns': 'http://example.com/schema'}

# 带命名空间的查询
entries = root.findall('ns:entry', ns_map)
for entry in entries:
    print(entry.text)

相关文章

富文本里可以允许的 HTML 属性

一、所有标签默认允许的安全属性(极少)class        (可选)id           (通常建议禁用)title️ 注意:id 容易被滥用做锚点注入,很多系统直接禁用class 允许的话最好只允许固定前缀(如 editor-*)二、a 标签允许属性<a href="" t...

Mac 安装 Node.js 指南

方法一:通过官网安装包(最简单,适合初学者)如果你只是想快速安装并开始使用,这是最直接的方法。访问 Node.js 官网。页面会显示两个版本:LTS (Recommended For Most Users):长期支持版,最稳定。建议选这个。Current:最新特性版,包含最新功能但可能不够稳定。下载 .pkg 安装包并运行。按照安装向导点击“下一步”即可完成。方法二:使用 Homebrew 安装(...

Dom\HTML_NO_DEFAULT_NS 的副作用:自动加闭合标签

在使用Dom\HTMLDocument时,Dom\HTML_NO_DEFAULT_NS 将禁止在解析过程中设置元素的命名空间, 此设置是为了与DOMDocument向后兼容而存在的。当使用它时,已知的一个副作用就是:自动加闭合标签例如 </img> 为什么会这样?当你使用:Dom\HTML_NO_DEFAULT_NS文档会变成 无命名空间模式,此时内部更接近 XML...

Laravel 事件和监听器创建

在 Laravel 中,使用 Artisan 命令创建 Events(事件) 和 Listeners(监听器) 是非常高效的。你可以通过以下几种方式来实现:1. 手动创建单个 Event如果你只想创建一个事件类,可以使用 make:event 命令:Bashphp artisan make:event UserRegistered执行后,文件将生成在 app/Even...

自定义域名解析神器 dnsmasq

什么是 dnsmasq?dnsmasq 是一个轻量级、功能强大的网络服务工具,专为小型和中等规模网络设计。它是一个综合的网络基础设施解决方案[1]。dnsmasq 能做什么?功能说明应用场景DNS 转发与缓存将 DNS 查询转发到上游服务器(ISP、Google DNS 等),并在本地缓存结果加快 DNS 查询速度,减少外部 DNS 流量本地 DNS解析本地网络设备的主机名,无需编辑&n...

PHPStan 有什么用?怎么用?

PHPStan 是一个 PHP 的静态分析工具,在不运行代码的情况下就能帮你发现潜在问题,比如:传错类型(把 string 传给接受 int 的函数)访问不存在的属性 / 方法null 没处理好永远不会执行到的代码数组 key/值类型不一致返回值不符合声明注释和真实类型不匹配它非常适合:想提升代码质量、减少线上 bug、统一团队风格的人(尤其是中大型项目)。一、PHPStan 有什么用(通俗点说)...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。