编程 Python

Python利用ElementTree模块处理XML的方法详解

Posted in Python onAugust 31, 2017

前言

最近因为工作的需要，在使用 Python 来发送 SOAP 请求以测试 Web Service 的性能，由于 SOAP 是基于 XML 的，故免不了需要使用 python 来处理 XML 数据。在对比了几种方案后，最后选定使用 xml.etree.ElementTree 模块来实现。

这篇文章记录了使用 xml.etree.ElementTree 模块常用的几个操作，也算是总结一下，免得以后忘记了。分享出来也方法需要的朋友们参考学习，下面话不多说了，来一起看看详细的介绍吧。

概述

对比其他 Python 处理 XML 的方案，xml.etree.ElementTree 模块（下文我们以 ET 来表示）相对来说比较简单，接口也较友好。

官方文档里面对 ET 模块进行了较为详细的描述，总的来说，ET 模块可以归纳为三个部分：ElementTree类，Element类以及一些操作 XML 的函数。

XML 可以看成是一种树状结构，ET 使用ElementTree类来表示整个 XML 文档，使用Element类来表示 XML 的一个结点。对整 XML 文档的操作一般是对ElementTree对象进行，而对 XML 结点的操作一般是对Element对象进行。

解析 XML 文件

ET 模块支持从一个 XML 文件构造ElementTree对象，例如我们的 XML 文件example.xml内容如下（下文会继续使用这个 XML 文档）：

<?xml version="1.0" encoding="utf-8"?>
<data>
 <country name="Liechtenstein">
  <rank>1</rank>
  <year>2008</year>
  <gdppc>141100</gdppc>
  <neighbor name="Austria" direction="E"/>
  <neighbor name="Switzerland" direction="W"/>
 </country>
 <country name="Singapore">
  <rank>4</rank>
  <year>2011</year>
  <gdppc>59900</gdppc>
  <neighbor name="Malaysia" direction="N"/>
 </country>
</data>

可以使用 ET 模块的parse()函数来从指定的 XML 文件构造一个ElementTree对象：

import xml.etree.ElementTree as ET

# 获取 XML 文档对象 ElementTree
tree = ET.parse('example.xml')
# 获取 XML 文档对象的根结点 Element
root = tree.getroot()
# 打印根结点的名称
print root.tag

从 XML 文件构造好ElementTree对象后，还可以获取其结点，或者再继续对结点进行进一步的操作。

解析 XML 字符串

ET 模块的fromstring()函数提供从 XML 字符串构造一个Element对象的功能。

xml_str = ET.tostring(root)
print xml_str
root = ET.fromstring(xml_str)
print root.tag

接着上面的代码，我们使用 ET 模块的tostring()函数来将上面我们构造的root对象转化为字符串，然后使用fromstring()函数重新构造一个Element对象，并赋值给root变量，这时root代表整个 XML 文档的根结点。

构造 XML

如果我们需要构造 XML 文档，可以使用 ET 模块的 Element类以及SubElement()函数。

可以使用Element类来生成一个Element对象作为根结点，然后使用ET.SubElement()函数生成子结点。

a = ET.Element('a')
b = ET.SubElement(a, 'b')
b.text = 'leehao.me'
c = ET.SubElement(a, 'c')
c.attrib['greeting'] = 'hello'
d = ET.SubElement(a, 'd')
d.text = 'www.leehao.me'
xml_str = ET.tostring(a, encoding='UTF-8')
print xml_str

输出：

<?xml version='1.0' encoding='UTF-8'?>
<a><b>leehao.me</b><c greeting="hello" /><d>www.leehao.me</d></a>

如果需要输出到文件中，可以继续使用ElementTree.write()方法来处理：

# 先构造一个 ElementTree 以便使用其 write 方法
tree = ET.ElementTree(a)
tree.write('a.xml', encoding='UTF-8')

执行后，便会生成一个 XML 文件a.xml:

<?xml version='1.0' encoding='UTF-8'?>
<a><b>leehao.me</b><c greeting="hello" /><d>www.leehao.me</d></a>

XML 结点的查找与更新

1. 查找 XML 结点

Element类提供了Element.iter()方法来查找指定的结点。Element.iter()会递归查找所有的子结点，以便查找到所有符合条件的结点。

# 获取 XML 文档对象 ElementTree
tree = ET.parse('example.xml')
# 获取 XML 文档对象的根结点 Element
root = tree.getroot()
# 递归查找所有的 neighbor 子结点
for neighbor in root.iter('neighbor'):
 print neighbor.attrib

输出：

{'direction': 'E', 'name': 'Austria'}
{'direction': 'W', 'name': 'Switzerland'}
{'direction': 'N', 'name': 'Malaysia'}

如果使用Element.findall()或者Element.find()方法，则只会从结点的直接子结点中查找，并不会递归查找。

for country in root.findall('country'):
 rank = country.find('rank').text
 name = country.get('name')
 print name, rank

输出：

Liechtenstein 1
Singapore 4

2. 更新结点

如果需要更新结点的文本，可以通过直接修改Element.text来实现。如果需要更新结点的属性，可以通过直接修改Element.attrib来实现。

对结点进行更新后，可以使用ElementTree.write()方法将更新后的 XML 文档写入文件中。

# 获取 XML 文档对象 ElementTree
tree = ET.parse('example.xml')
# 获取 XML 文档对象的根结点 Element
root = tree.getroot()
for rank in root.iter('rank'):
 new_rank = int(rank.text) + 1
 rank.text = str(new_rank)
 rank.attrib['updated'] = 'yes'
tree.write('output.xml', encoding='UTF-8')

新生成的output.xml文件以下：

<?xml version='1.0' encoding='UTF-8'?>
<data>
 <country name="Liechtenstein">
  <rank updated="yes">2</rank>
  <year>2008</year>
  <gdppc>141100</gdppc>
  <neighbor direction="E" name="Austria" />
  <neighbor direction="W" name="Switzerland" />
 </country>
 <country name="Singapore">
  <rank updated="yes">5</rank>
  <year>2011</year>
  <gdppc>59900</gdppc>
  <neighbor direction="N" name="Malaysia" />
 </country>
</data>

对比example.xml文件，可以看到output.xml文件已更新。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对三水点靠木的支持。

参考资料

https://docs.python.org/2/library/xml.html#xml-vulnerabilities
https://stackoverflow.com/questions/1912434/how-do-i-parse-xml-in-python

Python利用ElementTree模块处理XML的方法详解

- Author -

haozlee

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python命令行参数sys.argv使用示例

Jan 28 Python

跟老齐学Python之关于类的初步认识

Oct 11 Python

Python标准库之collections包的使用教程

Apr 27 Python

Python线程创建和终止实例代码

Jan 20 Python

python 读文件,然后转化为矩阵的实例

Apr 23 Python

Python OpenCV处理图像之图像直方图和反向投影

Jul 10 Python

Flask框架响应、调度方法和蓝图操作实例分析

Jul 24 Python

python爬虫之urllib库常用方法用法总结大全

Nov 14 Python

python中使用 xlwt 操作excel的常见方法与问题

Jan 13 Python

解决Tensorflow sess.run导致的内存溢出问题

Feb 05 Python

Python实现简单的猜单词小游戏

Oct 28 Python

virtualenv隔离Python环境的问题解析

Jun 21 Python

go和python变量赋值遇到的一个问题

Aug 31 #Python

理解Python中的绝对路径和相对路径

Aug 30 #Python

python 递归遍历文件夹,并打印满足条件的文件路径实例

Aug 30 #Python

python递归打印某个目录的内容(实例讲解)

Aug 30 #Python

python-opencv在有噪音的情况下提取图像的轮廓实例

Aug 30 #Python

关于python的list相关知识(推荐)

Aug 30 #Python

Python编程实现正则删除命令功能

Aug 30 #Python

You might like

对PHP PDO的一些认识小结

2015/01/23 PHP

php curl登陆qq后获取用户信息时证书错误

2015/02/03 PHP

Laravel数据库读写分离配置的方法

2019/10/13 PHP

自动完成JS类(纯JS, Ajax模式)

2009/03/12 Javascript

JS 自动完成 AutoComplete(Ajax 查询)

2009/07/07 Javascript

根据表格中的某一列进行排序的javascript代码

2013/11/29 Javascript

jquery 显示*天*时*分*秒实现时间计时器

2014/05/07 Javascript

jQuery中:empty选择器用法实例

2014/12/30 Javascript

JavaScript实现重置表单（reset）的方法

2015/04/02 Javascript

jQuery动态改变多行文本框高度的方法

2016/09/07 Javascript

微信小程序 http请求详细介绍

2016/10/09 Javascript

JS中页面与页面之间超链接跳转中文乱码问题的解决办法

2016/12/15 Javascript

jquery点赞功能实现代码点个赞吧!

2020/05/29 jQuery

Angular 4依赖注入学习教程之ValueProvider的使用（七）

2017/06/04 Javascript

js中的闭包实例展示

2018/11/01 Javascript

vue生命周期与钩子函数简单示例

2019/03/13 Javascript

微信小程序 wxParse插件显示视频问题

2019/09/27 Javascript

vue实现瀑布流组件滑动加载更多

2020/03/10 Javascript

Python使用urllib2获取网络资源实例讲解

2013/12/02 Python

Python实现将xml导入至excel

2015/11/20 Python

Python中模块与包有相同名字的处理方法

2017/05/05 Python

python实现关键词提取的示例讲解

2018/04/28 Python

解决Pycharm无法import自己安装的第三方module问题

2018/05/18 Python

Python3实现的Mysql数据库操作封装类

2018/06/06 Python

pycharm恢复默认设置或者是替换pycharm的解释器实例

2018/10/29 Python

利用ImageAI库只需几行python代码实现目标检测

2019/08/09 Python

python输出决策树图形的例子

2019/08/09 Python

Pytorch evaluation每次运行结果不同的解决

2020/01/02 Python

pytorch 使用加载训练好的模型做inference

2020/02/20 Python

使用ITK-SNAP进行抠图操作并保存mask的实例

2020/07/01 Python

手把手教你将Flask应用封装成Docker服务的实现

2020/08/19 Python

财会自我鉴定范文

2013/12/27 职场文书

公司劳动纪律管理制度

2015/08/04 职场文书

会议室使用管理制度

2015/08/06 职场文书

HR必备：销售经理聘用合同范本

2019/08/21 职场文书

SpringBoot集成Redis的思路详解

2021/10/16 Redis