Python使用ElementTree美化XML格式的操作


Posted in Python onMarch 06, 2020

Python中使用ElementTree可以很方便的处理XML,但是产生的XML文件内容会合并在一行,难以看清楚。

如下格式:

<root><aa>aatext<cc>cctext</cc></aa><bb>bbtext<dd>ddtext<ee>eetext</ee></dd></bb></root>

使用minidom模块中的toprettyxml和writexml方法都有参数可以优化XML,但是有两个问题:

a. 如果解析的XML已经是美化过的,那么执行该方法会多出很多空行

b. 产生的结果会将text也独立一行,如下:

<root> 
  <aa> 
    aatext 
  </aa> 
  <bb> 
    bbtext 
  </bb> 
</root>

而我想产生如下结果:

<root> 
  <aa>aatext</aa> 
  <bb>bbtext</bb> 
</root>

于是只能自己写一个美化XML的方法。

我们首先研究一下ElementTree模块中的Element类,使用getroot方法返回的便是Element类。

该类中有四个属性tag、attrib、text与tail, 对应在XML中如下图所示:

Python使用ElementTree美化XML格式的操作

整个XML就是一个Element,里面嵌套了很多子Element。

Element可以使用for循环迭代。

通过在text和tail中增加换行和制表符,就可以实现美化XML的目的。

美化代码如下:

def prettyXml(element, indent, newline, level = 0): # elemnt为传进来的Elment类,参数indent用于缩进,newline用于换行 
  if element: # 判断element是否有子元素 
    if element.text == None or element.text.isspace(): # 如果element的text没有内容 
      element.text = newline + indent * (level + 1)  
    else: 
      element.text = newline + indent * (level + 1) + element.text.strip() + newline + indent * (level + 1) 
  #else: # 此处两行如果把注释去掉,Element的text也会另起一行 
    #element.text = newline + indent * (level + 1) + element.text.strip() + newline + indent * level 
  temp = list(element) # 将elemnt转成list 
  for subelement in temp: 
    if temp.index(subelement) < (len(temp) - 1): # 如果不是list的最后一个元素,说明下一个行是同级别元素的起始,缩进应一致 
      subelement.tail = newline + indent * (level + 1) 
    else: # 如果是list的最后一个元素, 说明下一行是母元素的结束,缩进应该少一个 
      subelement.tail = newline + indent * level 
    prettyXml(subelement, indent, newline, level = level + 1) # 对子元素进行递归操作 
     
from xml.etree import ElementTree   #导入ElementTree模块 
tree = ElementTree.parse('test.xml')  #解析test.xml这个文件,该文件内容如上文 
root = tree.getroot()         #得到根元素,Element类 
prettyXml(root, '\t', '\n')      #执行美化方法 
ElementTree.dump(root)         #显示出美化后的XML内容

输出结果如下:

<root> 
  <aa> 
    aatext 
    <cc>cctext</cc> 
  </aa> 
  <bb> 
    bbtext 
    <dd> 
      ddtext 
      <ee>eetext</ee> 
    </dd> 
  </bb> 
</root>

残留问题点:

windows下的换行符是"\r\n",只需将prettyXml方法的第三个参数改为"\r\n",使用记事本打开生成的XML大部分OK。

但是XML说明与根元素开始符之间不知如何插入"\r\n".

Python使用ElementTree美化XML格式的操作

补充知识:python-xml 模块-代码生成xml 文档

一、XML 模块

什么是xml:可扩展的标记语言,标记翻译为标签,用标签来组织数据的语言,也是一种语言可以用来自定义文档结构。相比json 使用场景更加广泛,但是语法格式相比json 复杂很多

什么时候使用json:前后台交互数据时使用json

什么时候使用xml:当需要自定义文档结构时使用xml,比如java中经常用xml来作为配置文件,常见操作就是通过程序去读取配置信息,而修改增加删除,一般是交给用户来手动完成

标签的叫发:node(节点)、elment(元素)、tag(标签)

需求从conuntrys中获取所有的国家名称

==========================>countrys
<data>
  <country name="Liechtenstein">
    <rank updated="yes">2</rank>
    <year>2009</year>
    <gdppc>141100</gdppc>
    <neighbor direction="E" name="Austria" />
    <neighbor direction="W" name="Switzerland" />
  </country>
  <country name="Singapore">
    <rank updated="yes">5</rank>
    <year>2012</year>
    <gdppc>59900</gdppc>
    <neighbor direction="N" name="Malaysia" />
  </country>
  <country name="Panama">
    <rank updated="yes">69</rank>
    <year>2012</year>
    <gdppc>13600</gdppc>
    <neighbor direction="W" name="Costa Rica" />
    <neighbor direction="E" name="Colombia" />
  </country>
</data># 取别名可以用于简化书写
import xml.etree.ElementTree as ET
tree = ET.parse('countrys')
#获取根标签#第一种获取标签的方式
#全文查找
iter() 
# 获取迭代器 如果不指定参数 则迭代器迭代的是所有标签
print(root.iter())
# 获取迭代器 如果指定参数 则迭代器迭代的是所有名称匹配的标签
for e in root.iter("rank"):
  print(e)
 
#第二种获取标签的方式
#在当前标签下(所有子级标签)寻找第一个名称匹配的标签
print(root.find("rank")) #第一个名称不匹配所以返回None#第三种获取标签的方式
#在当前标签下(所有子级标签)寻找所有名称匹配的标签
print(root.findall("rank")) #[]

练习:找到新加坡中year 这个标签

#print(e.tag) #标签名称
#print(e.attrib) #属性 字典类型
#print(e.text) #文本内容import xml.etree.ElementTree as ETtree = ET.parse("countrys")
# 获取根标签
root = tree.getroot()
for e in root.iter("country"):
  if e.attrib["name"] == "Singapore":
    y = e.find("year")
    print(y.text) #2012

在程序中修改文档内容:把所有year标签的文本加1

import xml.etree.ElementTree as ETtree = ET.parse("countrys")
root = tree.getroot()
for e in root.iter("year"):
  e.text = str(int(e.text) + 1)
  
#做完修改后要将修改后的内容写入文件
tree.write('countrys')

把新加坡国家删除:

import xml.etree.ElementTree as ETtree = ET.parse("countrys")
root = tree.getroot()for e in root.findall("country"):
  print(e)
  if e.attrib["name"] == "Singapore":
    #删除时要通过被删除的父级标签来删除
    root.remove(e)tree.write('countrys')

用程序将中国信息写入文档中:

import xml.etree.ElementTree as ETtree = ET.parse("countrys")
root = tree.getroot()
#添加时也需要将要添加的数据做成一个Element
c = ET.Element("country",{"name":"china"})# 在国家下有一堆子标签
ranke = ET.Element("ranke",{"updated":"yes"})
c.append(ranke)year = ET.Element("year")
year.text = "2018"
c.append(year)#添加到root标签中
root.append(c)
tree.write("countrys")

总结:一般不会通过程序 去修改 删除 和添加

什么时候应该使用XML格式:

当你需要自定文档结构时(XML最强大的地方就是结构)

前后台交互不应该使用,前后台交互应该使用JSON格式

代码生成XML文档

import xml.etree.ElementTree as ET# 创建根标签
root = ET.Element("root")
root.text = "这是一个XML文档!"c = ET.Element("country",{"name":"china"})
root.append(c)tree = ET.ElementTree(root)
# 参数: 文件名称 编码方式 是否需要文档声明
tree.write("new.xml",encoding="utf-8",xml_declaration=True)=========================>new.xml 内容为
<?xml version='1.0' encoding='utf-8'?>
<root>这是一个XML文档!<country name="china" /></root>

以上这篇Python使用ElementTree美化XML格式的操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之玩转字符串(1)
Sep 14 Python
python base64 decode incorrect padding错误解决方法
Jan 08 Python
Python常用的日期时间处理方法示例
Feb 08 Python
六个窍门助你提高Python运行效率
Jun 09 Python
Python 转义字符详细介绍
Mar 21 Python
node.js获取参数的常用方法(总结)
May 29 Python
详解Python文本操作相关模块
Jun 22 Python
django的ORM操作 删除和编辑实现详解
Jul 24 Python
Python3.7实现验证码登录方式代码实例
Feb 14 Python
python实现小程序推送页面收录脚本
Apr 20 Python
keras实现VGG16方式(预测一张图片)
Jul 07 Python
python爬虫用scrapy获取影片的实例分析
Nov 23 Python
Python使用requests xpath 并开启多线程爬取西刺代理ip实例
Mar 06 #Python
Python 批量读取文件中指定字符的实现
Mar 06 #Python
python GUI库图形界面开发之PyQt5布局控件QGridLayout详细使用方法与实例
Mar 06 #Python
python3 xpath和requests应用详解
Mar 06 #Python
python 装饰器功能与用法案例详解
Mar 06 #Python
python GUI库图形界面开发之PyQt5布局控件QVBoxLayout详细使用方法与实例
Mar 06 #Python
利用 Python ElementTree 生成 xml的实例
Mar 06 #Python
You might like
PHP全概率运算函数(优化版) Webgame开发必备
2011/07/04 PHP
php 模拟 asp.net webFrom 按钮提交事件的思路及代码
2013/12/02 PHP
为PHP5.4开启Zend OPCode缓存
2014/12/26 PHP
浅谈关于JavaScript的语言特性分析
2013/04/11 Javascript
js控制表单奇偶行样式的简单方法
2013/07/31 Javascript
JS实现关键字搜索时的相关下拉字段效果
2014/08/05 Javascript
node+express+ejs制作简单页面上手指南
2014/11/26 Javascript
jQuery实现带动画效果的二级下拉导航方法
2015/03/11 Javascript
JavaScript分页功能的实现方法
2015/04/25 Javascript
js实现简洁的TAB滑动门效果代码
2015/09/06 Javascript
深入浅析knockout源码分析之订阅
2016/07/12 Javascript
jQuery轮播图效果精简版完整示例
2016/09/04 Javascript
JavaScript运动框架 多值运动(四)
2017/05/18 Javascript
js获取地址栏参数的两种方法
2017/06/27 Javascript
Node.js对MongoDB进行增删改查操作的实例代码
2019/04/18 Javascript
koa2的中间件功能及应用示例
2020/03/05 Javascript
vue-cli设置publicPath小记
2020/04/14 Javascript
python任务调度实例分析
2015/05/19 Python
Python 实现取矩阵的部分列,保存为一个新的矩阵方法
2018/11/14 Python
PyQt5 实现字体大小自适应分辨率的方法
2019/06/18 Python
Python3+Appium实现多台移动设备操作的方法
2019/07/05 Python
详解Python Qt的窗体开发的基本操作
2019/07/14 Python
Django学习之文件上传与下载
2019/10/06 Python
Jmeter HTTPS接口测试证书导入过程图解
2020/07/22 Python
基于html5 canvas做批改作业的小插件
2020/05/20 HTML / CSS
什么是View State?
2013/01/27 面试题
Java中有几种类型的流?JDK为每种类型的流提供了一些抽象类以供继承,请说出他们分别是哪些类?
2012/05/30 面试题
英语系本科生个人求职信
2013/09/21 职场文书
大学生职业生涯规划书模板
2014/01/18 职场文书
宣传策划类求职信范文
2014/01/31 职场文书
汉语言文学专业求职信
2014/06/19 职场文书
网络管理员岗位职责
2015/02/12 职场文书
煤矿隐患排查制度
2015/08/05 职场文书
导游词之镜泊湖
2019/12/09 职场文书
学习nginx基础知识
2021/09/04 Servers
Java实战之课程信息管理系统的实现
2022/04/01 Java/Android