python利用lxml读写xml格式的文件


Posted in Python onAugust 10, 2017

之前在转换数据集格式的时候需要将json转换到xml文件,用lxml包进行操作非常方便。

1. 写xml文件

a) 用etree和objectify

from lxml import etree, objectify

E = objectify.ElementMaker(annotate=False)
anno_tree = E.annotation(
  E.folder('VOC2014_instance'),
  E.filename("test.jpg"),
  E.source(
    E.database('COCO'),
    E.annotation('COCO'),
    E.image('COCO'),
    E.url("http://test.jpg")
  ),
  E.size(
    E.width(800),
    E.height(600),
    E.depth(3)
  ),
  E.segmented(0),
)

etree.ElementTree(anno_tree).write("text.xml", pretty_print=True)

输出的test.xml文件内容如下:

```

如果需要在anno_tree的基础上加其他标签的话用append即可:

E2 = objectify.ElementMaker(annotate=False)
anno_tree2 = E2.object(
  E.name("person"),
  E.bndbox(
    E.xmin(100),
    E.ymin(200),
    E.xmax(300),
    E.ymax(400)
  ),
  E.difficult(0)
)
anno_tree.append(anno_tree2)

上面的输出就变成了:

<annotation>
 <folder>VOC2014_instance/person</folder>
 <filename>test.jpg</filename>
 <source>
  <database>COCO</database>
  <annotation>COCO</annotation>
  <image>COCO</image>
  <url>http://test.jpg</url>
 </source>
 <size>
  <width>800</width>
  <height>600</height>
  <depth>3</depth>
 </size>
 <segmented>0</segmented>
 <object>
  <name>person</name>
  <bndbox>
   <xmin>100</xmin>
   <ymin>200</ymin>
   <xmax>300</xmax>
   <ymax>400</ymax>
  </bndbox>
  <difficult>0</difficult>
 </object>
</annotation>

b) 用etree和SubElement

annotation = etree.Element("annotation")
etree.SubElement(annotation, "folder").text = "VOC2014_instance"
etree.SubElement(annotation, "filename").text = "test.jpg"
source = etree.SubElement(annotation, "source")
etree.SubElement(source, "database").text = "COCO"
etree.SubElement(source, "annotation").text = "COCO"
etree.SubElement(source, "image").text = "COCO"
etree.SubElement(source, "url").text = "http://test.jpg"
size = etree.SubElement(annotation, "size")
etree.SubElement(size, "width").text ='800' # 必须用string
etree.SubElement(size, "height").text = '600'
etree.SubElement(size, "depth").text = '3'
etree.SubElement(annotation, "segmented").text = '0'
key_object = etree.SubElement(annotation, "object")
etree.SubElement(key_object, "name").text = “person”
bndbox = etree.SubElement(key_object, "bndbox")
etree.SubElement(bndbox, "xmin").text = str(100)
etree.SubElement(bndbox, "ymin").text = str(200)
etree.SubElement(bndbox, "xmax").text = str(300)
etree.SubElement(bndbox, "ymax").text = str(400)
etree.SubElement(key_object, "difficult").text = '0'
doc = etree.ElementTree(annotation)
doc.write(open("test.xml", "w"), pretty_print=True)

2. 读xml

这里可以用xpath直接提取所需的元素的值。比如想要获取上面test.xml文件的x, y坐标:

tree = etree.parse("test.xml")
# get bbox
for bbox in tree.xpath('//bndbox'):  # 获取bndbox元素的内容
  for corner in bbox.getchildren(): # 便利bndbox元素下的子元素
    print corner.text  # string类型

参考

http://lxml.de/tutorial.html

https://stackoverflow.com/questions/12657043/parse-xml-with-lxml-extract-element-value

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
pyqt4教程之实现windows窗口小示例分享
Mar 07 Python
python实现从web抓取文档的方法
Sep 26 Python
简单介绍Python中的decode()方法的使用
May 18 Python
Django发送html邮件的方法
May 26 Python
Python编程中对文件和存储器的读写示例
Jan 25 Python
详解Python3网络爬虫(二):利用urllib.urlopen向有道翻译发送数据获得翻译结果
May 07 Python
Python读取csv文件实例解析
Dec 30 Python
自定义Django默认的sitemap站点地图样式
Mar 04 Python
Tensorflow中的降维函数tf.reduce_*使用总结
Apr 20 Python
python使用布隆过滤器的实现示例
Aug 20 Python
详解python的异常捕获
Mar 03 Python
Django数据库(SQlite)基本入门使用教程
Jul 07 Python
Python编程实现及时获取新邮件的方法示例
Aug 10 #Python
Python中函数eval和ast.literal_eval的区别详解
Aug 10 #Python
Python基础之getpass模块详细介绍
Aug 10 #Python
Python中字典(dict)合并的四种方法总结
Aug 10 #Python
详解Python 模拟实现生产者消费者模式的实例
Aug 10 #Python
Python 操作文件的基本方法总结
Aug 10 #Python
Python 模拟登陆的两种实现方法
Aug 10 #Python
You might like
深入了解php4(2)--重访过去
2006/10/09 PHP
xml在joomla表单中的应用详解分享
2012/07/19 PHP
fckeditor上传文件按日期存放及重命名方法
2015/05/22 PHP
php实现文件与16进制相互转换的方法示例
2017/02/16 PHP
php出租房数据管理及搜索页面
2017/05/23 PHP
thinkPHP利用ajax异步上传图片并显示、删除的示例
2018/09/26 PHP
掌握PHP垃圾回收机制详解
2019/03/13 PHP
phpStorm2020 注册码
2020/09/17 PHP
multiSteps 基于Jquery的多步骤滑动切换插件
2011/07/22 Javascript
jQuery页面滚动浮动层智能定位实例代码
2011/08/23 Javascript
jQuery设置div一直在页面顶部显示的方法
2013/10/24 Javascript
JQuery插件iScroll实现下拉刷新,滚动翻页特效
2014/06/22 Javascript
使用AngularJS对路由进行安全性处理的方法
2015/06/18 Javascript
深入了解JavaScript中的Symbol的使用方法
2015/07/28 Javascript
原生js编写autoComplete插件
2016/04/13 Javascript
Three.js实现绘制字体模型示例代码
2017/09/26 Javascript
vue2组件之select2调用的示例代码
2017/10/12 Javascript
Node.js + express基本用法教程
2019/03/14 Javascript
详解js创建对象的几种方法及继承
2019/04/12 Javascript
JS实现页面跳转与刷新的方法汇总
2019/08/30 Javascript
JsonServer安装及启动过程图解
2020/02/28 Javascript
JavaScript实现图片合成下载的示例
2020/11/19 Javascript
Vue实现todo应用的示例
2021/02/20 Vue.js
Python简单日志处理类分享
2015/02/14 Python
python打开文件并获取文件相关属性的方法
2015/04/23 Python
pandas 选择某几列的方法
2018/07/03 Python
Python 字符串类型列表转换成真正列表类型过程解析
2019/08/26 Python
python文字转语音的实例代码分析
2019/11/12 Python
用python中的matplotlib绘制方程图像代码
2019/11/21 Python
Pytorch框架实现mnist手写库识别(与tensorflow对比)
2020/07/20 Python
sklearn中的交叉验证的实现(Cross-Validation)
2021/02/22 Python
简短证婚人证婚词
2014/01/09 职场文书
白血病募捐倡议书
2014/05/14 职场文书
经典毕业生求职信
2014/07/12 职场文书
2014年企业员工工作总结
2014/12/09 职场文书
致创业的您:这类人不适合餐饮创业
2019/08/19 职场文书