编程 Python

python 批量修改 labelImg 生成的xml文件的方法

Posted in Python onSeptember 09, 2019

概述

自己在用labelImg打好标签后，想只用其中几类训练，不想训练全部类别，又不想重新打标生成.xml文件，因此想到这个办法：直接在.xml文件中删除原有的不需要的标签类及其属性。

打标时标签名出现了大小写（工程量大时可能会手滑），程序中有改写标签值为小写的过程，因为我做py-faster-rcnn 训练时，标签必须全部为小写。

以如下的.xml文件为例，我故意把标签增加了大写

<annotation verified="yes">
 <filename>test.jpg</filename>
 <path>C:\Users\yasin\Desktop\test</path>
 <source>
 <database>Unknown</database>
 </source>
 <size>
 <width>400</width>
 <height>300</height>
 <depth>3</depth>
 </size>
 <segmented>0</segmented>
 <object>
 <name>People</name>
 <pose>Unspecified</pose>
 <truncated>0</truncated>
 <difficult>0</difficult>
 <bndbox>
  <xmin>80</xmin>
  <ymin>69</ymin>
  <xmax>144</xmax>
  <ymax>89</ymax>
 </bndbox>
 </object>
 <object>
 <name>CAT</name>
 <pose>Unspecified</pose>
 <truncated>0</truncated>
 <difficult>0</difficult>
 <bndbox>
  <xmin>40</xmin>
  <ymin>69</ymin>
  <xmax>143</xmax>
  <ymax>16</ymax>
 </bndbox>
 </object>
 <object>
 <name>dog</name>
 <pose>Unspecified</pose>
 <truncated>0</truncated>
 <difficult>0</difficult>
 <bndbox>
  <xmin>96</xmin>
  <ymin>82</ymin>
  <xmax>176</xmax>
  <ymax>87</ymax>
 </bndbox>
 </object> 
</annotation>

具体实现

假如我们只想保留图片上的people和cat类，其他都删除，代码如下：

from xml.etree.ElementTree import ElementTree
from os import walk, path

def read_xml(in_path):
  tree = ElementTree()
  tree.parse(in_path)
  return tree

def write_xml(tree, out_path):
  tree.write(out_path, encoding="utf-8", xml_declaration=True)

def find_nodes(tree, path):
  return tree.findall(path)

def del_node_by_target_classes(nodelist, target_classes_lower, tree_root):
  for parent_node in nodelist:
    children = parent_node.getchildren()
    if (parent_node.tag == "object" and children[0].text.lower() not in target_classes_lower):
      tree_root.remove(parent_node)
    elif (parent_node.tag == "object" and children[0].text.lower() in target_classes_lower):
      children[0].text = children[0].text.lower()

def get_fileNames(rootdir):
  data_path = []
  prefixs = []
  for root, dirs, files in walk(rootdir, topdown=True):
    for name in files:
      pre, ending = path.splitext(name)
      if ending != ".xml":
        continue
      else:
        data_path.append(path.join(root, name))
        prefixs.append(pre)

  return data_path, prefixs

if __name__ == "__main__":
  # get all the xml paths, prefixes if not used here
  paths_xml, prefixs = get_fileNames("/home/yasin/old_labels/")

  target_classes = ["PEOPLE", "CAT"] # target flags you want to keep

  target_classes_lower = []
  for i in range(len(target_classes)):
    target_classes_lower.append(target_classes[i].lower()) # make sure your target is lowe-case

  # print(target_classes_lower)
  for i in range(len(paths_xml)):
    # rename and save the corresponding xml
    tree = read_xml(paths_xml[i])
    
    # get tree node
    tree_root = tree.getroot()

    # get parent nodes
    del_parent_nodes = find_nodes(tree, "./")
    
    # get target classes and delete
    target_del_node = del_node_by_target_classes(del_parent_nodes, target_classes_lower, tree_root)
    
    # save output xml, 000001.xml
    write_xml(tree, "/home/yasin/new_labels/{}.xml".format("%06d" % i))

按照上述代码，示例.xml变为如下.xml，可以看出我们删除了除people和cat类的类别（即dog类），并把保留类别的打标改成了小写：

<?xml version='1.0' encoding='utf-8'?>
<annotation verified="yes">
 <filename>test.jpg</filename>
 <path>C:\Users\yasin\Desktop\test</path>
 <source>
 <database>Unknown</database>
 </source>
 <size>
 <width>400</width>
 <height>300</height>
 <depth>3</depth>
 </size>
 <segmented>0</segmented>
 <object>
 <name>people</name>
 <pose>Unspecified</pose>
 <truncated>0</truncated>
 <difficult>0</difficult>
 <bndbox>
  <xmin>80</xmin>
  <ymin>69</ymin>
  <xmax>144</xmax>
  <ymax>89</ymax>
 </bndbox>
 </object>
 <object>
 <name>cat</name>
 <pose>Unspecified</pose>
 <truncated>0</truncated>
 <difficult>0</difficult>
 <bndbox>
  <xmin>40</xmin>
  <ymin>69</ymin>
  <xmax>143</xmax>
  <ymax>16</ymax>
 </bndbox>
 </object>
</annotation>

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python 批量修改 labelImg 生成的xml文件的方法

- Author -

Miscellaneous0712

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python的绘图工具matplotlib使用实例

Jul 03 Python

Python 3.x 新特性及10大变化

Jun 12 Python

Python输出汉字字库及将文字转换为图片的方法

Jun 04 Python

深入理解Python中装饰器的用法

Jun 28 Python

Python数据结构之顺序表的实现代码示例

Nov 15 Python

python选取特定列 pandas iloc,loc,icol的使用详解(列切片及行切片)

Aug 06 Python

Win10下python 2.7与python 3.7双环境安装教程图解

Oct 12 Python

Python模块/包/库安装的六种方法及区别

Feb 24 Python

python matplotlib模块基本图形绘制方法小结【直线，曲线，直方图，饼图等】

Apr 26 Python

Django使用Profile扩展User模块方式

May 14 Python

python3通过subprocess模块调用脚本并和脚本交互的操作

Dec 05 Python

pycharm 使用tab跳出正在编辑的括号(){}{}等问题

Feb 26 Python

Python定时发送天气预报邮件代码实例

Sep 09 #Python

python英语单词测试小程序代码实例

Sep 09 #Python

Python实现TCP通信的示例代码

Sep 09 #Python

Python3使用PySynth制作音乐的方法

Sep 09 #Python

python智联招聘爬虫并导入到excel代码实例

Sep 09 #Python

python 的 openpyxl模块读取 Excel文件的方法

Sep 09 #Python

pymysql模块的使用(增删改查)详解

Sep 09 #Python

You might like

PHP网站提速三大“软”招

2006/10/09 PHP

php中实现记住密码下次自动登录的例子

2014/11/06 PHP

php生成与读取excel文件

2016/10/14 PHP

PHP基础之输出缓冲区基本概念、原理分析

2019/06/19 PHP

鼠标经过的文本框textbox变色

2009/05/21 Javascript

网络图片延迟加载实现代码超越jquery控件

2010/03/27 Javascript

JavaScript格式化日期时间的方法和自定义格式化函数示例

2014/04/04 Javascript

JavaScript-RegExp对象只能使用一次问题解决方法

2014/06/23 Javascript

分享十五款 jQuery 社交网络分享插件

2015/05/16 Javascript

jquery+CSS3模拟Path2.0动画菜单效果代码

2015/08/31 Javascript

JavaScript中获取Radio被选中的值

2015/11/11 Javascript

JavaScript如何禁止Backspace键

2015/12/02 Javascript

深入浅析Node.js 事件循环

2015/12/20 Javascript

javascript对象的相关操作小结

2016/05/16 Javascript

jqPlot jQuery绘图插件的使用

2016/06/18 Javascript

Javascript 数组去重的方法（四种）详解及实例代码

2016/11/24 Javascript

JavaScript判断浏览器及其版本信息

2017/01/20 Javascript

react实现点击选中的li高亮的示例代码

2018/05/24 Javascript

微信自定义分享链接信息（标题，图片和内容）实现过程详解

2019/09/04 Javascript

OpenLayers实现图层切换控件

2020/09/25 Javascript

[01:21:36]CHAOS vs Alliacne 2019国际邀请赛小组赛 BO2 第一场 8.15

2019/08/16 DOTA

TensorFlow实现Batch Normalization

2018/03/08 Python

Numpy中矩阵matrix读取一列的方法及数组和矩阵的相互转换实例

2018/07/02 Python

Flask框架配置与调试操作示例

2018/07/23 Python

python实现抖音点赞功能

2019/04/07 Python

详解Python sys.argv使用方法

2019/05/10 Python

在 Python 中使用 MQTT的方法

2020/08/18 Python

python编写扎金花小程序的实例代码

2021/02/23 Python

Python绘制K线图之可视化神器pyecharts的使用

2021/03/02 Python

印尼在线精品店：Berrybenka.com

2016/10/22 全球购物

购买瑞典当代设计的腕表和太阳眼镜：TRIWA

2016/10/30 全球购物

英国大码女性时装零售商：Evans

2018/08/29 全球购物

涉外经济法专业毕业生推荐信

2013/11/24 职场文书

学习教师法的心得体会

2014/09/03 职场文书

音乐教师个人工作总结

2015/02/06 职场文书

redis调用二维码时的不断刷新排查分析

2022/04/01 Redis