编程 Python

Python存取XML的常见方法实例分析

Posted in Python onMarch 21, 2017

本文实例讲述了Python存取XML的常见方法。分享给大家供大家参考，具体如下：

目前而言，Python 3.2存取XML有以下四种方法：

1.Expat
2.DOM
3.SAX
4.ElementTree

以以下xml作为讨论依据

<?xml version="1.0" encoding="utf-8"?>
<Schools>
  <School Name="XiDian">
    <Class Id="030612">
      <Student Name="salomon">
        <Scores>
          <Math>98</Math>
          <English>85</English>
          <physics>89</physics>
        </Scores>
      </Student>
      <Student Name="Jupiter">
        <Scores>
          <Math>74</Math>
          <English>83</English>
          <physics>69</physics>
        </Scores>
      </Student>
    </Class>
    <Class Id="030611">
      <Student Name="Venus">
        <Scores>
          <Math>98</Math>
          <English>85</English>
          <physics>89</physics>
        </Scores>
      </Student>
      <Student Name="Mars">
        <Scores>
          <Math>74</Math>
          <English>83</English>
          <physics>69</physics>
        </Scores>
      </Student>
    </Class>
  </School>
</Schools>

Expat

Expat是一个面向流的解析器。您注册的解析器回调（或handler）功能，然后开始搜索它的文档。当解析器识别该文件的指定的位置，它会调用该部分相应的处理程序（如果您已经注册的一个）。该文件被输送到解析器，会被分割成多个片断，并分段装到内存中。因此expat可以解析那些巨大的文件。

SAX

SAX是个循序存取XML的解析器API，一个实现SAX的解析器（也就是“SAX Parser”）以一个串流解析器的型式作用，拥有事件驱动API。由使用者定义回调函数，解析时，若发生事件的话会被调用。事件在任一XML特性遇到时引发，以及遇到他们结尾时再次引发。XML属性也作为传给元素事件资料的一部分。SAX 处理时单方向性的；解析过的资料无法在不重新开始的情况下再次读取。

DOM

DOM解析器在任何处理开始之前，必须把整棵树放在内存，所以DOM解析器的内存使用量完全根据输入资料的大小（相对来说，SAX解析器的内存内容，是只基于XML档案的最大深度（XML树的最大深度）和单一XML项目上XML属性储存的最大资料）。

DOM在python3.2中有两种实现方式：

1.xml.minidom是一个基本的实现。
2.xml.pulldom只在需要时构建被访问的子树。

'''
Created on 2012-5-25
@author: salomon
'''
import xml.dom.minidom as minidom
dom = minidom.parse("E:\\test.xml")
root = dom.getElementsByTagName("Schools") #The function getElementsByTagName returns NodeList.
print(root.length)
for node in root: 
  print("Root element is %s。" %node.tagName)# 格式化输出，与C系列语言有很大区别。
  schools = node.getElementsByTagName("School")
  for school in schools:
    print(school.nodeName)
    print(school.tagName)
    print(school.getAttribute("Name"))
    print(school.attributes["Name"].value)
    classes = school.getElementsByTagName("Class")
    print("There are %d classes in school %s" %(classes.length, school.getAttribute("Name")))
    for mclass in classes:
      print(mclass.getAttribute("Id"))
      for student in mclass.getElementsByTagName("Student"):
        print(student.attributes["Name"].value)
        print(student.getElementsByTagName("English")[0].nodeValue) #这个为什么啊？
        print(student.getElementsByTagName("English")[0].childNodes[0].nodeValue)
        student.getElementsByTagName("English")[0].childNodes[0].nodeValue = 75
f = open('new.xml', 'w', encoding = 'utf-8')
dom.writexml(f,encoding = 'utf-8')
f.close()

ElementTree

目前搜到的ElementTree的信息较少，目前不知道其工作机制。有资料显示ElementTree近乎一种轻量级的DOM，但是ElementTree 所有的 Element 节点的工作方式是一致的。它很类似于C#中的XpathNavigator。

'''
Created on 2012-5-25
@author: salomon
'''
from xml.etree.ElementTree import ElementTree
tree = ElementTree()
tree.parse("E:\\test.xml")
root = tree.getroot()
print(root.tag)
print(root[0].tag)
print(root[0].attrib)
schools = root.getchildren() 
for school in schools:
  print(school.get("Name"))
  classes = school.findall("Class")
  for mclass in classes:
    print(mclass.items())
    print(mclass.keys())
    print(mclass.attrib["Id"])
    math = mclass.find("Student").find("Scores").find("Math")
    print(math.text)
    math.set("teacher", "bada")
tree.write("new.xml")

Compare:

就以上几点来说Expat和SAX解析XML方式相同，就是不知道性能相比怎样。DOM相对于以上两种解析器，消耗内存，而且由于存取耗时，所以处理文件相对来说慢。如果文件太大无法载入内存，DOM这种解析器就不能用了，但是对于，某些种类的XML验证需要存取整份文件，或者某些XML处理仅要求存取整份文件的需求时，DOM是唯一选择。

Note:

需要指出的是存取XML的这几项技术并不是Python独创的，Python也是通过借鉴其他语言或者直接从其他语言引入进来的。例如Expat就是一个用C语言开发的、用来解析XML文档的开发库。而SAX最初是由DavidMegginson采用java语言开发的，DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构。可以应用于任何编程语言。

做为对比我也想列举一下C#存取XML文档的方式：

1. 基于DOM的XmlDocument
2. 基于流文件的XmlReader 和 XmlWriter（它和SAX流文件实现不同，SAX是事件驱动模型）。
3. Linq to Xml

流文件两种模型：XmlReader/XMLWriter VS SAX

流模型每次迭代XML文档中的一个节点，适合于处理较大的文档，所耗内存空间小。流模型中有两种变体——“推”模型和“拉”模型。

推模型也就是常说的SAX，SAX是一种靠事件驱动的模型，也就是说：它每发现一个节点就用推模型引发一个事件，而我们必须编写这些事件的处理程序，这样的做法非常的不灵活，也很麻烦。

.NET中使用的是基于“拉”模型的实现方案，“拉”模型在遍历文档时会把感兴趣的文档部分从读取器中拉出，不需要引发事件，允许我们以编程的方式访问文档，这大大的提高了灵活性，在性能上“拉”模型可以选择性的处理节点，而SAX每发现一个节点都会通知客户机，从而，使用“拉”模型可以提高Application的整体效率。

Python存取XML的常见方法实例分析

- Author -

salomon

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python每隔N秒运行指定函数的方法

Mar 16 Python

解决Python中由于logging模块误用导致的内存泄露

Apr 23 Python

在Python的Django框架的视图中使用Session的方法

Jul 23 Python

用Django实现一个可运行的区块链应用

Mar 08 Python

python实现的发邮件功能示例

Sep 11 Python

Python列表倒序输出及其效率详解

Mar 04 Python

Python如何自动获取目标网站最新通知

Jun 18 Python

Tensorflow中批量读取数据的案列分析及TFRecord文件的打包与读取

Jun 30 Python

浅析python 通⽤爬⾍和聚焦爬⾍

Sep 28 Python

Django实现随机图形验证码的示例

Oct 15 Python

基于python实现监听Rabbitmq系统日志代码示例

Nov 28 Python

Python实现简单猜数字游戏

Feb 03 Python

Python正则简单实例分析

Mar 21 #Python

Python处理XML格式数据的方法详解

Mar 21 #Python

Python做简单的字符串匹配详解

Mar 21 #Python

Python 转义字符详细介绍

Mar 21 #Python

python 迭代器和iter()函数详解及实例

Mar 21 #Python

浅谈五大Python Web框架

Mar 20 #Python

python rsa 加密解密

Mar 20 #Python

You might like

PHP生成带有雪花背景的验证码

2006/10/09 PHP

一步一步学习PHP(8) php 数组

2010/03/05 PHP

基于PHP编程注意事项的小结

2013/04/27 PHP

PHP获取当前页面完整URL的实现代码

2013/06/10 PHP

php备份数据库类分享

2015/04/14 PHP

javascript 模拟点击广告

2010/01/02 Javascript

javascript判断是手机还是电脑访问网页的简单实例分享

2014/06/03 Javascript

Javascript限制网页只能在微信内置浏览器中访问

2014/11/09 Javascript

jQuery中iframe的操作(点击按钮新增窗口)

2016/04/20 Javascript

JavaScript的String字符串对象常用操作总结

2016/05/26 Javascript

原生JS实现在线问卷调查投票特效

2017/01/03 Javascript

彻底学会Angular.js中的transclusion

2017/03/12 Javascript

jQuery实现动态生成表格并为行绑定单击变色动作的方法

2017/04/17 jQuery

解决JS内存泄露之js对象和dom对象互相引用问题

2017/06/25 Javascript

详解基于Node.js的HTTP/2 Server实践

2018/05/31 Javascript

vue cli 3.0 搭建项目的图文教程

2019/05/17 Javascript

js使用文档就绪函数动态改变页面内容示例【innerHTML、innerText】

2019/11/07 Javascript

前端使用crypto.js进行加密的函数代码

2020/08/16 Javascript

JS前端基于canvas给图片添加水印

2020/11/11 Javascript

JavaScript手写数组的常用函数总结

2020/11/22 Javascript

[01:05:32]DOTA2上海特级锦标赛主赛事日 - 3 败者组第三轮#1COL VS Alliance第一局

2016/03/04 DOTA

快速实现基于Python的微信聊天机器人示例代码

2017/03/03 Python

python实现txt文件格式转换为arff格式

2018/05/31 Python

[原创]Python入门教程5. 字典基本操作【定义、运算、常用函数】

2018/11/01 Python

python实现银联支付和支付宝支付接入

2019/05/07 Python

Python开发之身份证验证库id_validator验证身份证号合法性及根据身份证号返回住址年龄等信息

2020/03/20 Python

台湾旅游网站：雄狮旅游网

2017/08/16 全球购物

个人自我剖析材料

2014/02/07 职场文书

廉洁使者实施方案

2014/03/29 职场文书

什么是求职信？求职信应包含哪些内容？

2019/08/14 职场文书

python实现高效的遗传算法

2021/04/07 Python

python爬取新闻门户网站的示例

2021/04/25 Python

MySQL修炼之联结与集合浅析

2021/10/05 MySQL

详解TypeScript的基础类型

2022/02/18 Javascript

css3 选择器

2022/05/11 HTML / CSS

HTML5中的DOCUMENT.VISIBILITYSTATE属性详解

2023/05/07 HTML / CSS