Python如何对XML 解析


Posted in Python onJune 28, 2020

什么是 XML?

XML 指可扩展标记语言(eXtensible Markup Language),标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。 你可以通过本站学习 XML 教程

XML 被设计用来传输和存储数据。

XML 是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。

它也是元标记语言,即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。

Python 对 XML 的解析

常见的 XML 编程接口有 DOM 和 SAX,这两种接口处理 XML 文件的方式不同,当然使用场合也不同。

Python 有三种方法解析 XML,SAX,DOM,以及 ElementTree:

1.SAX (simple API for XML )

Python 标准库包含 SAX 解析器,SAX 用事件驱动模型,通过在解析 XML 的过程中触发一个个的事件并调用用户定义的回调函数来处理 XML 文件。

2.DOM(Document Object Model)

将 XML 数据在内存中解析成一个树,通过对树的操作来操作 XML。

本章节使用到的 XML 实例文件 movies.xml 内容如下:

<collection shelf="New Arrivals">
<movie title="Enemy Behind">
 <type>War, Thriller</type>
 <format>DVD</format>
 <year>2003</year>
 <rating>PG</rating>
 <stars>10</stars>
 <description>Talk about a US-Japan war</description>
</movie>
<movie title="Transformers">
 <type>Anime, Science Fiction</type>
 <format>DVD</format>
 <year>1989</year>
 <rating>R</rating>
 <stars>8</stars>
 <description>A schientific fiction</description>
</movie>
 <movie title="Trigun">
 <type>Anime, Action</type>
 <format>DVD</format>
 <episodes>4</episodes>
 <rating>PG</rating>
 <stars>10</stars>
 <description>Vash the Stampede!</description>
</movie>
<movie title="Ishtar">
 <type>Comedy</type>
 <format>VHS</format>
 <rating>PG</rating>
 <stars>2</stars>
 <description>Viewable boredom</description>
</movie>
</collection>

Python 使用 SAX 解析 xml

SAX 是一种基于事件驱动的API。

利用 SAX 解析 XML 文档牵涉到两个部分: 解析器和事件处理器。

解析器负责读取 XML 文档,并向事件处理器发送事件,如元素开始跟元素结束事件。

而事件处理器则负责对事件作出响应,对传递的 XML 数据进行处理。

  • 1、对大型文件进行处理;
  • 2、只需要文件的部分内容,或者只需从文件中得到特定信息。
  • 3、想建立自己的对象模型的时候。

在 Python 中使用 sax 方式处理 xml 要先引入 xml.sax 中的 parse 函数,还有 xml.sax.handler 中的 ContentHandler。

ContentHandler 类方法介绍

characters(content) 方法

调用时机:

从行开始,遇到标签之前,存在字符,content 的值为这些字符串。

从一个标签,遇到下一个标签之前, 存在字符,content 的值为这些字符串。

从一个标签,遇到行结束符之前,存在字符,content 的值为这些字符串。

标签可以是开始标签,也可以是结束标签。

startDocument() 方法

文档启动的时候调用。

endDocument() 方法

解析器到达文档结尾时调用。

startElement(name, attrs) 方法

遇到XML开始标签时调用,name 是标签的名字,attrs 是标签的属性值字典。

endElement(name) 方法

遇到XML结束标签时调用。

make_parser 方法

以下方法创建一个新的解析器对象并返回。

xml.sax.make_parser( [parser_list] )

参数说明:

  • parser_list - 可选参数,解析器列表

parser 方法

以下方法创建一个 SAX 解析器并解析xml文档:

xml.sax.parse( xmlfile, contenthandler[, errorhandler])

参数说明:

  • xmlfile - xml文件名
  • contenthandler - 必须是一个 ContentHandler 的对象
  • errorhandler - 如果指定该参数,errorhandler 必须是一个 SAX ErrorHandler 对象

parseString 方法

parseString 方法创建一个 XML 解析器并解析 xml 字符串:

xml.sax.parseString(xmlstring, contenthandler[, errorhandler])

参数说明:

  • xmlstring - xml字符串
  • contenthandler - 必须是一个 ContentHandler 的对象
  • errorhandler - 如果指定该参数,errorhandler 必须是一个 SAX ErrorHandler对象

Python 解析XML实例

#!/usr/bin/python3

import xml.sax

class MovieHandler( xml.sax.ContentHandler ):
 def __init__(self):
  self.CurrentData = ""
  self.type = ""
  self.format = ""
  self.year = ""
  self.rating = ""
  self.stars = ""
  self.description = ""

 # 元素开始调用
 def startElement(self, tag, attributes):
  self.CurrentData = tag
  if tag == "movie":
   print ("*****Movie*****")
   title = attributes["title"]
   print ("Title:", title)

 # 元素结束调用
 def endElement(self, tag):
  if self.CurrentData == "type":
   print ("Type:", self.type)
  elif self.CurrentData == "format":
   print ("Format:", self.format)
  elif self.CurrentData == "year":
   print ("Year:", self.year)
  elif self.CurrentData == "rating":
   print ("Rating:", self.rating)
  elif self.CurrentData == "stars":
   print ("Stars:", self.stars)
  elif self.CurrentData == "description":
   print ("Description:", self.description)
  self.CurrentData = ""

 # 读取字符时调用
 def characters(self, content):
  if self.CurrentData == "type":
   self.type = content
  elif self.CurrentData == "format":
   self.format = content
  elif self.CurrentData == "year":
   self.year = content
  elif self.CurrentData == "rating":
   self.rating = content
  elif self.CurrentData == "stars":
   self.stars = content
  elif self.CurrentData == "description":
   self.description = content
 
if ( __name__ == "__main__"):
 
 # 创建一个 XMLReader
 parser = xml.sax.make_parser()
 # 关闭命名空间
 parser.setFeature(xml.sax.handler.feature_namespaces, 0)

 # 重写 ContextHandler
 Handler = MovieHandler()
 parser.setContentHandler( Handler )
 
 parser.parse("movies.xml")

以上代码执行结果如下:

*****Movie*****
Title: Enemy Behind
Type: War, Thriller
Format: DVD
Year: 2003
Rating: PG
Stars: 10
Description: Talk about a US-Japan war
*****Movie*****
Title: Transformers
Type: Anime, Science Fiction
Format: DVD
Year: 1989
Rating: R
Stars: 8
Description: A schientific fiction
*****Movie*****
Title: Trigun
Type: Anime, Action
Format: DVD
Rating: PG
Stars: 10
Description: Vash the Stampede!
*****Movie*****
Title: Ishtar
Type: Comedy
Format: VHS
Rating: PG
Stars: 2
Description: Viewable boredom

完整的 SAX API 文档请查阅Python SAX APIs

使用xml.dom解析xml

文件对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展置标语言的标准编程接口。

一个 DOM 的解析器在解析一个 XML 文档时,一次性读取整个文档,把文档中所有元素保存在内存中的一个树结构里,之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构,也可以把修改过的内容写入xml文件。

python中用xml.dom.minidom来解析xml文件,实例如下:

#!/usr/bin/python3

from xml.dom.minidom import parse
import xml.dom.minidom

# 使用minidom解析器打开 XML 文档
DOMTree = xml.dom.minidom.parse("movies.xml")
collection = DOMTree.documentElement
if collection.hasAttribute("shelf"):
 print ("Root element : %s" % collection.getAttribute("shelf"))

# 在集合中获取所有电影
movies = collection.getElementsByTagName("movie")

# 打印每部电影的详细信息
for movie in movies:
 print ("*****Movie*****")
 if movie.hasAttribute("title"):
  print ("Title: %s" % movie.getAttribute("title"))

 type = movie.getElementsByTagName('type')[0]
 print ("Type: %s" % type.childNodes[0].data)
 format = movie.getElementsByTagName('format')[0]
 print ("Format: %s" % format.childNodes[0].data)
 rating = movie.getElementsByTagName('rating')[0]
 print ("Rating: %s" % rating.childNodes[0].data)
 description = movie.getElementsByTagName('description')[0]
 print ("Description: %s" % description.childNodes[0].data)

以上程序执行结果如下:

Root element : New Arrivals
*****Movie*****
Title: Enemy Behind
Type: War, Thriller
Format: DVD
Rating: PG
Description: Talk about a US-Japan war
*****Movie*****
Title: Transformers
Type: Anime, Science Fiction
Format: DVD
Rating: R
Description: A schientific fiction
*****Movie*****
Title: Trigun
Type: Anime, Action
Format: DVD
Rating: PG
Description: Vash the Stampede!
*****Movie*****
Title: Ishtar
Type: Comedy
Format: VHS
Rating: PG
Description: Viewable boredom

完整的 DOM API 文档请查阅Python DOM APIs。

以上就是Python如何对XML 解析的详细内容,更多关于Python对XML 解析的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Django中URL视图函数的一些高级概念介绍
Jul 20 Python
Python 错误和异常代码详解
Jan 29 Python
基于python 处理中文路径的终极解决方法
Apr 12 Python
解决python中使用plot画图,图不显示的问题
Jul 04 Python
python实现K近邻回归,采用等权重和不等权重的方法
Jan 23 Python
Python3 导入上级目录中的模块实例
Feb 16 Python
深入浅析Python 中 is 语法带来的误解
May 07 Python
python实现的多任务版udp聊天器功能案例
Nov 13 Python
python 多线程死锁问题的解决方案
Aug 25 Python
python与idea的集成的实现
Nov 20 Python
Python基于Faker假数据构造库
Nov 30 Python
TensorFlow中tf.batch_matmul()的用法
Jun 02 Python
keras 自定义loss层+接受输入实例
Jun 28 #Python
python批量处理多DNS多域名的nslookup解析实现
Jun 28 #Python
解决Keras TensorFlow 混编中 trainable=False设置无效问题
Jun 28 #Python
Keras: model实现固定部分layer,训练部分layer操作
Jun 28 #Python
sklearn的predict_proba使用说明
Jun 28 #Python
基于python实现ROC曲线绘制广场解析
Jun 28 #Python
Python sklearn中的.fit与.predict的用法说明
Jun 28 #Python
You might like
动画 《Pokemon Sword·Shield》系列WEB动画《薄明之翼》第2话声优阵容公开!
2020/03/06 日漫
php生成固定长度纯数字编码的方法
2015/07/09 PHP
DEDE实现转跳属性文档在模板上调用出转跳地址
2016/11/04 PHP
Aptana调试javascript图解教程
2009/11/30 Javascript
JQuery Easyui Tree的oncheck事件实现代码
2010/05/28 Javascript
解析js中获得父窗口链接getParent方法以及各种打开窗口的方法
2013/06/19 Javascript
引用外部脚本时script标签关闭的写法
2014/01/20 Javascript
Jquery自定义button按钮的几种方法
2014/06/11 Javascript
BootStrap的JS插件之轮播效果案例详解
2016/05/16 Javascript
angularjs实现的前端分页控件示例
2017/02/10 Javascript
对存在JavaScript隐式类型转换的四种情况的总结(必看篇)
2017/08/31 Javascript
php中and 和 &amp;&amp;出坑指南
2018/07/13 Javascript
nodejs 生成和导出 word的实例代码
2018/07/31 NodeJs
bootstrap下拉框动态赋值方法
2018/08/10 Javascript
在vue中使用jsx语法的使用方法
2019/09/30 Javascript
JS+HTML实现自定义上传图片按钮并显示图片功能的方法分析
2020/02/12 Javascript
vue 组件之间事件触发($emit)与event Bus($on)的用法说明
2020/07/28 Javascript
[04:52]第二届DOTA2亚洲邀请赛主赛事第一天比赛集锦:OG娜迦海妖放大配合谜团大中3人
2017/04/02 DOTA
python实现通过pil模块对图片格式进行转换的方法
2015/03/24 Python
Python中Django 后台自定义表单控件
2017/03/28 Python
PyChar学习教程之自定义文件与代码模板详解
2017/07/17 Python
python实现逆序输出一个数字的示例讲解
2018/06/25 Python
python中类的属性和方法介绍
2018/11/27 Python
selenium跳过webdriver检测并模拟登录淘宝
2019/06/12 Python
python3.4+pycharm 环境安装及使用方法
2019/06/13 Python
Python定时发送天气预报邮件代码实例
2019/09/09 Python
关于numpy数组轴的使用详解
2019/12/05 Python
sklearn线性逻辑回归和非线性逻辑回归的实现
2020/06/09 Python
CSS图片翻转动画技术详解(IE也实现了)
2014/04/03 HTML / CSS
css3 media 响应式布局的简单实例
2016/08/03 HTML / CSS
野兽派官方旗舰店:THE BEAST 野兽派
2016/08/05 全球购物
生产部经理岗位职责
2013/12/16 职场文书
运动会演讲稿200字
2014/08/25 职场文书
婚庆主持词大全
2015/06/30 职场文书
爱护环境建议书
2015/09/14 职场文书
Python手拉手教你爬取贝壳房源数据的实战教程
2021/05/21 Python