编程 Python

Python中将字典转换为XML以及相关的命名空间解析

Posted in Python onOctober 15, 2015

尽管 xml.etree.ElementTree 库通常用来做解析工作，其实它也可以创建XML文档。例如，考虑如下这个函数：

from xml.etree.ElementTree import Element

def dict_to_xml(tag, d):
'''
Turn a simple dict of key/value pairs into XML
'''
elem = Element(tag)
for key, val in d.items():
  child = Element(key)
  child.text = str(val)
  elem.append(child)
return elem

下面是一个使用例子：

>>> s = { 'name': 'GOOG', 'shares': 100, 'price':490.1 }
>>> e = dict_to_xml('stock', s)
>>> e
<Element 'stock' at 0x1004b64c8>
>>>

转换结果是一个 Element 实例。对于I/O操作，使用 xml.etree.ElementTree 中的 tostring() 函数很容易就能将它转换成一个字节字符串。例如：

>>> from xml.etree.ElementTree import tostring
>>> tostring(e)
b'<stock><price>490.1</price><shares>100</shares><name>GOOG</name></stock>'
>>>

如果你想给某个元素添加属性值，可以使用 set() 方法：

>>> e.set('_id','1234')
>>> tostring(e)
b'<stock _id="1234"><price>490.1</price><shares>100</shares><name>GOOG</name>
</stock>'
>>>

如果你还想保持元素的顺序，可以考虑构造一个 OrderedDict 来代替一个普通的字典。当创建XML的时候，你被限制只能构造字符串类型的值。例如：

def dict_to_xml_str(tag, d):
  '''
  Turn a simple dict of key/value pairs into XML
  '''
  parts = ['<{}>'.format(tag)]
  for key, val in d.items():
    parts.append('<{0}>{1}</{0}>'.format(key,val))
  parts.append('</{}>'.format(tag))
  return ''.join(parts)

问题是如果你手动的去构造的时候可能会碰到一些麻烦。例如，当字典的值中包含一些特殊字符的时候会怎样呢？

>>> d = { 'name' : '<spam>' }

>>> # String creation
>>> dict_to_xml_str('item',d)
'<item><name><spam></name></item>'

>>> # Proper XML creation
>>> e = dict_to_xml('item',d)
>>> tostring(e)
b'<item><name><spam></name></item>'
>>>

注意到程序的后面那个例子中，字符 ‘<' 和 ‘>' 被替换成了 < 和 >

下面仅供参考，如果你需要手动去转换这些字符，可以使用 xml.sax.saxutils 中的 escape() 和 unescape() 函数。例如：

>>> from xml.sax.saxutils import escape, unescape
>>> escape('<spam>')
'<spam>'
>>> unescape(_)
'<spam>'
>>>

除了能创建正确的输出外，还有另外一个原因推荐你创建 Element 实例而不是字符串，那就是使用字符串组合构造一个更大的文档并不是那么容易。而 Element 实例可以不用考虑解析XML文本的情况下通过多种方式被处理。也就是说，你可以在一个高级数据结构上完成你所有的操作，并在最后以字符串的形式将其输出。

利用命名空间解析XML文档
如果你解析这个文档并执行普通的查询，你会发现这个并不是那么容易，因为所有步骤都变得相当的繁琐。

>>> # Some queries that work
>>> doc.findtext('author')
'David Beazley'
>>> doc.find('content')
<Element 'content' at 0x100776ec0>
>>> # A query involving a namespace (doesn't work)
>>> doc.find('content/html')
>>> # Works if fully qualified
>>> doc.find('content/{http://www.w3.org/1999/xhtml}html')
<Element '{http://www.w3.org/1999/xhtml}html' at 0x1007767e0>
>>> # Doesn't work
>>> doc.findtext('content/{http://www.w3.org/1999/xhtml}html/head/title')
>>> # Fully qualified
>>> doc.findtext('content/{http://www.w3.org/1999/xhtml}html/'
... '{http://www.w3.org/1999/xhtml}head/{http://www.w3.org/1999/xhtml}title')
'Hello World'
>>>

你可以通过将命名空间处理逻辑包装为一个工具类来简化这个过程：

class XMLNamespaces:
  def __init__(self, **kwargs):
    self.namespaces = {}
    for name, uri in kwargs.items():
      self.register(name, uri)
  def register(self, name, uri):
    self.namespaces[name] = '{'+uri+'}'
  def __call__(self, path):
    return path.format_map(self.namespaces)

通过下面的方式使用这个类：

>>> ns = XMLNamespaces(html='http://www.w3.org/1999/xhtml')
>>> doc.find(ns('content/{html}html'))
<Element '{http://www.w3.org/1999/xhtml}html' at 0x1007767e0>
>>> doc.findtext(ns('content/{html}html/{html}head/{html}title'))
'Hello World'
>>>

讨论
解析含有命名空间的XML文档会比较繁琐。上面的 XMLNamespaces 仅仅是允许你使用缩略名代替完整的URI将其变得稍微简洁一点。

很不幸的是，在基本的 ElementTree 解析中没有任何途径获取命名空间的信息。但是，如果你使用 iterparse() 函数的话就可以获取更多关于命名空间处理范围的信息。例如：

>>> from xml.etree.ElementTree import iterparse
>>> for evt, elem in iterparse('ns2.xml', ('end', 'start-ns', 'end-ns')):
... print(evt, elem)
...
end <Element 'author' at 0x10110de10>
start-ns ('', 'http://www.w3.org/1999/xhtml')
end <Element '{http://www.w3.org/1999/xhtml}title' at 0x1011131b0>
end <Element '{http://www.w3.org/1999/xhtml}head' at 0x1011130a8>
end <Element '{http://www.w3.org/1999/xhtml}h1' at 0x101113310>
end <Element '{http://www.w3.org/1999/xhtml}body' at 0x101113260>
end <Element '{http://www.w3.org/1999/xhtml}html' at 0x10110df70>
end-ns None
end <Element 'content' at 0x10110de68>
end <Element 'top' at 0x10110dd60>
>>> elem # This is the topmost element
<Element 'top' at 0x10110dd60>
>>>

最后一点，如果你要处理的XML文本除了要使用到其他高级XML特性外，还要使用到命名空间，建议你最好是使用 lxml 函数库来代替 ElementTree 。例如，lxml 对利用DTD验证文档、更好的XPath支持和一些其他高级XML特性等都提供了更好的支持。这一小节其实只是教你如何让XML解析稍微简单一点。

Python中将字典转换为XML以及相关的命名空间解析

- Author -

goldensun

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现检测服务器是否可以ping通的2种方法

Jan 01 Python

ubuntu环境下python虚拟环境的安装过程

Jan 07 Python

Python基于pycrypto实现的AES加密和解密算法示例

Apr 10 Python

Python 机器学习库 NumPy入门教程

Apr 19 Python

对numpy.append()里的axis的用法详解

Jun 28 Python

解决pyttsx3无法封装的问题

Dec 24 Python

python接口自动化（十七）--Json 数据处理---一次爬坑记（详解）

Apr 18 Python

Python企业编码生成系统之主程序模块设计详解

Jul 26 Python

tensorflow 固定部分参数训练,只训练部分参数的实例

Jan 20 Python

关于tf.nn.dynamic_rnn返回值详解

Jan 20 Python

Python用input输入列表的实例代码

Feb 07 Python

tensorflow的ckpt及pb模型持久化方式及转化详解

Feb 12 Python

详细解读Python中解析XML数据的方法

Oct 15 #Python

深入解析Python编程中JSON模块的使用

Oct 15 #Python

使用Python解析JSON数据的基本方法

Oct 15 #Python

深入讲解Python编程中的字符串

Oct 14 #Python

Python编程中字符串和列表的基本知识讲解

Oct 14 #Python

Python循环语句之break与continue的用法

Oct 14 #Python

Python编程中的for循环语句学习教程

Oct 14 #Python

You might like

重置版宣传动画

2020/04/09 魔兽争霸

15个小时----从修改程序到自己些程序

2006/10/09 PHP

php使用curl检测网页是否被百度收录的示例分享

2014/01/31 PHP

PHP程序中的文件锁、互斥锁、读写锁使用技巧解析

2016/03/21 PHP

yii2超好用的日期组件和时间组件

2016/05/05 PHP

PHP从零开始打造自己的MVC框架之路由类实现方法分析

2019/06/03 PHP

thinkphp 5框架实现登陆，登出及session登陆状态检测功能示例

2019/10/10 PHP

laravel解决迁移文件一次删除创建字段报错的问题

2019/10/24 PHP

非常不错的一个javascript 类

2006/11/07 Javascript

让人期待的2011年度最佳 jQuery 插件分享

2012/03/16 Javascript

javascript之Partial Application学习

2013/01/10 Javascript

Angualrjs和bootstrap相结合实现数据表格table

2017/03/30 Javascript

微信小程序 swiper组件构建轮播图的实例

2017/09/20 Javascript

vue实现简单loading进度条

2018/06/06 Javascript

封装一下vue中的axios示例代码详解

2020/02/16 Javascript

JavaScript 禁止用户保存图片的实现代码

2020/04/28 Javascript

详解vue组件之间的通信

2020/08/30 Javascript

vue 中this.$set 动态绑定数据的案例讲解

2021/01/29 Vue.js

[07:20]2018DOTA2国际邀请赛寻真——逐梦Mineski

2018/08/10 DOTA

教你用Python脚本快速为iOS10生成图标和截屏

2016/09/22 Python

独特的python循环语句

2016/11/20 Python

Python subprocess模块详细解读

2018/01/29 Python

详解Python 定时框架 Apscheduler原理及安装过程

2019/06/14 Python

Django集成celery发送异步邮件实例

2019/12/17 Python

tensorflow 自定义损失函数示例代码

2020/02/05 Python

python实现将列表中各个值快速赋值给多个变量

2020/04/02 Python

使用Python制作一个数据预处理小工具(多种操作一键完成)

2021/02/07 Python

CSS3系列教程:背景图片(背景大小和多背景图) 应用说明

2012/12/19 HTML / CSS

找到您丢失的钥匙、钱包和手机：Tile

2017/05/19 全球购物

次世代生活态度：Hypebeast

2018/07/05 全球购物

《雕塑之美》教学反思

2014/04/24 职场文书

组织鉴定材料

2014/06/02 职场文书

管理工程专业求职信

2014/08/10 职场文书

秋季校运会广播稿100字

2014/09/18 职场文书

法定代表人授权委托书

2014/09/19 职场文书

利用Python网络爬虫爬取各大音乐评论的代码

2021/04/13 Python