python操作xml文件示例


Posted in Python onApril 07, 2014
def get_seed_data(filename):
dom = minidom.parse(filename)
root = dom.documentElement
system_nodes = root.getElementsByTagName("system")
k = 0
seed_list = []
for system_node in system_nodes:
    #print system_node.nodeName+' id='+system_node.getAttribute('id')
    system_id = system_node.getAttribute("id")
    system_name = system_node.getAttribute("name")
    #print 'system_name:%s'%system_name
    section_nodes = system_node.getElementsByTagName("section")
    for section_node in section_nodes:
            section_id = section_node.getAttribute('id')
            section_name = section_node.getAttribute('name')
            #print ' '+section_node.nodeName+' id='+section_id+' name='+section_name
            crawl_cycle_node = section_node.getElementsByTagName("crawl_cycle")
            crawl_cycle = crawl_cycle_node[0].childNodes[0].nodeValue
            #print '  '+crawl_cycle_node[0].nodeName+'='+crawl_cycle
            seed_nodes = section_node.getElementsByTagName('seed')
            for seed_node in seed_nodes:
                seed = {}
                seed['crawl_cycle'] = crawl_cycle
                seed['system_id'] = int(system_id)
                seed['system_name'] = system_name
                seed['section_id'] = int(section_id)
                seed['section_name'] = section_name
                seed_id = seed_node.getAttribute('id')
                seed['seed_id'] = int(seed_id)
                #print '  '+seed_node.nodeName+' '+'id='+seed_id
                userblog_url_node = seed_node.getElementsByTagName('userblog_url')
                userblog_url = userblog_url_node[0].childNodes[0].nodeValue
                seed['userblog_url'] = userblog_url
                #print '   '+'userblog_url'+' '+userblog_url
                print '-------------------------------------------'
                print 'system_id:%d' % seed['system_id']
                print 'system_name:%s'%seed['system_name']
                print ' section_id:%d' % seed['section_id']
                print ' section_name:%s' % seed['section_name']
                print '  seed_id:%d' %seed['seed_id']
                print '  userblog_url:%s' %seed['userblog_url']
                print '========================='
                seed_list.append(seed)
                print seed_list[k]
                k += 1
                os.system('pause')
return seed_list
<?xml version="1.0" encoding="utf-8" ?>
<seeds>
 <system id="1" name="新浪">
  <section id="1" name="娱乐">
   <crawl_cycle> </crawl_cycle>
   <seed id="1">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="2">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="3">
    <userblog_url>http://aaa.com.cn/sanxiazaixian</userblog_url>
   </seed>
  </section>
  <section id="2" name="读书">
   <crawl_cycle> </crawl_cycle>
   <seed id="11">
    <userblog_url>http://aaa.com.cn/twocold</userblog_url>
   </seed>
   <seed id="12">
    <userblog_url>http://aaa.com.cn/u/1233526741</userblog_url>
   </seed>
  </section>
 </system>
</seeds>
Python 相关文章推荐
跟老齐学Python之从格式化表达式到方法
Sep 28 Python
pygame游戏之旅 添加游戏暂停功能
Nov 21 Python
python 实现交换两个列表元素的位置示例
Jun 26 Python
深入了解Python枚举类型的相关知识
Jul 09 Python
使用浏览器访问python写的服务器程序
Oct 10 Python
关于tf.reverse_sequence()简述
Jan 20 Python
Pandas时间序列基础详解(转换,索引,切片)
Feb 26 Python
django和flask哪个值得研究学习
Jul 31 Python
Pytorch使用shuffle打乱数据的操作
May 20 Python
pyqt5蒙版遮罩mask,setmask的使用
Jun 11 Python
python基础之函数的定义和调用
Oct 24 Python
python自动化测试之Selenium详解
Mar 13 Python
python生成随机验证码(中文验证码)示例
Apr 03 #Python
python读取html中指定元素生成excle文件示例
Apr 03 #Python
python实现zencart产品数据导入到magento(python导入数据)
Apr 03 #Python
python模拟登陆阿里妈妈生成商品推广链接
Apr 03 #Python
python多线程抓取天涯帖子内容示例
Apr 03 #Python
python局域网ip扫描示例分享
Apr 03 #Python
python实现数通设备tftp备份配置文件示例
Apr 02 #Python
You might like
生成缩略图
2006/10/09 PHP
php file_get_contents函数轻松采集html数据
2010/04/22 PHP
Php header()函数语法及使用代码
2013/11/04 PHP
discuz加密解密函数使用方法和中文注释
2014/01/21 PHP
php实现mysql封装类示例
2014/05/07 PHP
php实现通用的从数据库表读取数据到数组的函数实例
2015/03/21 PHP
如何在PHP中使用AES加密算法加密数据
2020/06/24 PHP
工作中常用到的JS表单验证代码(包括例子)
2010/11/11 Javascript
Fastest way to build an HTML string(拼装html字符串的最快方法)
2011/08/20 Javascript
利用JQuery和Servlet实现跨域提交请求示例分享
2014/02/12 Javascript
Document.location.href和.replace的区别示例介绍
2014/03/04 Javascript
javascript window.open打开新窗口后无法再次打开该窗口问题的解决方法
2014/04/12 Javascript
JavaSript中变量的作用域闭包的深入理解
2014/05/12 Javascript
对JavaScript客户端应用编程的一些建议
2015/06/24 Javascript
轻松学习jQuery插件EasyUI EasyUI创建菜单与按钮
2015/11/30 Javascript
EasyUI布局 高度自适应
2016/06/04 Javascript
关于Sequelize连接查询时inlude中model和association的区别详解
2017/02/27 Javascript
canvas+gif.js打造自己的数字雨头像的示例代码
2017/10/26 Javascript
vue 列表页跳转详情页获取id以及详情页通过id获取数据
2019/03/27 Javascript
[01:31:02]TNC vs VG 2019国际邀请赛淘汰赛 胜者组赛BO3 第一场
2019/08/22 DOTA
Python之PyUnit单元测试实例
2014/10/11 Python
Python实现的最近最少使用算法
2015/07/10 Python
Python的Flask框架中SQLAlchemy使用时的乱码问题解决
2015/11/07 Python
使用Python绘制图表大全总结
2017/02/11 Python
使用python遍历指定城市的一周气温
2017/03/31 Python
Python设计模式之桥接模式原理与用法实例分析
2019/01/10 Python
python+gdal+遥感图像拼接(mosaic)的实例
2020/03/10 Python
中国综合性网上购物商城:当当(网上卖书起家)
2016/11/16 全球购物
英国街头品牌:Bee Inspired Clothing
2018/02/12 全球购物
英国领先的维生素和补充剂品牌:Higher Nature
2019/08/26 全球购物
某个公司的Java笔面试题
2016/03/11 面试题
幼教毕业生自我鉴定
2014/01/12 职场文书
交通事故私了协议书
2014/04/16 职场文书
旅行社优秀创业计划书
2014/08/16 职场文书
2014年教师党员自我评议
2014/09/19 职场文书
Win11如何设置右键单击显示所有选项?Win11右键单击显示所有选项设置教程
2022/04/08 数码科技