python操作xml文件示例


Posted in Python onApril 07, 2014
def get_seed_data(filename):
dom = minidom.parse(filename)
root = dom.documentElement
system_nodes = root.getElementsByTagName("system")
k = 0
seed_list = []
for system_node in system_nodes:
    #print system_node.nodeName+' id='+system_node.getAttribute('id')
    system_id = system_node.getAttribute("id")
    system_name = system_node.getAttribute("name")
    #print 'system_name:%s'%system_name
    section_nodes = system_node.getElementsByTagName("section")
    for section_node in section_nodes:
            section_id = section_node.getAttribute('id')
            section_name = section_node.getAttribute('name')
            #print ' '+section_node.nodeName+' id='+section_id+' name='+section_name
            crawl_cycle_node = section_node.getElementsByTagName("crawl_cycle")
            crawl_cycle = crawl_cycle_node[0].childNodes[0].nodeValue
            #print '  '+crawl_cycle_node[0].nodeName+'='+crawl_cycle
            seed_nodes = section_node.getElementsByTagName('seed')
            for seed_node in seed_nodes:
                seed = {}
                seed['crawl_cycle'] = crawl_cycle
                seed['system_id'] = int(system_id)
                seed['system_name'] = system_name
                seed['section_id'] = int(section_id)
                seed['section_name'] = section_name
                seed_id = seed_node.getAttribute('id')
                seed['seed_id'] = int(seed_id)
                #print '  '+seed_node.nodeName+' '+'id='+seed_id
                userblog_url_node = seed_node.getElementsByTagName('userblog_url')
                userblog_url = userblog_url_node[0].childNodes[0].nodeValue
                seed['userblog_url'] = userblog_url
                #print '   '+'userblog_url'+' '+userblog_url
                print '-------------------------------------------'
                print 'system_id:%d' % seed['system_id']
                print 'system_name:%s'%seed['system_name']
                print ' section_id:%d' % seed['section_id']
                print ' section_name:%s' % seed['section_name']
                print '  seed_id:%d' %seed['seed_id']
                print '  userblog_url:%s' %seed['userblog_url']
                print '========================='
                seed_list.append(seed)
                print seed_list[k]
                k += 1
                os.system('pause')
return seed_list
<?xml version="1.0" encoding="utf-8" ?>
<seeds>
 <system id="1" name="新浪">
  <section id="1" name="娱乐">
   <crawl_cycle> </crawl_cycle>
   <seed id="1">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="2">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="3">
    <userblog_url>http://aaa.com.cn/sanxiazaixian</userblog_url>
   </seed>
  </section>
  <section id="2" name="读书">
   <crawl_cycle> </crawl_cycle>
   <seed id="11">
    <userblog_url>http://aaa.com.cn/twocold</userblog_url>
   </seed>
   <seed id="12">
    <userblog_url>http://aaa.com.cn/u/1233526741</userblog_url>
   </seed>
  </section>
 </system>
</seeds>
Python 相关文章推荐
Python的collections模块中namedtuple结构使用示例
Jul 07 Python
Python数据分析之双色球基于线性回归算法预测下期中奖结果示例
Feb 08 Python
TensorFlow利用saver保存和提取参数的实例
Jul 26 Python
windows下cx_Freeze生成Python可执行程序的详细步骤
Oct 09 Python
python通过paramiko复制远程文件及文件目录到本地
Apr 30 Python
python二进制文件的转译详解
Jul 03 Python
tensorflow生成多个tfrecord文件实例
Feb 17 Python
基于CentOS搭建Python Django环境过程解析
Aug 24 Python
python如何遍历指定路径下所有文件(按按照时间区间检索)
Sep 14 Python
matplotlib 范围选区(SpanSelector)的使用
Feb 24 Python
python 中[0]*2与0*2的区别说明
May 10 Python
python设置 matplotlib 正确显示中文的四种方式
May 10 Python
python生成随机验证码(中文验证码)示例
Apr 03 #Python
python读取html中指定元素生成excle文件示例
Apr 03 #Python
python实现zencart产品数据导入到magento(python导入数据)
Apr 03 #Python
python模拟登陆阿里妈妈生成商品推广链接
Apr 03 #Python
python多线程抓取天涯帖子内容示例
Apr 03 #Python
python局域网ip扫描示例分享
Apr 03 #Python
python实现数通设备tftp备份配置文件示例
Apr 02 #Python
You might like
PHP 最大运行时间 max_execution_time修改方法
2010/03/08 PHP
PHP面向对象——访问修饰符介绍
2012/11/08 PHP
php 检查电子邮件函数(自写)
2014/01/16 PHP
php几个预定义变量$_SERVER用法小结
2014/11/07 PHP
php实现根据词频生成tag云的方法
2015/04/17 PHP
如何使用jQuery+PHP+MySQL来实现一个在线测试项目
2015/04/26 PHP
PHP如何防止XSS攻击与XSS攻击原理的讲解
2019/03/22 PHP
Js制作简单弹出层DIV在页面居中 中间显示遮罩的具体方法
2013/08/08 Javascript
jQuery实现灰蓝风格标准二级下拉菜单效果代码
2015/08/31 Javascript
jQuery 1.9.1源码分析系列(十)事件系统之绑定事件
2015/11/19 Javascript
纯js实现html转pdf的简单实例(推荐)
2017/02/16 Javascript
vue使用watch 观察路由变化,重新获取内容
2017/03/08 Javascript
详解Weex基于Vue2.0开发模板搭建
2017/03/20 Javascript
JS奇技之利用scroll来监听resize详解
2017/06/15 Javascript
从对象列表中获取一个对象的方法,依据关键字和值
2017/09/20 Javascript
React根据宽度自适应高度的示例代码
2017/10/11 Javascript
如何将百度地图包装成Vue的组件的方法步骤
2019/02/12 Javascript
Vue组件通信的几种实现方法
2019/04/25 Javascript
jquery实现购物车基本功能
2019/10/25 jQuery
vue cli4下环境变量和模式示例详解
2020/04/09 Javascript
Python django框架应用中实现获取访问者ip地址示例
2019/05/17 Python
Python 实现opencv所使用的图片格式与 base64 转换
2020/01/09 Python
Python 抓取数据存储到Redis中的操作
2020/07/16 Python
python中scrapy处理项目数据的实例分析
2020/11/22 Python
详解css position 5种不同的值的用法
2019/07/30 HTML / CSS
用HTML5的canvas实现一个炫酷时钟效果
2016/05/20 HTML / CSS
微软加拿大官方网站:Microsoft Canada
2019/04/28 全球购物
优秀医生事迹材料
2014/02/12 职场文书
办公室综合文员岗位职责范本
2014/02/13 职场文书
经营理念口号
2014/06/21 职场文书
2014年组织部工作总结
2014/11/14 职场文书
2015年出纳工作总结与计划
2015/05/18 职场文书
撤诉申请怎么写
2015/05/19 职场文书
幼儿园教师教学反思
2016/03/02 职场文书
原生JS封装vue Tab切换效果
2021/04/28 Vue.js
Python爬虫进阶之Beautiful Soup库详解
2021/04/29 Python