python操作xml文件示例


Posted in Python onApril 07, 2014
def get_seed_data(filename):
dom = minidom.parse(filename)
root = dom.documentElement
system_nodes = root.getElementsByTagName("system")
k = 0
seed_list = []
for system_node in system_nodes:
    #print system_node.nodeName+' id='+system_node.getAttribute('id')
    system_id = system_node.getAttribute("id")
    system_name = system_node.getAttribute("name")
    #print 'system_name:%s'%system_name
    section_nodes = system_node.getElementsByTagName("section")
    for section_node in section_nodes:
            section_id = section_node.getAttribute('id')
            section_name = section_node.getAttribute('name')
            #print ' '+section_node.nodeName+' id='+section_id+' name='+section_name
            crawl_cycle_node = section_node.getElementsByTagName("crawl_cycle")
            crawl_cycle = crawl_cycle_node[0].childNodes[0].nodeValue
            #print '  '+crawl_cycle_node[0].nodeName+'='+crawl_cycle
            seed_nodes = section_node.getElementsByTagName('seed')
            for seed_node in seed_nodes:
                seed = {}
                seed['crawl_cycle'] = crawl_cycle
                seed['system_id'] = int(system_id)
                seed['system_name'] = system_name
                seed['section_id'] = int(section_id)
                seed['section_name'] = section_name
                seed_id = seed_node.getAttribute('id')
                seed['seed_id'] = int(seed_id)
                #print '  '+seed_node.nodeName+' '+'id='+seed_id
                userblog_url_node = seed_node.getElementsByTagName('userblog_url')
                userblog_url = userblog_url_node[0].childNodes[0].nodeValue
                seed['userblog_url'] = userblog_url
                #print '   '+'userblog_url'+' '+userblog_url
                print '-------------------------------------------'
                print 'system_id:%d' % seed['system_id']
                print 'system_name:%s'%seed['system_name']
                print ' section_id:%d' % seed['section_id']
                print ' section_name:%s' % seed['section_name']
                print '  seed_id:%d' %seed['seed_id']
                print '  userblog_url:%s' %seed['userblog_url']
                print '========================='
                seed_list.append(seed)
                print seed_list[k]
                k += 1
                os.system('pause')
return seed_list
<?xml version="1.0" encoding="utf-8" ?>
<seeds>
 <system id="1" name="新浪">
  <section id="1" name="娱乐">
   <crawl_cycle> </crawl_cycle>
   <seed id="1">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="2">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="3">
    <userblog_url>http://aaa.com.cn/sanxiazaixian</userblog_url>
   </seed>
  </section>
  <section id="2" name="读书">
   <crawl_cycle> </crawl_cycle>
   <seed id="11">
    <userblog_url>http://aaa.com.cn/twocold</userblog_url>
   </seed>
   <seed id="12">
    <userblog_url>http://aaa.com.cn/u/1233526741</userblog_url>
   </seed>
  </section>
 </system>
</seeds>
Python 相关文章推荐
python计算N天之后日期的方法
Mar 31 Python
python创建关联数组(字典)的方法
May 04 Python
Python中每次处理一个字符的5种方法
May 21 Python
详解Python中的动态属性和特性
Apr 07 Python
Python SVM(支持向量机)实现方法完整示例
Jun 19 Python
python实现自动登录
Sep 17 Python
jupyter notebook中新建cell的方法与快捷键操作
Apr 22 Python
Python爬虫入门有哪些基础知识点
Jun 02 Python
pandas之分组groupby()的使用整理与总结
Jun 18 Python
用python制作个音乐下载器
Jan 30 Python
Python中常见的反爬机制及其破解方法总结
Jun 10 Python
python tqdm用法及实例详解
Jun 16 Python
python生成随机验证码(中文验证码)示例
Apr 03 #Python
python读取html中指定元素生成excle文件示例
Apr 03 #Python
python实现zencart产品数据导入到magento(python导入数据)
Apr 03 #Python
python模拟登陆阿里妈妈生成商品推广链接
Apr 03 #Python
python多线程抓取天涯帖子内容示例
Apr 03 #Python
python局域网ip扫描示例分享
Apr 03 #Python
python实现数通设备tftp备份配置文件示例
Apr 02 #Python
You might like
PHP 一个比较完善的简单文件上传
2010/03/25 PHP
详解PHP队列的实现
2019/03/14 PHP
PHP中Static(静态)关键字功能与用法实例分析
2019/04/05 PHP
javascript中巧用“闭包”实现程序的暂停执行功能
2007/04/04 Javascript
弹出广告特效(一个IP只弹出一次)的代码
2007/07/27 Javascript
ExtJS 简介 让你知道extjs是什么
2008/12/29 Javascript
js chrome浏览器判断代码
2010/03/28 Javascript
jQuery.extend()的实现方式详解及实例
2013/06/29 Javascript
jQuery(js)获取文字宽度(显示长度)示例代码
2013/12/31 Javascript
jQuery学习笔记之jQuery原型属性和方法
2014/06/09 Javascript
angularjs指令中的compile与link函数详解
2014/12/06 Javascript
浏览器兼容的JS写法总结
2016/04/27 Javascript
Jquery $when done then的用法详解
2016/05/20 Javascript
全面解析Bootstrap中tab(选项卡)的使用方法
2016/06/06 Javascript
最棒的Angular2表格控件
2016/08/10 Javascript
H5移动端适配 Flexible方案
2016/10/24 Javascript
Bootstrap中glyphicons-halflings-regular.woff字体报404错notfound的解决方法
2017/01/19 Javascript
javascript实现下雨效果
2017/03/27 Javascript
jQuery访问浏览器本地存储cookie、localStorage和sessionStorage的基本用法
2017/10/20 jQuery
解决jquery的ajax调取后端数据成功却渲染失败的问题
2018/08/08 jQuery
详解vue 数组和对象渲染问题
2018/09/21 Javascript
vue.js层叠轮播效果的实例代码
2018/11/08 Javascript
微信小程序如何刷新当前界面的实现方法
2019/06/07 Javascript
解决Vue项目打包后打开index.html页面显示空白以及图片路径错误的问题
2019/10/25 Javascript
将Python代码打包为jar软件的简单方法
2015/08/04 Python
Python控制Firefox方法总结
2019/06/03 Python
详解Pycharm安装及Django安装配置指南
2020/09/15 Python
python之随机数函数的实现示例
2020/12/30 Python
售后服务科岗位职责范文
2013/11/13 职场文书
军训教官感言
2014/03/02 职场文书
学校节能减排倡议书
2014/05/16 职场文书
网站推广策划方案
2014/06/04 职场文书
专题组织生活会方案
2014/06/15 职场文书
学习优秀党员杨宗兴先进事迹材料思想汇报
2014/09/14 职场文书
单位法人授权委托书范本
2014/10/09 职场文书
商业用房租赁协议书
2014/10/13 职场文书