python操作xml文件示例


Posted in Python onApril 07, 2014
def get_seed_data(filename):
dom = minidom.parse(filename)
root = dom.documentElement
system_nodes = root.getElementsByTagName("system")
k = 0
seed_list = []
for system_node in system_nodes:
    #print system_node.nodeName+' id='+system_node.getAttribute('id')
    system_id = system_node.getAttribute("id")
    system_name = system_node.getAttribute("name")
    #print 'system_name:%s'%system_name
    section_nodes = system_node.getElementsByTagName("section")
    for section_node in section_nodes:
            section_id = section_node.getAttribute('id')
            section_name = section_node.getAttribute('name')
            #print ' '+section_node.nodeName+' id='+section_id+' name='+section_name
            crawl_cycle_node = section_node.getElementsByTagName("crawl_cycle")
            crawl_cycle = crawl_cycle_node[0].childNodes[0].nodeValue
            #print '  '+crawl_cycle_node[0].nodeName+'='+crawl_cycle
            seed_nodes = section_node.getElementsByTagName('seed')
            for seed_node in seed_nodes:
                seed = {}
                seed['crawl_cycle'] = crawl_cycle
                seed['system_id'] = int(system_id)
                seed['system_name'] = system_name
                seed['section_id'] = int(section_id)
                seed['section_name'] = section_name
                seed_id = seed_node.getAttribute('id')
                seed['seed_id'] = int(seed_id)
                #print '  '+seed_node.nodeName+' '+'id='+seed_id
                userblog_url_node = seed_node.getElementsByTagName('userblog_url')
                userblog_url = userblog_url_node[0].childNodes[0].nodeValue
                seed['userblog_url'] = userblog_url
                #print '   '+'userblog_url'+' '+userblog_url
                print '-------------------------------------------'
                print 'system_id:%d' % seed['system_id']
                print 'system_name:%s'%seed['system_name']
                print ' section_id:%d' % seed['section_id']
                print ' section_name:%s' % seed['section_name']
                print '  seed_id:%d' %seed['seed_id']
                print '  userblog_url:%s' %seed['userblog_url']
                print '========================='
                seed_list.append(seed)
                print seed_list[k]
                k += 1
                os.system('pause')
return seed_list
<?xml version="1.0" encoding="utf-8" ?>
<seeds>
 <system id="1" name="新浪">
  <section id="1" name="娱乐">
   <crawl_cycle> </crawl_cycle>
   <seed id="1">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="2">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="3">
    <userblog_url>http://aaa.com.cn/sanxiazaixian</userblog_url>
   </seed>
  </section>
  <section id="2" name="读书">
   <crawl_cycle> </crawl_cycle>
   <seed id="11">
    <userblog_url>http://aaa.com.cn/twocold</userblog_url>
   </seed>
   <seed id="12">
    <userblog_url>http://aaa.com.cn/u/1233526741</userblog_url>
   </seed>
  </section>
 </system>
</seeds>
Python 相关文章推荐
python中使用urllib2伪造HTTP报头的2个方法
Jul 07 Python
python正常时间和unix时间戳相互转换的方法
Apr 23 Python
编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法
Jan 20 Python
Python实现简单过滤文本段的方法
May 24 Python
python中numpy.zeros(np.zeros)的使用方法
Nov 07 Python
详解tensorflow实现迁移学习实例
Feb 10 Python
Numpy array数据的增、删、改、查实例
Jun 04 Python
基于Python对数据shape的常见操作详解
Dec 25 Python
Python中函数参数匹配模型详解
Jun 09 Python
Python3 Tkinter选择路径功能的实现方法
Jun 14 Python
numpy 矩阵形状调整:拉伸、变成一位数组的实例
Jun 18 Python
django表单中的按钮获取数据的实例分析
Jul 31 Python
python生成随机验证码(中文验证码)示例
Apr 03 #Python
python读取html中指定元素生成excle文件示例
Apr 03 #Python
python实现zencart产品数据导入到magento(python导入数据)
Apr 03 #Python
python模拟登陆阿里妈妈生成商品推广链接
Apr 03 #Python
python多线程抓取天涯帖子内容示例
Apr 03 #Python
python局域网ip扫描示例分享
Apr 03 #Python
python实现数通设备tftp备份配置文件示例
Apr 02 #Python
You might like
php下网站防IP攻击代码,超级实用
2010/10/24 PHP
PHP数组对比函数,存在交集则返回真,否则返回假
2011/02/03 PHP
PHP计划任务、定时执行任务的实现代码
2011/04/23 PHP
Gambit vs CL BO3 第一场 2.13
2021/03/10 DOTA
图片无缝滚动代码(向左/向下/向上)
2013/04/10 Javascript
jQuery function的正确书写方法
2013/08/02 Javascript
解决Extjs4中form表单提交后无法进入success函数问题
2013/11/26 Javascript
js修改原型的属性使用介绍
2014/01/26 Javascript
jquery实现点击页面计算点击次数
2015/01/23 Javascript
ECMAScript中函数function类型
2015/06/03 Javascript
详解Javascript中的Object对象
2016/02/28 Javascript
jQuery实现内容定时切换效果完整实例
2016/04/06 Javascript
jQuery实现无限往下滚动效果代码
2016/04/16 Javascript
基于jQuery实现仿百度首页选项卡切换效果
2016/05/29 Javascript
原生JS实现匀速图片轮播动画
2016/10/18 Javascript
javascript动画系列之模拟滚动条
2016/12/13 Javascript
webpack@v4升级踩坑(小结)
2018/10/08 Javascript
浅析Vue.js中v-bind v-model的使用和区别
2018/12/04 Javascript
webstorm建立vue-cli脚手架的傻瓜式教程
2020/09/22 Javascript
[27:08]完美世界DOTA2联赛PWL S2 SZ vs Rebirth 第二场 11.21
2020/11/23 DOTA
用python读写excel的方法
2014/11/18 Python
python3中dict(字典)的使用方法示例
2017/03/22 Python
解决python3中解压zip文件是文件名乱码的问题
2018/03/22 Python
python实现list由于numpy array的转换
2018/04/04 Python
对numpy中向量式三目运算符详解
2018/10/31 Python
Python 中PyQt5 点击主窗口弹出另一个窗口的实现方法
2019/07/04 Python
python批量替换文件名中的共同字符实例
2020/03/05 Python
利用pipenv和pyenv管理多个相互独立的Python虚拟开发环境
2020/11/01 Python
浅析HTML5页面元素及属性
2021/01/20 HTML / CSS
ASICS印度官方网站:日本专业运动品牌
2020/06/20 全球购物
Android面试题附答案
2014/12/08 面试题
毕业生文员求职信
2013/11/03 职场文书
企业群众路线教育实践活动心得体会
2014/11/03 职场文书
红领巾广播站广播稿
2015/08/19 职场文书
24年收藏2000多部退役军用电台
2022/02/18 无线电
Python语言内置数据类型
2022/02/24 Python