python操作xml文件示例


Posted in Python onApril 07, 2014
def get_seed_data(filename):
dom = minidom.parse(filename)
root = dom.documentElement
system_nodes = root.getElementsByTagName("system")
k = 0
seed_list = []
for system_node in system_nodes:
    #print system_node.nodeName+' id='+system_node.getAttribute('id')
    system_id = system_node.getAttribute("id")
    system_name = system_node.getAttribute("name")
    #print 'system_name:%s'%system_name
    section_nodes = system_node.getElementsByTagName("section")
    for section_node in section_nodes:
            section_id = section_node.getAttribute('id')
            section_name = section_node.getAttribute('name')
            #print ' '+section_node.nodeName+' id='+section_id+' name='+section_name
            crawl_cycle_node = section_node.getElementsByTagName("crawl_cycle")
            crawl_cycle = crawl_cycle_node[0].childNodes[0].nodeValue
            #print '  '+crawl_cycle_node[0].nodeName+'='+crawl_cycle
            seed_nodes = section_node.getElementsByTagName('seed')
            for seed_node in seed_nodes:
                seed = {}
                seed['crawl_cycle'] = crawl_cycle
                seed['system_id'] = int(system_id)
                seed['system_name'] = system_name
                seed['section_id'] = int(section_id)
                seed['section_name'] = section_name
                seed_id = seed_node.getAttribute('id')
                seed['seed_id'] = int(seed_id)
                #print '  '+seed_node.nodeName+' '+'id='+seed_id
                userblog_url_node = seed_node.getElementsByTagName('userblog_url')
                userblog_url = userblog_url_node[0].childNodes[0].nodeValue
                seed['userblog_url'] = userblog_url
                #print '   '+'userblog_url'+' '+userblog_url
                print '-------------------------------------------'
                print 'system_id:%d' % seed['system_id']
                print 'system_name:%s'%seed['system_name']
                print ' section_id:%d' % seed['section_id']
                print ' section_name:%s' % seed['section_name']
                print '  seed_id:%d' %seed['seed_id']
                print '  userblog_url:%s' %seed['userblog_url']
                print '========================='
                seed_list.append(seed)
                print seed_list[k]
                k += 1
                os.system('pause')
return seed_list
<?xml version="1.0" encoding="utf-8" ?>
<seeds>
 <system id="1" name="新浪">
  <section id="1" name="娱乐">
   <crawl_cycle> </crawl_cycle>
   <seed id="1">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="2">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="3">
    <userblog_url>http://aaa.com.cn/sanxiazaixian</userblog_url>
   </seed>
  </section>
  <section id="2" name="读书">
   <crawl_cycle> </crawl_cycle>
   <seed id="11">
    <userblog_url>http://aaa.com.cn/twocold</userblog_url>
   </seed>
   <seed id="12">
    <userblog_url>http://aaa.com.cn/u/1233526741</userblog_url>
   </seed>
  </section>
 </system>
</seeds>
Python 相关文章推荐
Windows和Linux下使用Python访问SqlServer的方法介绍
Mar 10 Python
python使用PyGame播放Midi和Mp3文件的方法
Apr 24 Python
python中getaddrinfo()基本用法实例分析
Jun 28 Python
关于python列表增加元素的三种操作方法
Aug 22 Python
使用python-opencv读取视频,计算视频总帧数及FPS的实现
Dec 10 Python
使用Python爬虫库requests发送表单数据和JSON数据
Jan 25 Python
python小程序基于Jupyter实现天气查询的方法
Mar 27 Python
TensorFlow固化模型的实现操作
May 26 Python
Django windows使用Apache实现部署流程解析
Oct 12 Python
利用python如何实现猫捉老鼠小游戏
Dec 04 Python
用Python的绘图库(matplotlib)绘制小波能量谱
Apr 17 Python
Python面向对象之成员相关知识总结
Jun 24 Python
python生成随机验证码(中文验证码)示例
Apr 03 #Python
python读取html中指定元素生成excle文件示例
Apr 03 #Python
python实现zencart产品数据导入到magento(python导入数据)
Apr 03 #Python
python模拟登陆阿里妈妈生成商品推广链接
Apr 03 #Python
python多线程抓取天涯帖子内容示例
Apr 03 #Python
python局域网ip扫描示例分享
Apr 03 #Python
python实现数通设备tftp备份配置文件示例
Apr 02 #Python
You might like
使用Smarty 获取当前日期时间和格式化日期时间的方法详解
2013/06/18 PHP
Thinkphp5框架异常处理操作实例分析
2020/06/03 PHP
使用onbeforeunload属性后的副作用
2007/03/08 Javascript
javascript 函数使用说明
2010/04/07 Javascript
学习面向对象之面向对象的基本概念:对象和其他基本要素
2010/11/30 Javascript
jquery实现div阴影效果示例代码
2013/09/16 Javascript
React Native实现简单的登录功能(推荐)
2016/09/19 Javascript
解决layui使用layui-icon出现默认图标的问题
2019/09/11 Javascript
vue父子模板传值问题解决方法案例分析
2020/02/26 Javascript
JavaScript实现捕获鼠标坐标
2020/04/12 Javascript
Vue.js获取手机系统型号、版本、浏览器类型的示例代码
2020/05/10 Javascript
vue-cli4.x创建企业级项目的方法步骤
2020/06/18 Javascript
完美解决vue 中多个echarts图表自适应的问题
2020/07/19 Javascript
解决Vue中的生命周期beforeDestory不触发的问题
2020/07/21 Javascript
javascript运行机制之执行顺序理解
2020/08/03 Javascript
[01:18:35]DOTA2-DPC中国联赛 正赛 Elephant vs LBZS BO3 第一场 1月29日
2021/03/11 DOTA
决策树的python实现方法
2014/11/18 Python
Python中的特殊语法:filter、map、reduce、lambda介绍
2015/04/14 Python
在Python中用split()方法分割字符串的使用介绍
2015/05/20 Python
Python正则表达式使用经典实例
2016/06/21 Python
Python3之文件读写操作的实例讲解
2018/01/23 Python
django文档学习之applications使用详解
2018/01/29 Python
Python求解任意闭区间的所有素数
2018/06/10 Python
Python函数中不定长参数的写法
2019/02/13 Python
python实现翻转棋游戏(othello)
2019/07/29 Python
简单了解Python读取大文件代码实例
2019/12/18 Python
python ffmpeg任意提取视频帧的方法
2020/02/21 Python
python如何求圆的面积
2020/07/01 Python
完美解决TensorFlow和Keras大数据量内存溢出的问题
2020/07/03 Python
详解python 支持向量机(SVM)算法
2020/09/18 Python
英国最大的经认证的有机超市:Planet Organic
2018/02/02 全球购物
如何编写优秀的食品项目创业计划书
2014/01/23 职场文书
创业计划书的主要内容有哪些
2014/01/29 职场文书
2014企业领导班子四风对照检查材料思想汇报
2014/09/17 职场文书
2019如何书写演讲稿?
2019/07/01 职场文书
td 内容自动换行 table表格td设置宽度后文字太多自动换行
2022/12/24 HTML / CSS