python操作xml文件示例


Posted in Python onApril 07, 2014
def get_seed_data(filename):
dom = minidom.parse(filename)
root = dom.documentElement
system_nodes = root.getElementsByTagName("system")
k = 0
seed_list = []
for system_node in system_nodes:
    #print system_node.nodeName+' id='+system_node.getAttribute('id')
    system_id = system_node.getAttribute("id")
    system_name = system_node.getAttribute("name")
    #print 'system_name:%s'%system_name
    section_nodes = system_node.getElementsByTagName("section")
    for section_node in section_nodes:
            section_id = section_node.getAttribute('id')
            section_name = section_node.getAttribute('name')
            #print ' '+section_node.nodeName+' id='+section_id+' name='+section_name
            crawl_cycle_node = section_node.getElementsByTagName("crawl_cycle")
            crawl_cycle = crawl_cycle_node[0].childNodes[0].nodeValue
            #print '  '+crawl_cycle_node[0].nodeName+'='+crawl_cycle
            seed_nodes = section_node.getElementsByTagName('seed')
            for seed_node in seed_nodes:
                seed = {}
                seed['crawl_cycle'] = crawl_cycle
                seed['system_id'] = int(system_id)
                seed['system_name'] = system_name
                seed['section_id'] = int(section_id)
                seed['section_name'] = section_name
                seed_id = seed_node.getAttribute('id')
                seed['seed_id'] = int(seed_id)
                #print '  '+seed_node.nodeName+' '+'id='+seed_id
                userblog_url_node = seed_node.getElementsByTagName('userblog_url')
                userblog_url = userblog_url_node[0].childNodes[0].nodeValue
                seed['userblog_url'] = userblog_url
                #print '   '+'userblog_url'+' '+userblog_url
                print '-------------------------------------------'
                print 'system_id:%d' % seed['system_id']
                print 'system_name:%s'%seed['system_name']
                print ' section_id:%d' % seed['section_id']
                print ' section_name:%s' % seed['section_name']
                print '  seed_id:%d' %seed['seed_id']
                print '  userblog_url:%s' %seed['userblog_url']
                print '========================='
                seed_list.append(seed)
                print seed_list[k]
                k += 1
                os.system('pause')
return seed_list
<?xml version="1.0" encoding="utf-8" ?>
<seeds>
 <system id="1" name="新浪">
  <section id="1" name="娱乐">
   <crawl_cycle> </crawl_cycle>
   <seed id="1">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="2">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="3">
    <userblog_url>http://aaa.com.cn/sanxiazaixian</userblog_url>
   </seed>
  </section>
  <section id="2" name="读书">
   <crawl_cycle> </crawl_cycle>
   <seed id="11">
    <userblog_url>http://aaa.com.cn/twocold</userblog_url>
   </seed>
   <seed id="12">
    <userblog_url>http://aaa.com.cn/u/1233526741</userblog_url>
   </seed>
  </section>
 </system>
</seeds>
Python 相关文章推荐
Python数据结构之Array用法实例
Oct 09 Python
python批量生成本地ip地址的方法
Mar 23 Python
Python中用Decorator来简化元编程的教程
Apr 13 Python
Python cookbook(数据结构与算法)通过公共键对字典列表排序算法示例
Mar 15 Python
Django使用HttpResponse返回图片并显示的方法
May 22 Python
Python利用Django如何写restful api接口详解
Jun 08 Python
Pandas读写CSV文件的方法示例
Mar 27 Python
在python 中split()使用多符号分割的例子
Jul 15 Python
django序列化serializers过程解析
Dec 14 Python
Python BeautifulReport可视化报告代码实例
Apr 13 Python
解决pycharm debug时界面下方不出现step等按钮及变量值的问题
Jun 09 Python
Python 通过正则表达式快速获取电影的下载地址
Aug 17 Python
python生成随机验证码(中文验证码)示例
Apr 03 #Python
python读取html中指定元素生成excle文件示例
Apr 03 #Python
python实现zencart产品数据导入到magento(python导入数据)
Apr 03 #Python
python模拟登陆阿里妈妈生成商品推广链接
Apr 03 #Python
python多线程抓取天涯帖子内容示例
Apr 03 #Python
python局域网ip扫描示例分享
Apr 03 #Python
python实现数通设备tftp备份配置文件示例
Apr 02 #Python
You might like
基于PHP CURL用法的深入分析
2013/06/09 PHP
PHP连接MySQL数据的操作要点
2015/03/20 PHP
PHP判断文件是否被引入的方法get_included_files用法示例
2016/11/29 PHP
PHP编程快速实现数组去重的方法详解
2017/07/22 PHP
Nigma vs Liquid BO3 第一场2.13
2021/03/10 DOTA
Mozilla中显示textarea中选择的文字
2006/09/07 Javascript
JavaScript的Function详细
2006/11/14 Javascript
JQuery jsonp 使用示例代码
2009/08/12 Javascript
几个比较实用的JavaScript 测试及效验工具
2010/04/18 Javascript
jQuery 创建Dom元素
2010/05/07 Javascript
js页面跳转常用的几种方式
2010/11/25 Javascript
使用js完成节点的增删改复制等的操作
2014/01/02 Javascript
Js和JQuery获取鼠标指针坐标的实现代码分享
2015/05/25 Javascript
基于javascript实现图片滑动效果
2016/05/07 Javascript
关于Vue.js 2.0的Vuex 2.0 你需要更新的知识库
2016/11/30 Javascript
利用jquery实现实时更新歌词的方法
2017/01/06 Javascript
assert()函数用法总结(推荐)
2017/01/25 Javascript
Javascript基础回顾之(一) 类型
2017/01/31 Javascript
angular.js指令中transclude选项及ng-transclude指令详解
2017/05/24 Javascript
基于JavaScript实现微信抢红包功能
2017/07/20 Javascript
通过button将form表单的数据提交到action层的实例
2017/09/08 Javascript
vue 使用Jade模板写html,stylus写css的方法
2018/02/23 Javascript
Vue开发之封装分页组件与使用示例
2019/04/25 Javascript
JS如何生成随机验证码
2020/03/02 Javascript
基于react项目打包css引用路径错误解决方案
2020/10/28 Javascript
详解python3 + Scrapy爬虫学习之创建项目
2019/04/12 Python
PYQT5实现控制台显示功能的方法
2019/06/25 Python
python中的TCP(传输控制协议)用法实例分析
2019/11/15 Python
python matplotlib绘制三维图的示例
2020/09/24 Python
Anaconda详细安装步骤图文教程
2020/11/12 Python
Python3中对json格式数据的分析处理
2021/01/28 Python
基于HTML5的WebGL实现json和echarts图表展现在同一个界面
2017/10/26 HTML / CSS
Carter’s官方旗舰店:美国受欢迎的婴童服装品牌
2018/01/21 全球购物
珠宝店促销方案
2014/03/21 职场文书
2014年仓库保管员工作总结
2014/12/03 职场文书
Python自动化之批量处理工作簿和工作表
2021/06/03 Python