python提取xml里面的链接源码详解


Posted in Python onOctober 15, 2019

因群里朋友需要提取xml地图里面的链接,就写了这个程序。

代码:

#coding=utf-8
import urllib
import urllib.request
import re
url='http://zhimo.yuanzhumuban.cc/sitemaps.xml'
html=urllib.request.urlopen(url).read()
html=html.decode('utf-8')
r=re.compile(r'(http://zhimo.yuanzhumuban.cc.*?\.html)')
big=re.findall(r,html)
for i in big:
 print(i)
 op_xml_txt=open('xml.txt','a')
 op_xml_txt.write('%s\n'%i)

扩展阅读:

Python3提取xml文件中的内容

import xml.dom.minidom

def find_child(Par_nodes, mystr):
  for child_node in Par_nodes:
    if(len(child_node.childNodes) > 0):
      mystr = find_child(child_node.childNodes, mystr)
    elif(child_node.nodeValue != None):
      mystr += child_node.data.replace('\n', '')
  return mystr

if __name__ == '__main__':

  dom1 = xml.dom.minidom.parse('2.XML') #打开xml文件
  root = dom1.documentElement     #得到文档元素对象
  app_nums = root.getElementsByTagName('base:DocNumber') #按标签名称查找,返回标签结点数组
  app_num = app_nums[2]
  print('专利申请号:'+app_num.firstChild.data)
  titles = root.getElementsByTagName('business:InventionTitle')
  title = titles[0]
  print('专利名称:'+title.firstChild.data)
  Paragraphs = root.getElementsByTagName('base:Paragraphs')
  abstract = Paragraphs[0]
  print('专利摘要:'+abstract.firstChild.data)
  company_names = root.getElementsByTagName('base:Name')
  company_name = company_names[0]
  print('公司名称:'+company_name.firstChild.data)
  mystr = ''
  for i in range(len(Paragraphs)):
    if (Paragraphs[i].firstChild.data == '发明内容\n\t'):
      i+=1
      while Paragraphs[i].firstChild.data != '附图说明\n\t':
        mystr = find_child(Paragraphs[i].childNodes, mystr)
        i+=1

  print('发明内容:' + mystr)

以上就是本次介绍的全部实例代码知识点,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
python访问sqlserver示例
Feb 10 Python
Python中获取网页状态码的两个方法
Nov 03 Python
Python三元运算实现方法
Jan 12 Python
python中map、any、all函数用法分析
Apr 21 Python
python机器学习案例教程——K最近邻算法的实现
Dec 28 Python
python3 判断列表是一个空列表的方法
May 04 Python
实例讲解Python爬取网页数据
Jul 08 Python
解决Python下imread,imwrite不支持中文的问题
Dec 05 Python
关于numpy数组轴的使用详解
Dec 05 Python
PyCharm如何导入python项目的方法
Feb 06 Python
Python 通过监听端口实现唯一脚本运行方式
May 05 Python
django的autoreload机制实现
Jun 03 Python
python yield关键词案例测试
Oct 15 #Python
python 发送json数据操作实例分析
Oct 15 #Python
30秒学会30个超实用Python代码片段【收藏版】
Oct 15 #Python
PYTHON绘制雷达图代码实例
Oct 15 #Python
利用Python产生加密表和解密表的实现方法
Oct 15 #Python
python多线程并发及测试框架案例
Oct 15 #Python
浅析PEP570新语法: 只接受位置参数
Oct 15 #Python
You might like
php 什么是PEAR?
2009/03/19 PHP
PHPwind整合最土系统用户同步登录实现方法
2010/12/08 PHP
PHP基础学习小结
2011/04/17 PHP
ThinkPHP自动完成中使用函数与回调方法实例
2014/11/29 PHP
phpmailer绑定邮箱的实现方法
2016/12/01 PHP
php使用ftp实现文件上传与下载功能
2017/07/21 PHP
Yii2.0使用阿里云OSS的SDK上传图片、下载、删除图片示例
2017/09/20 PHP
Jquery从头学起第四讲 jquery入门教程
2010/08/01 Javascript
IE6背景图片不缓存问题解决方案及图片使用策略多个方法小结
2012/05/14 Javascript
高性能JavaScript模板引擎实现原理详解
2015/02/05 Javascript
JavaScript自定义数组排序方法
2015/02/12 Javascript
JS实现超简单的仿QQ折叠菜单效果
2015/09/21 Javascript
带有定位当前位置的百度地图前端web api实例代码
2016/06/21 Javascript
微信小程序 跳转传递数据的实例
2017/07/06 Javascript
编写React组件项目实践分析
2018/03/04 Javascript
js调用设备摄像头的方法
2018/07/19 Javascript
JS实现判断图片是否加载完成的方法分析
2018/07/31 Javascript
解决Angular4项目部署到服务器上刷新404的问题
2018/08/31 Javascript
记录一次完整的react hooks实践
2019/03/11 Javascript
vue点击按钮实现简单页面的切换
2020/09/08 Javascript
jQuery实现二级导航菜单的示例
2020/09/30 jQuery
解决vue elementUI 使用el-select 时 change事件的触发问题
2020/11/17 Vue.js
[03:54]Ehome出征西雅图 回顾2016国际邀请赛晋级之路
2016/08/02 DOTA
python中xrange和range的区别
2014/05/13 Python
Python greenlet实现原理和使用示例
2014/09/24 Python
简单了解python关键字global nonlocal区别
2020/09/21 Python
python自动化发送邮件实例讲解
2021/01/04 Python
HTML5实现音频和视频嵌入的方法
2018/08/22 HTML / CSS
台湾东南旅游社网站:东南旅游
2019/02/11 全球购物
工作决心书
2014/03/11 职场文书
兴趣小组活动总结
2014/05/05 职场文书
2014年新教师工作总结
2014/11/08 职场文书
恋恋笔记本观后感
2015/06/16 职场文书
欠条范文
2015/07/03 职场文书
浅谈Python从全局与局部变量到装饰器的相关知识
2021/06/21 Python
Python图像处理库PIL详细使用说明
2022/04/06 Python