python提取xml里面的链接源码详解


Posted in Python onOctober 15, 2019

因群里朋友需要提取xml地图里面的链接,就写了这个程序。

代码:

#coding=utf-8
import urllib
import urllib.request
import re
url='http://zhimo.yuanzhumuban.cc/sitemaps.xml'
html=urllib.request.urlopen(url).read()
html=html.decode('utf-8')
r=re.compile(r'(http://zhimo.yuanzhumuban.cc.*?\.html)')
big=re.findall(r,html)
for i in big:
 print(i)
 op_xml_txt=open('xml.txt','a')
 op_xml_txt.write('%s\n'%i)

扩展阅读:

Python3提取xml文件中的内容

import xml.dom.minidom

def find_child(Par_nodes, mystr):
  for child_node in Par_nodes:
    if(len(child_node.childNodes) > 0):
      mystr = find_child(child_node.childNodes, mystr)
    elif(child_node.nodeValue != None):
      mystr += child_node.data.replace('\n', '')
  return mystr

if __name__ == '__main__':

  dom1 = xml.dom.minidom.parse('2.XML') #打开xml文件
  root = dom1.documentElement     #得到文档元素对象
  app_nums = root.getElementsByTagName('base:DocNumber') #按标签名称查找,返回标签结点数组
  app_num = app_nums[2]
  print('专利申请号:'+app_num.firstChild.data)
  titles = root.getElementsByTagName('business:InventionTitle')
  title = titles[0]
  print('专利名称:'+title.firstChild.data)
  Paragraphs = root.getElementsByTagName('base:Paragraphs')
  abstract = Paragraphs[0]
  print('专利摘要:'+abstract.firstChild.data)
  company_names = root.getElementsByTagName('base:Name')
  company_name = company_names[0]
  print('公司名称:'+company_name.firstChild.data)
  mystr = ''
  for i in range(len(Paragraphs)):
    if (Paragraphs[i].firstChild.data == '发明内容\n\t'):
      i+=1
      while Paragraphs[i].firstChild.data != '附图说明\n\t':
        mystr = find_child(Paragraphs[i].childNodes, mystr)
        i+=1

  print('发明内容:' + mystr)

以上就是本次介绍的全部实例代码知识点,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
python微信公众号开发简单流程
Mar 23 Python
python反编译学习之字节码详解
May 19 Python
PyCharm安装Markdown插件的两种方法
Jun 24 Python
OpenCV 轮廓检测的实现方法
Jul 03 Python
Python参数类型以及常见的坑详解
Jul 08 Python
PyQt5实现暗黑风格的计时器
Jul 29 Python
Python 中使用 PyMySQL模块操作数据库的方法
Nov 10 Python
在pycharm中使用matplotlib.pyplot 绘图时报错的解决
Jun 01 Python
python IP地址转整数
Nov 20 Python
如何用PyPy让你的Python代码运行得更快
Dec 02 Python
Python 实现RSA加解密文本文件
Dec 30 Python
详解Python中的GIL(全局解释器锁)详解及解决GIL的几种方案
Jan 29 Python
python yield关键词案例测试
Oct 15 #Python
python 发送json数据操作实例分析
Oct 15 #Python
30秒学会30个超实用Python代码片段【收藏版】
Oct 15 #Python
PYTHON绘制雷达图代码实例
Oct 15 #Python
利用Python产生加密表和解密表的实现方法
Oct 15 #Python
python多线程并发及测试框架案例
Oct 15 #Python
浅析PEP570新语法: 只接受位置参数
Oct 15 #Python
You might like
PHP自动生成月历代码
2006/10/09 PHP
php简单实现无限分类树形列表的方法
2015/03/27 PHP
PHP中trim()函数简单使用指南
2015/04/16 PHP
js中几种去掉字串左右空格的方法
2006/12/25 Javascript
Gird事件机制初级读本
2007/03/10 Javascript
Javascript 表单之间的数据传递代码
2008/12/04 Javascript
使用jQuery简化Ajax开发 Ajax开发入门
2009/10/14 Javascript
javascript在事件监听方面的兼容性小结
2010/04/07 Javascript
jQuery AJAX实现调用页面后台方法和web服务定义的方法分享
2012/03/01 Javascript
Jquery同辈元素选中/未选中效果的实例代码
2013/08/01 Javascript
js加载读取内容及显示与隐藏div示例
2014/02/13 Javascript
JS实现仿京东淘宝竖排二级导航
2014/12/08 Javascript
详谈jQuery操纵DOM元素属性 attr()和removeAtrr()方法
2015/01/22 Javascript
jquery移动端TAB触屏切换实现效果
2020/12/22 Javascript
JavaScript中的this机制
2016/01/30 Javascript
js实现目录链接,内容跟着目录滚动显示的简单实例
2016/10/15 Javascript
Vue.js原理分析之observer模块详解
2017/02/17 Javascript
js仿新浪微博消息发布功能
2017/02/17 Javascript
JavaScript静态作用域和动态作用域实例详解
2019/06/17 Javascript
Echarts实现单条折线可拖拽效果
2019/12/19 Javascript
详解vue v-model
2020/08/31 Javascript
vue中使用echarts的示例
2021/01/03 Vue.js
构建Python包的五个简单准则简介
2015/06/15 Python
Python爬虫:通过关键字爬取百度图片
2017/02/17 Python
Django自定义manage命令实例代码
2018/02/11 Python
Python实现的微信支付方式总结【三种方式】
2019/04/13 Python
Python中*args和**kwargs的区别详解
2019/09/17 Python
Python bisect模块原理及常见实例
2020/06/17 Python
Keras - GPU ID 和显存占用设定步骤
2020/06/22 Python
微信小程序实现可实时改变转速的css3旋转动画实例代码
2018/09/11 HTML / CSS
小程序瀑布流解决左右两边高度差距过大的问题
2019/02/20 HTML / CSS
Sephora丝芙兰马来西亚官方网站:国际化妆品购物
2018/03/15 全球购物
岗位廉洁从业承诺书
2014/03/28 职场文书
学校教研活动总结
2014/07/02 职场文书
青年志愿者活动方案
2014/08/17 职场文书
岁月神偷观后感
2015/06/11 职场文书