python提取xml里面的链接源码详解


Posted in Python onOctober 15, 2019

因群里朋友需要提取xml地图里面的链接,就写了这个程序。

代码:

#coding=utf-8
import urllib
import urllib.request
import re
url='http://zhimo.yuanzhumuban.cc/sitemaps.xml'
html=urllib.request.urlopen(url).read()
html=html.decode('utf-8')
r=re.compile(r'(http://zhimo.yuanzhumuban.cc.*?\.html)')
big=re.findall(r,html)
for i in big:
 print(i)
 op_xml_txt=open('xml.txt','a')
 op_xml_txt.write('%s\n'%i)

扩展阅读:

Python3提取xml文件中的内容

import xml.dom.minidom

def find_child(Par_nodes, mystr):
  for child_node in Par_nodes:
    if(len(child_node.childNodes) > 0):
      mystr = find_child(child_node.childNodes, mystr)
    elif(child_node.nodeValue != None):
      mystr += child_node.data.replace('\n', '')
  return mystr

if __name__ == '__main__':

  dom1 = xml.dom.minidom.parse('2.XML') #打开xml文件
  root = dom1.documentElement     #得到文档元素对象
  app_nums = root.getElementsByTagName('base:DocNumber') #按标签名称查找,返回标签结点数组
  app_num = app_nums[2]
  print('专利申请号:'+app_num.firstChild.data)
  titles = root.getElementsByTagName('business:InventionTitle')
  title = titles[0]
  print('专利名称:'+title.firstChild.data)
  Paragraphs = root.getElementsByTagName('base:Paragraphs')
  abstract = Paragraphs[0]
  print('专利摘要:'+abstract.firstChild.data)
  company_names = root.getElementsByTagName('base:Name')
  company_name = company_names[0]
  print('公司名称:'+company_name.firstChild.data)
  mystr = ''
  for i in range(len(Paragraphs)):
    if (Paragraphs[i].firstChild.data == '发明内容\n\t'):
      i+=1
      while Paragraphs[i].firstChild.data != '附图说明\n\t':
        mystr = find_child(Paragraphs[i].childNodes, mystr)
        i+=1

  print('发明内容:' + mystr)

以上就是本次介绍的全部实例代码知识点,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
用Python登录Gmail并发送Gmail邮件的教程
Apr 17 Python
Python二分法搜索算法实例分析
May 11 Python
Python实现树的先序、中序、后序排序算法示例
Jun 23 Python
Python爬虫工程师面试问题总结
Mar 22 Python
pygame游戏之旅 调用按钮实现游戏开始功能
Nov 21 Python
python面向对象入门教程之从代码复用开始(一)
Dec 11 Python
python3实现网络爬虫之BeautifulSoup使用详解
Dec 19 Python
python3.7 利用函数os pandas利用excel对文件名进行归类
Sep 29 Python
python子线程退出及线程退出控制的代码
Oct 16 Python
使用Pandas的Series方法绘制图像教程
Dec 04 Python
Python3 利用face_recognition实现人脸识别的方法
Mar 13 Python
浅谈在django中使用redirect重定向数据传输的问题
Mar 13 Python
python yield关键词案例测试
Oct 15 #Python
python 发送json数据操作实例分析
Oct 15 #Python
30秒学会30个超实用Python代码片段【收藏版】
Oct 15 #Python
PYTHON绘制雷达图代码实例
Oct 15 #Python
利用Python产生加密表和解密表的实现方法
Oct 15 #Python
python多线程并发及测试框架案例
Oct 15 #Python
浅析PEP570新语法: 只接受位置参数
Oct 15 #Python
You might like
PHP 面向对象详解
2012/09/13 PHP
php获取从html表单传递数组的方法
2015/03/20 PHP
教你识别简单的免查杀PHP后门
2015/09/13 PHP
php判断邮箱地址是否存在的方法
2016/02/13 PHP
详解PHP归并排序的实现
2016/10/18 PHP
一个用js实现控制台控件的代码
2007/09/04 Javascript
利用jQuery的$.event.fix函数统一浏览器event事件处理
2009/12/21 Javascript
情人节专属 纯js脚本1k大小的3D玫瑰效果
2012/02/11 Javascript
几种设置表单元素中文本输入框不可编辑的方法总结
2013/11/25 Javascript
javascript组合使用构造函数模式和原型模式实例
2015/06/04 Javascript
js document.getElementsByClassName的使用介绍与自定义函数
2016/11/25 Javascript
react-router实现按需加载
2017/05/09 Javascript
详解动画插件wow.js的使用方法
2017/09/13 Javascript
微信小程序 input表单与redio及下拉列表的使用实例
2017/09/20 Javascript
JavaScript使用享元模式实现文件上传优化操作示例
2018/08/07 Javascript
vue-cli3.0+element-ui上传组件el-upload的使用
2018/12/03 Javascript
微信小程序基于picker实现级联菜单
2019/02/15 Javascript
小程序使用wxs解决wxml保留2位小数问题
2019/12/13 Javascript
小程序实现简单语音聊天的示例代码
2020/07/24 Javascript
详解为什么Vue中的v-if和v-for不建议一起用
2021/01/13 Vue.js
在cmder下安装ipython以及环境的搭建
2018/10/19 Python
Flask框架web开发之零基础入门
2018/12/10 Python
python 在某.py文件中调用其他.py内的函数的方法
2019/06/25 Python
python调用支付宝支付接口流程
2019/08/15 Python
基于SpringBoot构造器注入循环依赖及解决方式
2020/04/26 Python
Python 实现进度条的六种方式
2021/01/06 Python
劳力士官方珠宝商:J.R. Dunn Jewelers
2018/09/29 全球购物
教师评优的个人自我评价分享
2013/09/19 职场文书
学生周末回家住宿长期请假条
2014/02/15 职场文书
对祖国的寄语大全
2014/04/11 职场文书
违反交通法规检讨书
2014/09/10 职场文书
培训通知
2015/04/17 职场文书
干货干货!2019最新优秀创业计划书
2019/03/21 职场文书
什么是求职信?求职信应包含哪些内容?
2019/08/14 职场文书
详解vue中v-for的key唯一性
2021/05/15 Vue.js
Python中生成随机数据安全性、多功能性、用途和速度方面进行比较
2022/04/14 Python