python提取xml里面的链接源码详解


Posted in Python onOctober 15, 2019

因群里朋友需要提取xml地图里面的链接,就写了这个程序。

代码:

#coding=utf-8
import urllib
import urllib.request
import re
url='http://zhimo.yuanzhumuban.cc/sitemaps.xml'
html=urllib.request.urlopen(url).read()
html=html.decode('utf-8')
r=re.compile(r'(http://zhimo.yuanzhumuban.cc.*?\.html)')
big=re.findall(r,html)
for i in big:
 print(i)
 op_xml_txt=open('xml.txt','a')
 op_xml_txt.write('%s\n'%i)

扩展阅读:

Python3提取xml文件中的内容

import xml.dom.minidom

def find_child(Par_nodes, mystr):
  for child_node in Par_nodes:
    if(len(child_node.childNodes) > 0):
      mystr = find_child(child_node.childNodes, mystr)
    elif(child_node.nodeValue != None):
      mystr += child_node.data.replace('\n', '')
  return mystr

if __name__ == '__main__':

  dom1 = xml.dom.minidom.parse('2.XML') #打开xml文件
  root = dom1.documentElement     #得到文档元素对象
  app_nums = root.getElementsByTagName('base:DocNumber') #按标签名称查找,返回标签结点数组
  app_num = app_nums[2]
  print('专利申请号:'+app_num.firstChild.data)
  titles = root.getElementsByTagName('business:InventionTitle')
  title = titles[0]
  print('专利名称:'+title.firstChild.data)
  Paragraphs = root.getElementsByTagName('base:Paragraphs')
  abstract = Paragraphs[0]
  print('专利摘要:'+abstract.firstChild.data)
  company_names = root.getElementsByTagName('base:Name')
  company_name = company_names[0]
  print('公司名称:'+company_name.firstChild.data)
  mystr = ''
  for i in range(len(Paragraphs)):
    if (Paragraphs[i].firstChild.data == '发明内容\n\t'):
      i+=1
      while Paragraphs[i].firstChild.data != '附图说明\n\t':
        mystr = find_child(Paragraphs[i].childNodes, mystr)
        i+=1

  print('发明内容:' + mystr)

以上就是本次介绍的全部实例代码知识点,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
python 多进程通信模块的简单实现
Feb 20 Python
Python使用htpasswd实现基本认证授权的例子
Jun 10 Python
Python实现的ini文件操作类分享
Nov 20 Python
Python3自动签到 定时任务 判断节假日的实例
Nov 13 Python
详解Python3网络爬虫(二):利用urllib.urlopen向有道翻译发送数据获得翻译结果
May 07 Python
Python比较配置文件的方法实例详解
Jun 06 Python
Python实现Selenium自动化Page模式
Jul 14 Python
python实现while循环打印星星的四种形状
Nov 23 Python
Python 用__new__方法实现单例的操作
Dec 11 Python
Python 生成短8位唯一id实战教程
Jan 13 Python
python实现简单的井字棋游戏(gui界面)
Jan 22 Python
python状态机transitions库详解
Jun 02 Python
python yield关键词案例测试
Oct 15 #Python
python 发送json数据操作实例分析
Oct 15 #Python
30秒学会30个超实用Python代码片段【收藏版】
Oct 15 #Python
PYTHON绘制雷达图代码实例
Oct 15 #Python
利用Python产生加密表和解密表的实现方法
Oct 15 #Python
python多线程并发及测试框架案例
Oct 15 #Python
浅析PEP570新语法: 只接受位置参数
Oct 15 #Python
You might like
php数组函数序列 之shuffle()和array_rand() 随机函数使用介绍
2011/10/29 PHP
PHP翻页跳转功能实现方法
2020/11/30 PHP
学习php设计模式 php实现抽象工厂模式
2015/12/07 PHP
PHP实现路由映射到指定控制器
2016/08/13 PHP
PHP7.1实现的AES与RSA加密操作示例
2018/06/15 PHP
JavaScript 学习笔记(七)字符串的连接
2009/12/31 Javascript
Javascript对象中关于setTimeout和setInterval的this介绍
2012/07/21 Javascript
JSON 数字排序多字段排序介绍
2013/09/18 Javascript
《JavaScript DOM 编程艺术》读书笔记之JavaScript 语法
2015/01/09 Javascript
使用JS画图之点、线、面
2015/01/12 Javascript
JavaScript获取数组最小值和最大值的方法
2015/06/09 Javascript
浅析Javascript中bind()方法的使用与实现
2016/05/30 Javascript
Javascript for in的缺陷总结
2017/02/03 Javascript
Angular2安装angular-cli
2017/05/21 Javascript
JS设置手机验证码60s等待实现代码
2017/06/14 Javascript
Three.js如何实现雾化效果示例代码
2017/09/27 Javascript
vue axios数据请求及vue中使用axios的方法
2018/09/10 Javascript
vue-cli webpack 引入swiper的操作方法
2018/09/15 Javascript
js canvas实现写字动画效果
2018/11/30 Javascript
详解微信小程序之一键复制到剪切板
2019/04/24 Javascript
vue-cli webpack配置文件分析
2019/05/20 Javascript
js将日期格式转换为YYYY-MM-DD HH:MM:SS
2020/09/18 Javascript
解决Vue-cli3没有vue.config.js文件夹及配置vue项目域名的问题
2020/12/04 Vue.js
[05:40]DOTA2荣耀之路6:Wings最后进攻
2018/05/30 DOTA
Python3读取UTF-8文件及统计文件行数的方法
2015/05/22 Python
python flask实现分页效果
2017/06/27 Python
香港优质食材和美酒专门店:FoodWise
2017/09/01 全球购物
最畅销的视频游戏享受高达90%的折扣:CDKeys
2020/02/10 全球购物
厂办主管岗位职责范本
2014/02/28 职场文书
装饰工程师岗位职责
2014/06/08 职场文书
走群众路线学习笔记
2014/11/06 职场文书
2015年大学元旦晚会活动策划书
2014/12/09 职场文书
2015年酒店服务员工作总结
2015/05/18 职场文书
关于空气污染危害的感想
2015/08/11 职场文书
Redis 哨兵机制及配置实现
2022/03/25 Redis
Redis实现一个账号只能登录一个设备
2022/04/19 Redis