python提取xml里面的链接源码详解


Posted in Python onOctober 15, 2019

因群里朋友需要提取xml地图里面的链接,就写了这个程序。

代码:

#coding=utf-8
import urllib
import urllib.request
import re
url='http://zhimo.yuanzhumuban.cc/sitemaps.xml'
html=urllib.request.urlopen(url).read()
html=html.decode('utf-8')
r=re.compile(r'(http://zhimo.yuanzhumuban.cc.*?\.html)')
big=re.findall(r,html)
for i in big:
 print(i)
 op_xml_txt=open('xml.txt','a')
 op_xml_txt.write('%s\n'%i)

扩展阅读:

Python3提取xml文件中的内容

import xml.dom.minidom

def find_child(Par_nodes, mystr):
  for child_node in Par_nodes:
    if(len(child_node.childNodes) > 0):
      mystr = find_child(child_node.childNodes, mystr)
    elif(child_node.nodeValue != None):
      mystr += child_node.data.replace('\n', '')
  return mystr

if __name__ == '__main__':

  dom1 = xml.dom.minidom.parse('2.XML') #打开xml文件
  root = dom1.documentElement     #得到文档元素对象
  app_nums = root.getElementsByTagName('base:DocNumber') #按标签名称查找,返回标签结点数组
  app_num = app_nums[2]
  print('专利申请号:'+app_num.firstChild.data)
  titles = root.getElementsByTagName('business:InventionTitle')
  title = titles[0]
  print('专利名称:'+title.firstChild.data)
  Paragraphs = root.getElementsByTagName('base:Paragraphs')
  abstract = Paragraphs[0]
  print('专利摘要:'+abstract.firstChild.data)
  company_names = root.getElementsByTagName('base:Name')
  company_name = company_names[0]
  print('公司名称:'+company_name.firstChild.data)
  mystr = ''
  for i in range(len(Paragraphs)):
    if (Paragraphs[i].firstChild.data == '发明内容\n\t'):
      i+=1
      while Paragraphs[i].firstChild.data != '附图说明\n\t':
        mystr = find_child(Paragraphs[i].childNodes, mystr)
        i+=1

  print('发明内容:' + mystr)

以上就是本次介绍的全部实例代码知识点,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
windows下安装python paramiko模块的代码
Feb 10 Python
Python写的一个简单DNS服务器实例
Jun 04 Python
python安装以及IDE的配置教程
Apr 29 Python
Python使用urllib2模块实现断点续传下载的方法
Jun 17 Python
python提取字典key列表的方法
Jul 11 Python
使用python将时间转换为指定的格式方法
Nov 12 Python
在python 不同时区之间的差值与转换方法
Jan 14 Python
详解Python_shutil模块
Mar 15 Python
pytorch使用指定GPU训练的实例
Aug 19 Python
python3反转字符串的3种方法(小结)
Nov 07 Python
Python中的None与 NULL(即空字符)的区别详解
Sep 24 Python
Python中 range | np.arange | np.linspace三者的区别
Mar 22 Python
python yield关键词案例测试
Oct 15 #Python
python 发送json数据操作实例分析
Oct 15 #Python
30秒学会30个超实用Python代码片段【收藏版】
Oct 15 #Python
PYTHON绘制雷达图代码实例
Oct 15 #Python
利用Python产生加密表和解密表的实现方法
Oct 15 #Python
python多线程并发及测试框架案例
Oct 15 #Python
浅析PEP570新语法: 只接受位置参数
Oct 15 #Python
You might like
php中选择什么接口(mysql、mysqli)访问mysql
2013/02/06 PHP
浅析使用Turck-mmcache编译来加速、优化PHP代码
2013/06/20 PHP
写一段简单的PHP建立文件夹代码
2015/01/06 PHP
php短网址和数字之间相互转换的方法
2015/03/13 PHP
php实现按天数、星期、月份查询的搜索框
2016/05/02 PHP
yii2带搜索功能的下拉框实例详解
2016/05/12 PHP
Zend Framework入门教程之Zend_Db数据库操作详解
2016/12/08 PHP
js获取判断上传文件后缀名的示例代码
2014/02/19 Javascript
JS实现图文并茂的tab选项卡效果示例【附demo源码下载】
2016/09/21 Javascript
javascript的document中的动态添加标签实现方法
2016/10/24 Javascript
js微信扫描二维码登录网站技术原理
2016/12/01 Javascript
jQuery Ajax File Upload实例源码
2016/12/12 Javascript
JavaScript实现打地鼠小游戏
2020/04/23 Javascript
JS点击图片弹出文件选择框并覆盖原图功能的实现代码
2017/08/25 Javascript
基于Vue中点击组件外关闭组件的实现方法
2018/03/06 Javascript
vue地区选择组件教程详解
2018/05/04 Javascript
JS简单生成由字母数字组合随机字符串示例
2018/05/25 Javascript
nodejs的路径问题的解决
2018/06/30 NodeJs
vue-content-loader内容加载器的使用方法
2018/08/05 Javascript
了解JavaScript中let语句
2019/05/30 Javascript
Vue.js递归组件实现组织架构树和选人功能
2019/07/04 Javascript
小程序实现搜索框功能
2020/03/26 Javascript
全面解析Vue中的$nextTick
2020/12/24 Vue.js
Python+selenium实现截图图片并保存截取的图片
2018/01/05 Python
Python利用字典将两个通讯录文本合并为一个文本实例
2018/01/16 Python
Python中的延迟绑定原理详解
2019/10/11 Python
利用 PyCharm 实现本地代码和远端的实时同步功能
2020/03/23 Python
python 追踪except信息方式
2020/04/25 Python
世界最大的票务市场:viagogo
2017/02/16 全球购物
世界上最大的二手相机店:KEN
2017/05/17 全球购物
缓刑人员的思想汇报
2014/01/11 职场文书
运动会班级口号
2014/06/09 职场文书
2016年寒假社会实践活动总结
2015/03/27 职场文书
大学学生会辞职信
2015/05/13 职场文书
alibaba seata服务端具体实现
2022/02/24 Java/Android
Redis安装使用RedisJSON模块的方法
2022/03/23 Redis