python提取xml里面的链接源码详解


Posted in Python onOctober 15, 2019

因群里朋友需要提取xml地图里面的链接,就写了这个程序。

代码:

#coding=utf-8
import urllib
import urllib.request
import re
url='http://zhimo.yuanzhumuban.cc/sitemaps.xml'
html=urllib.request.urlopen(url).read()
html=html.decode('utf-8')
r=re.compile(r'(http://zhimo.yuanzhumuban.cc.*?\.html)')
big=re.findall(r,html)
for i in big:
 print(i)
 op_xml_txt=open('xml.txt','a')
 op_xml_txt.write('%s\n'%i)

扩展阅读:

Python3提取xml文件中的内容

import xml.dom.minidom

def find_child(Par_nodes, mystr):
  for child_node in Par_nodes:
    if(len(child_node.childNodes) > 0):
      mystr = find_child(child_node.childNodes, mystr)
    elif(child_node.nodeValue != None):
      mystr += child_node.data.replace('\n', '')
  return mystr

if __name__ == '__main__':

  dom1 = xml.dom.minidom.parse('2.XML') #打开xml文件
  root = dom1.documentElement     #得到文档元素对象
  app_nums = root.getElementsByTagName('base:DocNumber') #按标签名称查找,返回标签结点数组
  app_num = app_nums[2]
  print('专利申请号:'+app_num.firstChild.data)
  titles = root.getElementsByTagName('business:InventionTitle')
  title = titles[0]
  print('专利名称:'+title.firstChild.data)
  Paragraphs = root.getElementsByTagName('base:Paragraphs')
  abstract = Paragraphs[0]
  print('专利摘要:'+abstract.firstChild.data)
  company_names = root.getElementsByTagName('base:Name')
  company_name = company_names[0]
  print('公司名称:'+company_name.firstChild.data)
  mystr = ''
  for i in range(len(Paragraphs)):
    if (Paragraphs[i].firstChild.data == '发明内容\n\t'):
      i+=1
      while Paragraphs[i].firstChild.data != '附图说明\n\t':
        mystr = find_child(Paragraphs[i].childNodes, mystr)
        i+=1

  print('发明内容:' + mystr)

以上就是本次介绍的全部实例代码知识点,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
python定时器使用示例分享
Feb 16 Python
Python中__init__和__new__的区别详解
Jul 09 Python
10种检测Python程序运行时间、CPU和内存占用的方法
Apr 01 Python
简单介绍Python中的round()方法
May 15 Python
分享Python文本生成二维码实例
Jan 06 Python
python实现class对象转换成json/字典的方法
Mar 11 Python
python 从csv读数据到mysql的实例
Jun 21 Python
设置python3为默认python的方法
Oct 31 Python
Django 创建/删除用户的示例代码
Jul 24 Python
命令行运行Python脚本时传入参数的三种方式详解
Oct 11 Python
python实现超级玛丽游戏
Mar 18 Python
keras 获取某层输出 获取复用层的多次输出实例
May 23 Python
python yield关键词案例测试
Oct 15 #Python
python 发送json数据操作实例分析
Oct 15 #Python
30秒学会30个超实用Python代码片段【收藏版】
Oct 15 #Python
PYTHON绘制雷达图代码实例
Oct 15 #Python
利用Python产生加密表和解密表的实现方法
Oct 15 #Python
python多线程并发及测试框架案例
Oct 15 #Python
浅析PEP570新语法: 只接受位置参数
Oct 15 #Python
You might like
解析php如何将日志写进syslog
2013/06/28 PHP
PHP获取文件扩展名的4种方法
2015/11/24 PHP
php面向对象值单例模式
2016/05/03 PHP
PHP实现表单提交时去除斜杠的方法
2016/12/26 PHP
jQuery 1.8 Release版本发布了
2012/08/14 Javascript
Javascript this 的一些学习总结
2012/08/31 Javascript
jQuery中add()方法用法实例
2015/01/08 Javascript
Nodejs为什么选择javascript为载体语言
2015/01/13 NodeJs
jQuery给元素添加样式的方法详解
2015/12/30 Javascript
Web开发中客户端的跳转与服务器端的跳转的区别
2017/03/05 Javascript
深入浅出webpack教程系列_安装与基本打包用法和命令参数详解
2017/09/10 Javascript
用Vue.js方法创建模板并使用多个模板合成
2019/06/28 Javascript
原生js实现下拉选项卡
2019/11/27 Javascript
原生JS实现顶部导航栏显示按钮+搜索框功能
2019/12/25 Javascript
解决Echarts 显示隐藏后宽度高度变小的问题
2020/07/19 Javascript
js+canvas实现五子棋小游戏
2020/08/02 Javascript
[14:24]Optic Gaming vs PSG LGD BO3
2018/06/07 DOTA
使用Python的Treq on Twisted来进行HTTP压力测试
2015/04/16 Python
python 实现网上商城,转账,存取款等功能的信用卡系统
2016/07/15 Python
python logging 日志轮转文件不删除问题的解决方法
2016/08/02 Python
python图像常规操作
2017/11/11 Python
Python3中的json模块使用详解
2018/05/05 Python
Python中return self的用法详解
2018/07/27 Python
详解Python Matplot中文显示完美解决方案
2019/03/07 Python
Python数据可视化:饼状图的实例讲解
2019/12/07 Python
python 实现rolling和apply函数的向下取值操作
2020/06/08 Python
Python 必须了解的5种高级特征
2020/09/10 Python
pycharm如何设置官方中文(如何汉化)
2020/12/29 Python
CSS3制作半透明边框(Facebox)类似渐变
2012/12/09 HTML / CSS
英国家电直销:Appliances Direct
2016/09/22 全球购物
运动会跳远加油稿
2014/02/20 职场文书
双创工作实施方案
2014/03/26 职场文书
本科生就业推荐信
2014/05/19 职场文书
国际会计专业求职信
2014/08/04 职场文书
整改落实自查报告
2014/11/05 职场文书
工作失职自我检讨书
2015/05/05 职场文书