编程 Python

python提取xml里面的链接源码详解

Posted in Python onOctober 15, 2019

因群里朋友需要提取xml地图里面的链接，就写了这个程序。

代码：

#coding=utf-8
import urllib
import urllib.request
import re
url='http://zhimo.yuanzhumuban.cc/sitemaps.xml'
html=urllib.request.urlopen(url).read()
html=html.decode('utf-8')
r=re.compile(r'(http://zhimo.yuanzhumuban.cc.*?\.html)')
big=re.findall(r,html)
for i in big:
 print(i)
 op_xml_txt=open('xml.txt','a')
 op_xml_txt.write('%s\n'%i)

扩展阅读：

Python3提取xml文件中的内容

import xml.dom.minidom

def find_child(Par_nodes, mystr):
  for child_node in Par_nodes:
    if(len(child_node.childNodes) > 0):
      mystr = find_child(child_node.childNodes, mystr)
    elif(child_node.nodeValue != None):
      mystr += child_node.data.replace('\n', '')
  return mystr

if __name__ == '__main__':

  dom1 = xml.dom.minidom.parse('2.XML') #打开xml文件
  root = dom1.documentElement     #得到文档元素对象
  app_nums = root.getElementsByTagName('base:DocNumber') #按标签名称查找，返回标签结点数组
  app_num = app_nums[2]
  print('专利申请号：'+app_num.firstChild.data)
  titles = root.getElementsByTagName('business:InventionTitle')
  title = titles[0]
  print('专利名称：'+title.firstChild.data)
  Paragraphs = root.getElementsByTagName('base:Paragraphs')
  abstract = Paragraphs[0]
  print('专利摘要：'+abstract.firstChild.data)
  company_names = root.getElementsByTagName('base:Name')
  company_name = company_names[0]
  print('公司名称：'+company_name.firstChild.data)
  mystr = ''
  for i in range(len(Paragraphs)):
    if (Paragraphs[i].firstChild.data == '发明内容\n\t'):
      i+=1
      while Paragraphs[i].firstChild.data != '附图说明\n\t':
        mystr = find_child(Paragraphs[i].childNodes, mystr)
        i+=1

  print('发明内容：' + mystr)

以上就是本次介绍的全部实例代码知识点，感谢大家的学习和对三水点靠木的支持。

python提取xml里面的链接源码详解

- Author -

圆柱模板

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python 多进程通信模块的简单实现

Feb 20 Python

Python使用htpasswd实现基本认证授权的例子

Jun 10 Python

Python实现的ini文件操作类分享

Nov 20 Python

Python3自动签到定时任务判断节假日的实例

Nov 13 Python

详解Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

May 07 Python

Python比较配置文件的方法实例详解

Jun 06 Python

Python实现Selenium自动化Page模式

Jul 14 Python

python实现while循环打印星星的四种形状

Nov 23 Python

Python 用__new__方法实现单例的操作

Dec 11 Python

Python 生成短8位唯一id实战教程

Jan 13 Python

python实现简单的井字棋游戏(gui界面)

Jan 22 Python

python状态机transitions库详解

Jun 02 Python

python yield关键词案例测试

Oct 15 #Python

python 发送json数据操作实例分析

Oct 15 #Python

30秒学会30个超实用Python代码片段【收藏版】

Oct 15 #Python

PYTHON绘制雷达图代码实例

Oct 15 #Python

利用Python产生加密表和解密表的实现方法

Oct 15 #Python

python多线程并发及测试框架案例

Oct 15 #Python

浅析PEP570新语法: 只接受位置参数

Oct 15 #Python

You might like

php数组函数序列之shuffle()和array_rand() 随机函数使用介绍

2011/10/29 PHP

PHP翻页跳转功能实现方法

2020/11/30 PHP

学习php设计模式 php实现抽象工厂模式

2015/12/07 PHP

PHP实现路由映射到指定控制器

2016/08/13 PHP

PHP7.1实现的AES与RSA加密操作示例

2018/06/15 PHP

JavaScript 学习笔记（七）字符串的连接

2009/12/31 Javascript

Javascript对象中关于setTimeout和setInterval的this介绍

2012/07/21 Javascript

JSON 数字排序多字段排序介绍

2013/09/18 Javascript

《JavaScript DOM 编程艺术》读书笔记之JavaScript 语法

2015/01/09 Javascript

使用JS画图之点、线、面

2015/01/12 Javascript

JavaScript获取数组最小值和最大值的方法

2015/06/09 Javascript

浅析Javascript中bind()方法的使用与实现

2016/05/30 Javascript

Javascript for in的缺陷总结

2017/02/03 Javascript

Angular2安装angular-cli

2017/05/21 Javascript

JS设置手机验证码60s等待实现代码

2017/06/14 Javascript

Three.js如何实现雾化效果示例代码

2017/09/27 Javascript

vue axios数据请求及vue中使用axios的方法

2018/09/10 Javascript

vue-cli webpack 引入swiper的操作方法

2018/09/15 Javascript

js canvas实现写字动画效果

2018/11/30 Javascript

详解微信小程序之一键复制到剪切板

2019/04/24 Javascript

vue-cli webpack配置文件分析

2019/05/20 Javascript

js将日期格式转换为YYYY-MM-DD HH:MM:SS

2020/09/18 Javascript

解决Vue-cli3没有vue.config.js文件夹及配置vue项目域名的问题

2020/12/04 Vue.js

[05:40]DOTA2荣耀之路6：Wings最后进攻

2018/05/30 DOTA

Python3读取UTF-8文件及统计文件行数的方法

2015/05/22 Python

python flask实现分页效果

2017/06/27 Python

香港优质食材和美酒专门店：FoodWise

2017/09/01 全球购物

最畅销的视频游戏享受高达90％的折扣：CDKeys

2020/02/10 全球购物

厂办主管岗位职责范本

2014/02/28 职场文书

装饰工程师岗位职责

2014/06/08 职场文书

走群众路线学习笔记

2014/11/06 职场文书

2015年大学元旦晚会活动策划书

2014/12/09 职场文书

2015年酒店服务员工作总结

2015/05/18 职场文书

关于空气污染危害的感想

2015/08/11 职场文书

Redis 哨兵机制及配置实现

2022/03/25 Redis

Redis实现一个账号只能登录一个设备

2022/04/19 Redis