python提取xml里面的链接源码详解


Posted in Python onOctober 15, 2019

因群里朋友需要提取xml地图里面的链接,就写了这个程序。

代码:

#coding=utf-8
import urllib
import urllib.request
import re
url='http://zhimo.yuanzhumuban.cc/sitemaps.xml'
html=urllib.request.urlopen(url).read()
html=html.decode('utf-8')
r=re.compile(r'(http://zhimo.yuanzhumuban.cc.*?\.html)')
big=re.findall(r,html)
for i in big:
 print(i)
 op_xml_txt=open('xml.txt','a')
 op_xml_txt.write('%s\n'%i)

扩展阅读:

Python3提取xml文件中的内容

import xml.dom.minidom

def find_child(Par_nodes, mystr):
  for child_node in Par_nodes:
    if(len(child_node.childNodes) > 0):
      mystr = find_child(child_node.childNodes, mystr)
    elif(child_node.nodeValue != None):
      mystr += child_node.data.replace('\n', '')
  return mystr

if __name__ == '__main__':

  dom1 = xml.dom.minidom.parse('2.XML') #打开xml文件
  root = dom1.documentElement     #得到文档元素对象
  app_nums = root.getElementsByTagName('base:DocNumber') #按标签名称查找,返回标签结点数组
  app_num = app_nums[2]
  print('专利申请号:'+app_num.firstChild.data)
  titles = root.getElementsByTagName('business:InventionTitle')
  title = titles[0]
  print('专利名称:'+title.firstChild.data)
  Paragraphs = root.getElementsByTagName('base:Paragraphs')
  abstract = Paragraphs[0]
  print('专利摘要:'+abstract.firstChild.data)
  company_names = root.getElementsByTagName('base:Name')
  company_name = company_names[0]
  print('公司名称:'+company_name.firstChild.data)
  mystr = ''
  for i in range(len(Paragraphs)):
    if (Paragraphs[i].firstChild.data == '发明内容\n\t'):
      i+=1
      while Paragraphs[i].firstChild.data != '附图说明\n\t':
        mystr = find_child(Paragraphs[i].childNodes, mystr)
        i+=1

  print('发明内容:' + mystr)

以上就是本次介绍的全部实例代码知识点,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
python实现图片变亮或者变暗的方法
Jun 01 Python
整理Python 常用string函数(收藏)
May 30 Python
Python数字图像处理之霍夫线变换实现详解
Jan 12 Python
一些Centos Python 生产环境的部署命令(推荐)
May 07 Python
Python Matplotlib实现三维数据的散点图绘制
Mar 19 Python
Python3中configparser模块读写ini文件并解析配置的用法详解
Feb 18 Python
python可迭代对象去重实例
May 15 Python
Python字符串格式化常用手段及注意事项
Jun 17 Python
详解用python -m http.server搭一个简易的本地局域网
Sep 24 Python
Python实现异步IO的示例
Nov 05 Python
使用Python爬虫爬取小红书完完整整的全过程
Jan 19 Python
django注册用邮箱发送验证码的实现
Apr 18 Python
python yield关键词案例测试
Oct 15 #Python
python 发送json数据操作实例分析
Oct 15 #Python
30秒学会30个超实用Python代码片段【收藏版】
Oct 15 #Python
PYTHON绘制雷达图代码实例
Oct 15 #Python
利用Python产生加密表和解密表的实现方法
Oct 15 #Python
python多线程并发及测试框架案例
Oct 15 #Python
浅析PEP570新语法: 只接受位置参数
Oct 15 #Python
You might like
php set_time_limit()函数的使用详解
2013/06/05 PHP
php类自动加载器实现方法
2015/07/28 PHP
PHP生成随机密码方法汇总
2015/08/27 PHP
基于thinkPHP类的插入数据库操作功能示例
2017/01/06 PHP
ThinkPHP框架实现的微信支付接口开发完整示例
2019/04/10 PHP
解决php extension 加载顺序问题
2019/08/16 PHP
跟着Jquery API学Jquery之一 选择器
2010/04/07 Javascript
改变隐藏的input中value值的方法
2014/03/19 Javascript
浅谈jQuery中对象遍历.eq().first().last().slice()方法
2014/11/26 Javascript
简单对比分析JavaScript中的apply,call与this的使用
2015/12/04 Javascript
轻松实现JavaScript图片切换
2016/01/12 Javascript
Angular 页面跳转时传参问题
2016/08/01 Javascript
jquery 判断selection range 是否在容器中的简单实例
2016/08/02 Javascript
jquery radio的取值_radio的选中_radio的重置方法
2016/09/20 Javascript
基于对象合并功能的实现示例
2017/10/10 Javascript
JavaScript的数据类型转换原则(干货)
2018/03/15 Javascript
详解Nodejs mongoose
2018/06/10 NodeJs
js代码规范之Eslint安装与配置详解
2018/09/08 Javascript
详解vue后台系统登录态管理
2019/04/02 Javascript
js实现纯前端压缩图片
2020/11/16 Javascript
python的tkinter布局之简单的聊天窗口实现方法
2014/09/03 Python
Python实现生成简单的Makefile文件代码示例
2015/03/10 Python
python对html代码进行escape编码的方法
2015/05/04 Python
Pandas 对Dataframe结构排序的实现方法
2018/04/10 Python
Python实现去除列表中重复元素的方法小结【4种方法】
2018/04/27 Python
Python3使用SMTP发送带附件邮件
2020/06/16 Python
Python numpy.zero() 初始化矩阵实例
2019/11/27 Python
Python如何安装第三方模块
2020/05/28 Python
英国在线房屋中介网站:Yopa
2018/01/09 全球购物
用C或者C++语言实现SOCKET通信
2015/02/24 面试题
工程管理造价应届生求职信
2013/11/13 职场文书
质量保证书范本
2014/04/29 职场文书
2014年施工员工作总结
2014/11/18 职场文书
客房领班岗位职责
2015/02/11 职场文书
质量承诺书格式范文
2015/04/28 职场文书
写好求职信的技巧解密
2019/05/14 职场文书