利用Python3分析sitemap.xml并抓取导出全站链接详解


Posted in Python onJuly 04, 2017

前言

最近网站从HTTPS转为HTTP,更换了网址,旧网址做了301重定向,折腾有点大,于是在百度站长平台提交网址,不管是主动推送还是手动提交,前提都是要整理网站的链接,手动添加太麻烦,效率低,于是就想写个脚本直接抓取全站链接并导出,本文就和大家一起分享如何使用python3实现抓取链接导出。

利用Python3分析sitemap.xml并抓取导出全站链接详解

首先网站要有网站地图sitemap.xml文件地址,其次我这里用的是python3版本,如果你的环境是python2,需要对代码进行调整,因为python2和python3很多地方差别还是挺大的。

下面是python 3代码,将里面的链接地址换成你自己的网址即可:

#coding=utf-8
import urllib
import urllib.request import re
url='http://www.ranzhi.org/sitemap.xml'
html=urllib.request.urlopen(url).read()
html=html.decode('utf-8')
r=re.compile(r'(http://www.ranzhi.org.*?\.html)')
big=re.findall(r,html)
for i in big:
 print(i)
 op_xml_txt=open('xml.txt','a')
 op_xml_txt.write('%s\n'%i)

我们能来看一下运行结果:

利用Python3分析sitemap.xml并抓取导出全站链接详解

导出TXT格式文件后,再在百度站长平台手动提交就方便的多了。当然我们也可以使用更快的主动推送方式,因为我的网站是用PHP+mysql开发的,所以我们这里使用PHP脚本将上面抓取的链接再处理下,然后主动推送给百度,一遍加快爬虫抓取时间。

利用Python3分析sitemap.xml并抓取导出全站链接详解

上面1是你的站点的主动推送API,这个可以在百度站长平台获取;2是要主动推送的网站地址,这里就可以用到我们上面抓取的全站链接了。将链接地址整理放到该数组中,运行一下个这个PHP脚本,就可以了。一键提交,及高效便捷,又能缩短爬虫爬去时间,有助于网站页面收录。

我们在平时的SEO或服务器运维工作中,时常会将重复工作自动化,复杂工作间变化,有助于提升效率,如果大家在操作过充中有何问题可以一起分享交流讨论。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
python使用wmi模块获取windows下硬盘信息的方法
May 15 Python
Python字符串、元组、列表、字典互相转换的方法
Jan 23 Python
Django返回json数据用法示例
Sep 18 Python
详解tensorflow训练自己的数据集实现CNN图像分类
Feb 07 Python
python+pyqt5编写md5生成器
Mar 18 Python
Python Pandas 转换unix时间戳方式
Dec 07 Python
python传到前端的数据,双引号被转义的问题
Apr 03 Python
解决jupyter notebook显示不全出现框框或者乱码问题
Apr 09 Python
详解Python 中的容器 collections
Aug 17 Python
django使用graphql的实例
Sep 02 Python
Vs Code中8个好用的python 扩展插件
Oct 12 Python
秀!学妹看见都惊呆的Python小招数!【详细语言特性使用技巧】
Apr 27 Python
在django中使用自定义标签实现分页功能
Jul 04 #Python
详解django中自定义标签和过滤器
Jul 03 #Python
pygame实现弹力球及其变速效果
Jul 03 #Python
[原创]使用豆瓣提供的国内pypi源
Jul 02 #Python
python中安装Scrapy模块依赖包汇总
Jul 02 #Python
Python使用filetype精确判断文件类型
Jul 02 #Python
使用python实现tcp自动重连
Jul 02 #Python
You might like
PHP中基于ts与nts版本- vc6和vc9编译版本的区别详解
2013/04/26 PHP
IIS+fastcgi下PHP运行超时问题的解决办法详解
2013/06/20 PHP
php调用Google translate_tts api实现代码
2013/08/07 PHP
CI框架开发新浪微博登录接口源码完整版
2014/05/28 PHP
CI框架中site_url()和base_url()的区别
2015/01/07 PHP
最新优化收藏到网摘代码(digg,diigo)
2007/02/07 Javascript
Array.prototype.slice 使用扩展
2010/06/09 Javascript
js倒计时小程序
2013/11/05 Javascript
JS获得浏览器版本和操作系统版本的例子
2014/05/13 Javascript
基于jquery实现最简单的选项卡切换效果
2016/05/08 Javascript
JS跨域请求外部服务器的资源
2017/02/06 Javascript
javascript表达式和运算符详解
2017/02/07 Javascript
ES6新特性三: Generator(生成器)函数详解
2017/04/21 Javascript
JS解析url查询参数的简单代码
2017/08/06 Javascript
Vue中Axios从远程/后台读取数据
2019/01/21 Javascript
浅谈MySQL中的触发器
2015/05/05 Python
Django验证码的生成与使用示例
2017/05/20 Python
利用django如何解析用户上传的excel文件
2017/07/24 Python
python中的迭代和可迭代对象代码示例
2017/12/27 Python
Python装饰器用法实例总结
2018/02/07 Python
对numpy和pandas中数组的合并和拆分详解
2018/04/11 Python
python实现指定文件夹下的指定文件移动到指定位置
2018/09/17 Python
对Python3.x版本print函数左右对齐详解
2018/12/22 Python
set在python里的含义和用法
2019/06/24 Python
pandas的排序和排名的具体使用
2019/07/31 Python
在Django中实现添加user到group并查看
2019/11/18 Python
python如何获得list或numpy数组中最大元素对应的索引
2020/11/16 Python
Fossil美国官网:Fossil手表、手袋、珠宝及配件
2017/02/01 全球购物
高尔夫球鞋、服装、手套和装备:FootJoy
2018/12/15 全球购物
学生保证书范文
2014/04/28 职场文书
2014党员整改措施思想汇报
2014/10/07 职场文书
政风行风自查自纠报告
2014/10/21 职场文书
违纪检讨书范文
2015/01/27 职场文书
预备党员入党感想
2015/08/10 职场文书
创业计划书之香辣虾火锅
2019/09/23 职场文书
利用javaScript处理常用事件详解
2021/04/14 Javascript