Python使用scrapy抓取网站sitemap信息的方法


Posted in Python onApril 08, 2015

本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下:

import re
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.utils.response import body_or_str
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
class SitemapSpider(BaseSpider):
 name = "SitemapSpider"
 start_urls = ["http://www.domain.com/sitemap.xml"]
 def parse(self, response):
  nodename = 'loc'
  text = body_or_str(response)
  r = re.compile(r"(<%s[\s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)
  for match in r.finditer(text):
   url = match.group(2)
   yield Request(url, callback=self.parse_page)
 def parse_page(self, response):
    hxs = HtmlXPathSelector(response)
    #Mock Item
  blah = Item()
  #Do all your page parsing and selecting the elemtents you want
    blash.divText = hxs.select('//div/text()').extract()[0]
  yield blah

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python实现FTP服务器服务的方法
Apr 11 Python
Python基于贪心算法解决背包问题示例
Nov 27 Python
python的debug实用工具 pdb详解
Jul 12 Python
pytorch实现用Resnet提取特征并保存为txt文件的方法
Aug 20 Python
Python算法中的时间复杂度问题
Nov 19 Python
Python super()方法原理详解
Mar 31 Python
Python3.7下安装pyqt5的方法步骤(图文)
May 12 Python
Anaconda+vscode+pytorch环境搭建过程详解
May 25 Python
如何学习Python time模块
Jun 03 Python
python实现手机推送 代码也就10行左右
Apr 12 Python
5个pandas调用函数的方法让数据处理更加灵活自如
Apr 24 Python
numpy array找出符合条件的数并赋值的示例代码
Jun 01 Python
Python中用format函数格式化字符串的用法
Apr 08 #Python
简单介绍Python中的JSON模块
Apr 08 #Python
Python实现把xml或xsl转换为html格式
Apr 08 #Python
Python正则表达式匹配HTML页面编码
Apr 08 #Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
You might like
星际实力自我测试
2020/03/04 星际争霸
第八节 访问方式 [8]
2006/10/09 PHP
解密ThinkPHP3.1.2版本之模块和操作映射
2014/06/19 PHP
php基于表单密码验证与HTTP验证用法实例
2015/01/06 PHP
PHP实现C#山寨ArrayList的方法
2015/07/16 PHP
fireworks菜单生成器mm_menu.js在 IE 7.0 显示问题的解决方法
2009/10/20 Javascript
图片img的src不变让浏览器重新加载实现方法
2013/03/29 Javascript
jQuery表单获取和失去焦点输入框提示效果的实例代码
2013/08/01 Javascript
Javascript字符串对象的常用方法简明版
2014/06/26 Javascript
JavaScript控制listbox列表框的项目上下移动的方法
2015/03/18 Javascript
jquery实现漫天雪花飞舞的圣诞祝福雪花效果代码分享
2015/08/20 Javascript
基于JavaScript怎么实现让歌词滚动播放
2015/11/03 Javascript
jquery实现网站列表切换效果的2种方法
2016/08/12 Javascript
JavaScript实现大图轮播效果
2017/01/11 Javascript
JQuery validate 验证一个单独的表单元素实例
2017/02/17 Javascript
js按条件生成随机json:randomjson实现方法
2017/04/07 Javascript
webpack源码之loader机制详解
2018/04/06 Javascript
详解如何搭建mpvue框架搭配vant组件库的小程序项目
2019/05/16 Javascript
JavaScript键盘事件响应顺序详解
2019/09/30 Javascript
JavaScript实现浏览器网页自动滚动并点击的示例代码
2020/12/05 Javascript
python实现k均值算法示例(k均值聚类算法)
2014/03/16 Python
详解python发送各类邮件的主要方法
2016/12/22 Python
Python使用Selenium+BeautifulSoup爬取淘宝搜索页
2018/02/24 Python
python 分离文件名和路径以及分离文件名和后缀的方法
2018/10/21 Python
python画图的函数用法以及技巧
2019/06/28 Python
python爬虫开发之使用Python爬虫库requests多线程抓取猫眼电影TOP100实例
2020/03/10 Python
浅谈keras中Dropout在预测过程中是否仍要起作用
2020/07/09 Python
详解python使用金山词霸的翻译功能(调试工具断点的使用)
2021/01/07 Python
recorder.js 基于Html5录音功能的实现
2020/05/26 HTML / CSS
Gloeilampgoedkoop荷兰:在线购买灯泡
2019/02/16 全球购物
惠而浦美国官网:Whirlpool.com
2021/01/19 全球购物
思想汇报格式
2014/01/05 职场文书
打架检讨书800字
2014/01/10 职场文书
小学语文国培感言
2014/03/04 职场文书
介绍信样本
2015/01/31 职场文书
Python FuzzyWuzzy实现模糊匹配
2022/04/28 Python