Python使用scrapy抓取网站sitemap信息的方法


Posted in Python onApril 08, 2015

本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下:

import re
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.utils.response import body_or_str
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
class SitemapSpider(BaseSpider):
 name = "SitemapSpider"
 start_urls = ["http://www.domain.com/sitemap.xml"]
 def parse(self, response):
  nodename = 'loc'
  text = body_or_str(response)
  r = re.compile(r"(<%s[\s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)
  for match in r.finditer(text):
   url = match.group(2)
   yield Request(url, callback=self.parse_page)
 def parse_page(self, response):
    hxs = HtmlXPathSelector(response)
    #Mock Item
  blah = Item()
  #Do all your page parsing and selecting the elemtents you want
    blash.divText = hxs.select('//div/text()').extract()[0]
  yield blah

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python连接MySQL、MongoDB、Redis、memcache等数据库的方法
Nov 15 Python
python应用程序在windows下不出现cmd窗口的办法
May 29 Python
进一步理解Python中的函数编程
Apr 13 Python
pymongo给mongodb创建索引的简单实现方法
May 06 Python
Python只用40行代码编写的计算器实例
May 10 Python
python机器人行走步数问题的解决
Jan 29 Python
python编程嵌套函数实例代码
Feb 11 Python
Python实现查找字符串数组最长公共前缀示例
Mar 27 Python
python 自定义装饰器实例详解
Jul 20 Python
Python 导入文件过程图解
Oct 15 Python
Win10里python3创建虚拟环境的步骤
Jan 31 Python
详解scrapy内置中间件的顺序
Sep 28 Python
Python中用format函数格式化字符串的用法
Apr 08 #Python
简单介绍Python中的JSON模块
Apr 08 #Python
Python实现把xml或xsl转换为html格式
Apr 08 #Python
Python正则表达式匹配HTML页面编码
Apr 08 #Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
You might like
php 文件缓存函数
2011/10/08 PHP
PHP+FastCGI+Nginx配置PHP运行环境
2014/08/07 PHP
php设计模式之状态模式实例分析【星际争霸游戏案例】
2020/03/26 PHP
JavaScript 学习笔记(九)call和apply方法
2010/01/11 Javascript
网页前台通过js非法字符过滤代码(骂人的话等等)
2010/05/26 Javascript
javascript获取作用在元素上面的样式属性代码
2012/09/20 Javascript
jquery对ajax的支持介绍
2013/12/10 Javascript
jquery序列化表单去除指定元素示例代码
2014/04/10 Javascript
浅谈javascript的Touch事件
2015/09/27 Javascript
基于Bootstrap使用jQuery实现输入框组input-group的添加与删除
2016/05/03 Javascript
Knockoutjs 学习系列(二)花式捆绑
2016/06/07 Javascript
如何解决vue与传统jquery插件冲突
2017/03/20 Javascript
使用Bootstrap和Vue实现用户信息的编辑删除功能
2017/10/25 Javascript
vue-star评星组件开发实例
2018/03/01 Javascript
基于nodejs的雪碧图制作工具的示例代码
2018/11/05 NodeJs
[55:44]完美世界DOTA2联赛决赛 FTD vs Phoenix 第二场 11.08
2020/11/11 DOTA
python实现获取序列中最小的几个元素
2014/09/25 Python
Python中unittest模块做UT(单元测试)使用实例
2015/06/12 Python
python进阶_浅谈面向对象进阶
2017/08/17 Python
python使用turtle库与random库绘制雪花
2018/06/22 Python
Python里字典的基本用法(包括嵌套字典)
2019/02/27 Python
Python字典遍历操作实例小结
2019/03/05 Python
Python3.5内置模块之time与datetime模块用法实例分析
2019/04/27 Python
Python使用python-docx读写word文档
2019/08/26 Python
Pytorch 中retain_graph的用法详解
2020/01/07 Python
如何在Anaconda中打开python自带idle
2020/09/21 Python
CSS3 box-sizing属性
2009/04/17 HTML / CSS
英国网上购买门:Direct Doors
2018/06/07 全球购物
集世界奢侈品和设计师品牌的意大利精品买手店:Tessabit
2019/08/17 全球购物
Street One瑞士:德国现代时装公司
2019/10/09 全球购物
小学教师管理制度
2014/01/18 职场文书
中学教师师德承诺书
2014/05/23 职场文书
月度优秀员工获奖感言
2014/08/16 职场文书
颐和园导游词
2015/01/30 职场文书
校运会宣传稿大全
2015/07/23 职场文书
JavaScript流程控制(循环)
2021/12/06 Javascript