python网络爬虫 CrawlSpider使用详解


Posted in Python onSeptember 27, 2019

CrawlSpider

  • 作用:用于进行全站数据爬取
  • CrawlSpider就是Spider的一个子类
  • 如何新建一个基于CrawlSpider的爬虫文件
    • scrapy genspider -t crawl xxx www.xxx.com
  • 例:choutiPro

LinkExtractor连接提取器:根据指定规则(正则)进行连接的提取

Rule规则解析器:将连接提取器提取到的连接进行请求发送,然后对获取的页面进行指定规则【callback】的解析

一个链接提取器对应唯一一个规则解析器

例:crawlspider深度(全栈)爬取【sunlinecrawl例】

分布式(通常用不到,爬取数据量级巨大、时间少时用分布式)

概念:可将一组程序执行在多态机器上(分布式机群),使其进行数据的分布爬取

原生的scrapy框架是否可以实现分布式?

不能

抽屉

# spider文件

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class ChoutiSpider(CrawlSpider):
  name = 'chouti'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['https://dig.chouti.com/1']

  # 连接提取器:从起始url对应的页面中提取符合规则的所有连接;allow=正则表达式
  # 正则为空的话,提取页面中所有连接
  link = LinkExtractor(allow=r'\d+')
  rules = (
    # 规则解析器:将连接提取器提取到的连接对应的页面源码进行指定规则的解析
    # Rule自动发送对应链接的请求
    Rule(link, callback='parse_item', follow=True),
    # follow:True 将连接提取器 继续 作用到 连接提取器提取出来的连接 对应的页面源码中
  )
  def parse_item(self, response):
    item = {}
    #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
    #item['name'] = response.xpath('//div[@id="name"]').get()
    #item['description'] = response.xpath('//div[@id="description"]').get()
    return item

阳光热线网

# 1.spider文件
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from sunLineCrawl.items import SunlinecrawlItem,ContentItem
class SunSpider(CrawlSpider):
  name = 'sun'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['http://wz.sun0769.com/index.php/question/questionType?type=4&page=']

  link = LinkExtractor(allow=r'type=4&page=\d+') # 提取页码连接
  link1 = LinkExtractor(allow=r'question/2019\d+/\d+\.shtml') # 提取详情页连接
  rules = (
    Rule(link, callback='parse_item', follow=False),
    Rule(link1, callback='parse_detail'),
  )
  # 解析出标题和网友名称数据
  def parse_item(self, response):
    tr_list = response.xpath('//*[@id="morelist"]/div/table[2]//tr/td/table//tr')
    for tr in tr_list:
      title = tr.xpath('./td[2]/a[2]/text()').extract_first()
      net_friend = tr.xpath('./td[4]/text()').extract_first()
      item = SunlinecrawlItem()
      item['title'] = title
      item['net_friend'] = net_friend

      yield item

  # 解析出新闻的内容
  def parse_detail(self,response):
    content = response.xpath('/html/body/div[9]/table[2]//tr[1]/td/div[2]//text()').extract()
    content = ''.join(content)
    item = ContentItem()
    item['content'] = content

    yield item
--------------------------------------------------------------------------------
# 2.items文件

import scrapy

class SunlinecrawlItem(scrapy.Item):
  title = scrapy.Field()
  net_friend = scrapy.Field()

class ContentItem(scrapy.Item):
  content = scrapy.Field()
--------------------------------------------------------------------------------
# 3.pipelines文件

class SunlinecrawlPipeline(object):
  def process_item(self, item, spider):
    # 确定接受到的item是什么类型(Content/Sunlinecrawl)
    if item.__class__.__name__ == 'SunlinecrawlItem':
      print(item['title'],item['net_friend'])

    else:
      print(item['content'])

    return item
--------------------------------------------------------------------------------
# 4.setting文件

BOT_NAME = 'sunLineCrawl'

SPIDER_MODULES = ['sunLineCrawl.spiders']
NEWSPIDER_MODULE = 'sunLineCrawl.spiders'

LOG_LEVEL = 'ERROR'

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {
  'sunLineCrawl.pipelines.SunlinecrawlPipeline': 300,
}

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现网站文件的全备份和差异备份
Nov 30 Python
python 远程统计文件代码分享
May 14 Python
python Django模板的使用方法
Jan 14 Python
Python使用Tkinter实现机器人走迷宫
Jan 22 Python
Python 网络爬虫--关于简单的模拟登录实例讲解
Jun 01 Python
python绘制漏斗图步骤详解
Mar 04 Python
python 杀死自身进程的实现方法
Jul 01 Python
Python函数式编程指南:对生成器全面讲解
Nov 19 Python
简单了解python字符串前面加r,u的含义
Dec 26 Python
在Anaconda3下使用清华镜像源安装TensorFlow(CPU版)
Apr 19 Python
Django bulk_create()、update()与数据库事务的效率对比分析
May 15 Python
python实现简单的三子棋游戏
Apr 28 Python
python numpy存取文件的方式
Apr 01 #Python
100行Python代码实现每天不同时间段定时给女友发消息
Sep 27 #Python
使用Fabric自动化部署Django项目的实现
Sep 27 #Python
Win10+GPU版Pytorch1.1安装的安装步骤
Sep 27 #Python
opencv调整图像亮度对比度的示例代码
Sep 27 #Python
详解Django将秒转换为xx天xx时xx分
Sep 27 #Python
pytorch多GPU并行运算的实现
Sep 27 #Python
You might like
PHP符合PSR编程规范的实例分享
2016/12/21 PHP
PHP 观察者模式深入理解与应用分析
2019/09/25 PHP
把JS与CSS写在同一个文件里的书写方法
2007/06/02 Javascript
Javascript 类型转换方法
2010/10/24 Javascript
jQuery+PHP实现动态数字展示特效
2015/03/14 Javascript
基于jQuery实现文本框只能输入数字(小数、整数)
2016/01/14 Javascript
微信小程序 实例开发总结
2017/04/26 Javascript
浅谈React 服务器端渲染的使用
2018/05/08 Javascript
koa socket即时通讯的示例代码
2018/09/07 Javascript
详解小程序开发经验:多页面数据同步
2019/05/18 Javascript
layui文件上传控件带更改后数据传值的方法
2019/09/23 Javascript
Vue通过配置WebSocket并实现群聊功能
2019/12/31 Javascript
在antd4.0中Form使用initialValue操作
2020/11/02 Javascript
解决vue 使用axios.all()方法发起多个请求控制台报错的问题
2020/11/09 Javascript
vue+Element-ui前端实现分页效果
2020/11/15 Javascript
详解Python编程中time模块的使用
2015/11/20 Python
详解python 发送邮件实例代码
2016/12/22 Python
python计算两个矩形框重合百分比的实例
2018/11/07 Python
网易有道2017内推编程题 洗牌(python)
2019/06/19 Python
用python生成(动态彩色)二维码的方法(使用myqr库实现)
2019/06/24 Python
Python实现线性判别分析(LDA)的MATLAB方式
2019/12/09 Python
Django Path转换器自定义及正则代码实例
2020/05/29 Python
Python类及获取对象属性方法解析
2020/06/15 Python
python怎么判断模块安装完成
2020/06/19 Python
Lookfantastic台湾:英国彩妆美发保养购物网
2018/03/26 全球购物
美国孩之宝玩具官网:Hasbro Pulse
2019/06/24 全球购物
英国领先的游戏零售商:GAME
2019/09/24 全球购物
The Outnet亚太地区:折扣设计师时装店
2019/12/05 全球购物
Steiff台湾官网:德国金耳釦泰迪熊
2019/12/26 全球购物
飞利浦西班牙官方网站:Philips西班牙
2020/02/17 全球购物
英国顶尖手表珠宝品牌独家授权经销商:HS Johnson
2020/10/28 全球购物
个人简历自我评价
2014/02/02 职场文书
文明美德伴我成长演讲稿
2014/05/12 职场文书
2014组织生活会方案
2014/05/19 职场文书
旅游投诉信范文
2015/07/02 职场文书
我对PyTorch dataloader里的shuffle=True的理解
2021/05/20 Python