编程 Python

python爬虫scrapy框架之增量式爬虫的示例代码

Posted in Python onFebruary 26, 2021

scrapy框架之增量式爬虫

一、增量式爬虫

什么时候使用增量式爬虫：
增量式爬虫：需求当我们浏览一些网站会发现，某些网站定时的会在原有的基础上更新一些新的数据。如一些电影网站会实时更新最近热门的电影。那么，当我们在爬虫的过程中遇到这些情况时，我们是不是应该定期的更新程序以爬取到更新的新数据？那么，增量式爬虫就可以帮助我们来实现

二、增量式爬虫

概念：
通过爬虫程序检测某网站数据更新的情况，这样就能爬取到该网站更新出来的数据

如何进行增量式爬取工作：
在发送请求之前判断这个URL之前是不是爬取过
在解析内容之后判断该内容之前是否爬取过
在写入存储介质时判断内容是不是在该介质中

增量式的核心是去重
去重的方法：
将爬取过程中产生的URL进行存储，存入到redis中的set中，当下次再爬取的时候，对在存储的URL中的set中进行判断，如果URL存在则不发起请求，否则就发起请求
对爬取到的网站内容进行唯一的标识，然后将该唯一标识存储到redis的set中，当下次再爬取数据的时候，在进行持久化存储之前，要判断该数据的唯一标识在不在redis中的set中，如果在，则不在进行存储，否则就存储该内容

三、示例

爬虫文件

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from redis import Redis
from increment2_Pro.items import Increment2ProItem
import hashlib
class QiubaiSpider(CrawlSpider):
  name = 'qiubai'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['https://www.qiushibaike.com/text/']

  rules = (
    Rule(LinkExtractor(allow=r'/text/page/\d+/'), callback='parse_item', follow=True),
  )

  def parse_item(self, response):

    div_list = response.xpath('//div[@class="article block untagged mb15 typs_hot"]')
    conn = Redis(host='127.0.0.1',port=6379)
    for div in div_list:
      item = Increment2ProItem()
      item['content'] = div.xpath('.//div[@class="content"]/span//text()').extract()
      item['content'] = ''.join(item['content'])
      item['author'] = div.xpath('./div/a[2]/h2/text() | ./div[1]/span[2]/h2/text()').extract_first()
      
			# 将当前爬取的数据做哈希唯一标识(数据指纹)
      sourse = item['content']+item['author']
      hashvalue = hashlib.sha256(sourse.encode()).hexdigest()

      ex = conn.sadd('qiubai_hash',hashvalue)
      if ex == 1:
        yield item
      else:
        print('没有可更新的数据可爬取')


    # item = {}
    #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
    #item['name'] = response.xpath('//div[@id="name"]').get()
    #item['description'] = response.xpath('//div[@id="description"]').get()
    # return item

管道文件（管道文件也可以不用加）

from redis import Redis
class Increment2ProPipeline(object):
  conn = None
  def open_spider(self,spider):
    self.conn = Redis(host='127.0.0.1',port=6379)
  def process_item(self, item, spider):
    dic = {
      'author':item['author'],
      'content':item['content']
    }
    self.conn.lpush('qiubaiData',dic)
    print('爬取到一条数据,正在入库......')
    return item

到此这篇关于python爬虫之scrapy框架之增量式爬虫的示例代码的文章就介绍到这了,更多相关scrapy增量式爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬虫scrapy框架之增量式爬虫的示例代码

- Author -

Aacheng123

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python调用shell的方法

Nov 20 Python

使用python装饰器验证配置文件示例

Feb 24 Python

Python实现的监测服务器硬盘使用率脚本分享

Nov 07 Python

Python实现控制台输入密码的方法

May 29 Python

Linux中安装Python的交互式解释器IPython的教程

Jun 13 Python

对numpy中array和asarray的区别详解

Apr 17 Python

Python中的异常处理try/except/finally/raise用法分析

Feb 28 Python

python实现的登录与提交表单数据功能示例

Sep 25 Python

如何理解Python中包的引入

May 29 Python

基于PyTorch实现一个简单的CNN图像分类器

May 29 Python

Python实现仓库管理系统

May 30 Python

Python中tqdm的使用和例子

Sep 23 Python

详解Python openpyxl库的基本应用

Feb 26 #Python

解决python的空格和tab混淆而报错的问题

Feb 26 #Python

Python Spyder 调出缩进对齐线的操作

Feb 26 #Python

使用Python制作一盏 3D 花灯喜迎元宵佳节

Feb 26 #Python

Python plt 利用subplot 实现在一张画布同时画多张图

Feb 26 #Python

Python xlwings插入Excel图片的实现方法

Feb 26 #Python

基于tensorflow __init__、build 和call的使用小结

Feb 26 #Python

You might like

PHP实现HTTP断点续传的方法

2015/06/17 PHP

PHP使用redis实现统计缓存mysql压力的方法

2015/11/14 PHP

PHP读取文件的常见几种方法

2016/11/03 PHP

PHP实现的杨辉三角求解算法分析

2019/03/11 PHP

javascript Discuz代码中的msn聊天小功能

2008/05/25 Javascript

picChange 图片切换特效的函数代码

2010/05/06 Javascript

提取字符串中年月日的函数代码

2013/11/05 Javascript

JavaScript检测字符串中是否含有html标签实现方法

2015/07/01 Javascript

js实现简单的省市县三级联动效果实例

2016/02/18 Javascript

js简单获取表单中单选按钮值的方法

2016/08/23 Javascript

AngularJS $http模块POST请求实现

2017/04/08 Javascript

简单谈谈CommonsChunkPlugin抽取公共模块

2017/12/31 Javascript

详解vue中$nextTick和$forceUpdate的用法

2019/12/11 Javascript

[58:09]Spirit vs NB Supermajor小组赛 A组败者组决赛 BO3 第三场 6.2

2018/06/03 DOTA

Python中操作符重载用法分析

2016/04/29 Python

简单谈谈python的反射机制

2016/06/28 Python

Python中staticmethod和classmethod的作用与区别

2018/10/11 Python

Python3.0中普通方法、类方法和静态方法的比较

2019/05/03 Python

解决Pymongo insert时会自动添加_id的问题

2020/12/05 Python

利用python爬取有道词典的方法

2020/12/08 Python

美国高档帽子网上商店：Hats.com

2018/08/09 全球购物

什么是属性访问器

2015/10/26 面试题

Unix里面如何在后台运行程序

2016/10/14 面试题

学生党支部先进事迹

2014/02/04 职场文书

运动会邀请函范文

2014/02/06 职场文书

大专生毕业的自我评价

2014/02/06 职场文书

医院院务公开实施方案

2014/05/03 职场文书

关于保护环境的建议书

2014/08/26 职场文书

教师节学生演讲稿

2014/09/03 职场文书

2014年机关党委工作总结

2014/12/11 职场文书

给老师的保证书怎么写

2015/05/09 职场文书

辩护词格式

2015/05/22 职场文书

外出学习心得体会范文

2016/01/18 职场文书

MySQL之高可用集群部署及故障切换实现

2021/04/22 MySQL

python 实现两个变量值进行交换的n种操作

2021/06/02 Python

MySQL Shell import_table数据导入的实现

2021/08/07 MySQL

python爬虫scrapy框架之增量式爬虫的示例代码

一 、增量式爬虫

二 、增量式爬虫

三、示例

一、增量式爬虫

二、增量式爬虫