python爬虫scrapy框架之增量式爬虫的示例代码


Posted in Python onFebruary 26, 2021

scrapy框架之增量式爬虫

一 、增量式爬虫

什么时候使用增量式爬虫:
增量式爬虫:需求 当我们浏览一些网站会发现,某些网站定时的会在原有的基础上更新一些新的数据。如一些电影网站会实时更新最近热门的电影。那么,当我们在爬虫的过程中遇到这些情况时,我们是不是应该定期的更新程序以爬取到更新的新数据?那么,增量式爬虫就可以帮助我们来实现

二 、增量式爬虫

概念:
通过爬虫程序检测某网站数据更新的情况,这样就能爬取到该网站更新出来的数据

如何进行增量式爬取工作:
在发送请求之前判断这个URL之前是不是爬取过
在解析内容之后判断该内容之前是否爬取过
在写入存储介质时判断内容是不是在该介质中

增量式的核心是 去重
去重的方法:
将爬取过程中产生的URL进行存储,存入到redis中的set中,当下次再爬取的时候,对在存储的URL中的set中进行判断,如果URL存在则不发起请求,否则 就发起请求
对爬取到的网站内容进行唯一的标识,然后将该唯一标识存储到redis的set中,当下次再爬取数据的时候,在进行持久化存储之前,要判断该数据的唯一标识在不在redis中的set中,如果在,则不在进行存储,否则就存储该内容

三、示例

爬虫文件

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from redis import Redis
from increment2_Pro.items import Increment2ProItem
import hashlib
class QiubaiSpider(CrawlSpider):
  name = 'qiubai'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['https://www.qiushibaike.com/text/']

  rules = (
    Rule(LinkExtractor(allow=r'/text/page/\d+/'), callback='parse_item', follow=True),
  )

  def parse_item(self, response):

    div_list = response.xpath('//div[@class="article block untagged mb15 typs_hot"]')
    conn = Redis(host='127.0.0.1',port=6379)
    for div in div_list:
      item = Increment2ProItem()
      item['content'] = div.xpath('.//div[@class="content"]/span//text()').extract()
      item['content'] = ''.join(item['content'])
      item['author'] = div.xpath('./div/a[2]/h2/text() | ./div[1]/span[2]/h2/text()').extract_first()
      
			# 将当前爬取的数据做哈希唯一标识(数据指纹)
      sourse = item['content']+item['author']
      hashvalue = hashlib.sha256(sourse.encode()).hexdigest()

      ex = conn.sadd('qiubai_hash',hashvalue)
      if ex == 1:
        yield item
      else:
        print('没有可更新的数据可爬取')


    # item = {}
    #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
    #item['name'] = response.xpath('//div[@id="name"]').get()
    #item['description'] = response.xpath('//div[@id="description"]').get()
    # return item

管道文件(管道文件也可以不用加)

from redis import Redis
class Increment2ProPipeline(object):
  conn = None
  def open_spider(self,spider):
    self.conn = Redis(host='127.0.0.1',port=6379)
  def process_item(self, item, spider):
    dic = {
      'author':item['author'],
      'content':item['content']
    }
    self.conn.lpush('qiubaiData',dic)
    print('爬取到一条数据,正在入库......')
    return item

到此这篇关于python爬虫之scrapy框架之增量式爬虫的示例代码的文章就介绍到这了,更多相关scrapy增量式爬虫内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python调用shell的方法
Nov 20 Python
使用python装饰器验证配置文件示例
Feb 24 Python
Python实现的监测服务器硬盘使用率脚本分享
Nov 07 Python
Python实现控制台输入密码的方法
May 29 Python
Linux中安装Python的交互式解释器IPython的教程
Jun 13 Python
对numpy中array和asarray的区别详解
Apr 17 Python
Python中的异常处理try/except/finally/raise用法分析
Feb 28 Python
python实现的登录与提交表单数据功能示例
Sep 25 Python
如何理解Python中包的引入
May 29 Python
基于PyTorch实现一个简单的CNN图像分类器
May 29 Python
Python实现仓库管理系统
May 30 Python
Python中tqdm的使用和例子
Sep 23 Python
详解Python openpyxl库的基本应用
Feb 26 #Python
解决python的空格和tab混淆而报错的问题
Feb 26 #Python
Python Spyder 调出缩进对齐线的操作
Feb 26 #Python
使用Python制作一盏 3D 花灯喜迎元宵佳节
Feb 26 #Python
Python plt 利用subplot 实现在一张画布同时画多张图
Feb 26 #Python
Python xlwings插入Excel图片的实现方法
Feb 26 #Python
基于tensorflow __init__、build 和call的使用小结
Feb 26 #Python
You might like
PHP实现HTTP断点续传的方法
2015/06/17 PHP
PHP使用redis实现统计缓存mysql压力的方法
2015/11/14 PHP
PHP读取文件的常见几种方法
2016/11/03 PHP
PHP实现的杨辉三角求解算法分析
2019/03/11 PHP
javascript Discuz代码中的msn聊天小功能
2008/05/25 Javascript
picChange 图片切换特效的函数代码
2010/05/06 Javascript
提取字符串中年月日的函数代码
2013/11/05 Javascript
JavaScript检测字符串中是否含有html标签实现方法
2015/07/01 Javascript
js实现简单的省市县三级联动效果实例
2016/02/18 Javascript
js简单获取表单中单选按钮值的方法
2016/08/23 Javascript
AngularJS $http模块POST请求实现
2017/04/08 Javascript
简单谈谈CommonsChunkPlugin抽取公共模块
2017/12/31 Javascript
详解vue中$nextTick和$forceUpdate的用法
2019/12/11 Javascript
[58:09]Spirit vs NB Supermajor小组赛 A组败者组决赛 BO3 第三场 6.2
2018/06/03 DOTA
Python中操作符重载用法分析
2016/04/29 Python
简单谈谈python的反射机制
2016/06/28 Python
Python中staticmethod和classmethod的作用与区别
2018/10/11 Python
Python3.0中普通方法、类方法和静态方法的比较
2019/05/03 Python
解决Pymongo insert时会自动添加_id的问题
2020/12/05 Python
利用python爬取有道词典的方法
2020/12/08 Python
美国高档帽子网上商店:Hats.com
2018/08/09 全球购物
什么是属性访问器
2015/10/26 面试题
Unix里面如何在后台运行程序
2016/10/14 面试题
学生党支部先进事迹
2014/02/04 职场文书
运动会邀请函范文
2014/02/06 职场文书
大专生毕业的自我评价
2014/02/06 职场文书
医院院务公开实施方案
2014/05/03 职场文书
关于保护环境的建议书
2014/08/26 职场文书
教师节学生演讲稿
2014/09/03 职场文书
2014年机关党委工作总结
2014/12/11 职场文书
给老师的保证书怎么写
2015/05/09 职场文书
辩护词格式
2015/05/22 职场文书
外出学习心得体会范文
2016/01/18 职场文书
MySQL之高可用集群部署及故障切换实现
2021/04/22 MySQL
python 实现两个变量值进行交换的n种操作
2021/06/02 Python
MySQL Shell import_table数据导入的实现
2021/08/07 MySQL