python实现scrapy爬虫每天定时抓取数据的示例代码


Posted in Python onJanuary 27, 2021

1. 前言。

1.1. 需求背景。

  •  每天抓取的是同一份商品的数据,用来做趋势分析。
  • 要求每天都需要抓一份,也仅限抓取一份数据。
  • 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量有关,一般情况下在20小时左右,极少情况下会超过24小时。

1.2. 实现功能。

通过以下三步,保证爬虫能自动隔天抓取数据:
每天凌晨00:01启动监控脚本,监控爬虫的运行状态,一旦爬虫进入空闲状态,启动爬虫。

一旦爬虫执行完毕,自动退出脚本,结束今天的任务。

一旦脚本距离启动时间超过24小时,自动退出脚本,等待第二天的监控脚本启动,重复这三步。

2. 环境。

python 3.6.1

系统:win7

IDE:pycharm

安装过scrapy

3. 设计思路。

3.1. 前提:

目前爬虫是通过scrapy模块自带的cmdline.execute来启动的。

from scrapy import cmdline
cmdline.execute('scrapy crawl mySpider'.split())

3.2. 将自动执行脚本做到scrapy爬虫的外部

(1)每天凌晨00:01启动脚本(控制脚本的存活时间为24小时),监测爬虫的运行状态(需要用一个标记信息来表示爬虫的状态:运行还是停止)。

  • 如果爬虫处于运行状态(前一天爬取数据尚未结束),进入第(2)步;
  • 如果爬虫处于非运行状态(前一天的爬取任务已完成,今天的尚未开始),进入第(3)步;

(2)脚本进入等待阶段,每隔10分钟,检查一下爬虫的运行状态,如(1)。但是一旦发现,脚本的等待时间超过了24小时,则自动退出脚本,因为第二天的监测脚本已经开始运行了,接替了它的任务。

(3)做一些爬虫启动前的准备工作(删除用来续爬的文件,防止爬虫不运行了),启动爬虫爬取数据,待爬虫正常结束后,退出脚本,完成当天的爬取任务。

4. 准备工作。

4.1. 标记爬虫的运行状态。

通过判断文件是否存在的方式来判断爬虫是否处于运行状态:

  • 在爬虫启动时,创建一个isRunning.txt文件。
  • 在爬虫结束时,删除这个isRunning.txt文件。

那么isRunning.txt存在,就说明爬虫正在运行;文件不存在,就说明爬虫不在运行。

# 文件pipelines.py
# 爬虫启动时
checkFile = "isRunning.txt"
class myPipeline:
  def open_spider(self, spider):
    self.client = MongoClient('localhost:27017') # 连接Mongodb
    self.db = self.client['mydata']        # 待存储数据的数据库mydata
    f = open(checkFile, "w")     # 创建一个文件,代表爬虫在运行中
    f.close()
# 文件pipelines.py
# 爬虫正常结束时
checkFile = "isRunning.txt"
class myPipeline:
  def close_spider(self, spider):
    self.client.close()
    isFileExsit = os.path.isfile(checkFile)
    if isFileExsit:
      os.remove(checkFile)

4.2. 爬虫支持续爬,能随时暂停,方便调试。

# 在scrapy项目中添加start.py文件,用于启动爬虫
from scrapy import cmdline
# 在爬虫运行过程中,会自动将状态信息存储在crawls/storeMyRequest目录下,支持续爬
cmdline.execute('scrapy crawl mySpider -s JOBDIR=crawls/storeMyRequest'.split())
# Note:若想支持续爬,在ctrl+c终止爬虫时,只能按一次,爬虫在终止时需要进行善后工作,切勿连续多次按ctrl+c

python实现scrapy爬虫每天定时抓取数据的示例代码

4.3. Log按照每天的日期命名,方便查看和调试

设置Log等级:

# 文件mySpider.py
class mySpider(CrawlSpider):
  name = "mySpider"
  allowed_domains = ['http://photo.poco.cn/']
  custom_settings = {
    'LOG_LEVEL':'INFO', # 减少Log输出量,仅保留必要的信息
    # ...... 在爬虫内部用custom_setting可以让这个配置信息仅对这一个爬虫生效
  }

以日期为Log文件命名

# 文件settings.py
import datetime
BOT_NAME = 'mySpider'
ROBOTSTXT_OBEY = False
startDate = datetime.datetime.now().strftime('%Y%m%d')
LOG_FILE=f"mySpiderlog{startDate}.txt"

4.4. 为数据按日期存储到不同的表(mongodb的集合)中

# 文件pipelines.py
import datetime
GALANCE=f'galance{datetime.datetime.now().strftime("%Y%m%d")}' # 表名
class myPipeline:
  def open_spider(self, spider):
    self.client = MongoClient('localhost:27017') # 连接Mongodb
    self.db = self.client['mydata']        # 待存储数据的数据库mydata
self.db[GALANCE].insert(dict(item))

python实现scrapy爬虫每天定时抓取数据的示例代码

4.5. 编写批处理文件启动爬虫

# 文件run.bat
cd /d F:/newClawer20170831/mySpider
call python main.py
pause

python实现scrapy爬虫每天定时抓取数据的示例代码

5. 实现代码

5.1. 编写python脚本

# 文件timerStartDaily.py
from scrapy import cmdline
import datetime
import time
import shutil
import os

recoderDir = r"crawls"  # 这是为了爬虫能够续爬而创建的目录,存储续爬需要的数据
checkFile = "isRunning.txt" # 爬虫是否在运行的标志

startTime = datetime.datetime.now()
print(f"startTime = {startTime}")

i = 0
miniter = 0
while True:
  isRunning = os.path.isfile(checkFile)
  if not isRunning:            # 爬虫不在执行,开始启动爬虫
    # 在爬虫启动之前处理一些事情,清掉JOBDIR = crawls
    isExsit = os.path.isdir(recoderDir) # 检查JOBDIR目录crawls是否存在
    print(f"mySpider not running, ready to start. isExsit:{isExsit}")
    if isExsit:
      removeRes = shutil.rmtree(recoderDir) # 删除续爬目录crawls及目录下所有文件
      print(f"At time:{datetime.datetime.now()}, delete res:{removeRes}")
    else:
      print(f"At time:{datetime.datetime.now()}, Dir:{recoderDir} is not exsit.")
    time.sleep(20)
    clawerTime = datetime.datetime.now()
    waitTime = clawerTime - startTime
    print(f"At time:{clawerTime}, start clawer: mySpider !!!, waitTime:{waitTime}")
    cmdline.execute('scrapy crawl mySpider -s JOBDIR=crawls/storeMyRequest'.split())
    break #爬虫结束之后,退出脚本
  else:
    print(f"At time:{datetime.datetime.now()}, mySpider is running, sleep to wait.")
  i += 1
  time.sleep(600)    # 每10分钟检查一次
  miniter += 10
  if miniter >= 1440:  # 等待满24小时,自动退出监控脚本
    break

5.2. 编写bat批处理文件

# 文件runTimerRunDaily.bat
cd /d F:/newClawer20170831/mySpider
call python timerStartDaily.py
pause

6. 部署。

6.1. 添加计划任务。

参考以下这篇博客部署windows计划任务:

有关windows计划任务相关设置的详细说明如下:

https://technet.microsoft.com/zh-cn/library/cc722178.aspx

6.2. 注意事项。

(1)在添加计划任务时,要按照如下图进行勾选(只在用户登录时运行),才能弹出下面的cmd任务界面,方便观察和调试。

python实现scrapy爬虫每天定时抓取数据的示例代码 

python实现scrapy爬虫每天定时抓取数据的示例代码

(2)由于爬虫运行时间很长,如果按照默认设置,在凌晨运行实例时,上一次启动尚未结束,会导致这次启动失败,所以要更改默认设置为(如果此任务已经运行:并行运行新实例。保护机制在于每个启动脚本在等待24小时候会自动退出,来保证不会重复启动)。

python实现scrapy爬虫每天定时抓取数据的示例代码

(3)如果想支持续传,只能按一次 ctrl + c 来停止爬虫运行。因为终止爬虫时,爬虫需要做一些善后工作,如果连续按多次ctrl + c来停止爬虫,爬虫将来不及善后,会导致无法续爬。 6.3. 效果展示。

正常执行完成:

python实现scrapy爬虫每天定时抓取数据的示例代码

正在执行中:

python实现scrapy爬虫每天定时抓取数据的示例代码

到此这篇关于python实现scrapy爬虫每天定时抓取数据的示例代码的文章就介绍到这了,更多相关python scrapy定时抓取内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python魔术方法详解
Feb 14 Python
Python socket编程实例详解
May 27 Python
结合Python的SimpleHTTPServer源码来解析socket通信
Jun 27 Python
实现python版本的按任意键继续/退出
Sep 26 Python
详解Python 数据库 (sqlite3)应用
Dec 07 Python
Python Socket传输文件示例
Jan 16 Python
Django 外键的使用方法详解
Jul 19 Python
Django 源码WSGI剖析过程详解
Aug 05 Python
解决Pycharm的项目目录突然消失的问题
Jan 20 Python
python爬虫开发之PyQuery模块详细使用方法与实例全解
Mar 09 Python
基于TensorFlow的CNN实现Mnist手写数字识别
Jun 17 Python
pandas中关于apply+lambda的应用
Feb 28 Python
使用bandit对目标python代码进行安全函数扫描的案例分析
Jan 27 #Python
用Python实现定时备份Mongodb数据并上传到FTP服务器
Jan 27 #Python
python re.match()用法相关示例
Jan 27 #Python
selenium+python实现基本自动化测试的示例代码
Jan 27 #Python
Python开发.exe小工具的详细步骤
Jan 27 #Python
Python中正则表达式对单个字符,多个字符和匹配边界等使用
Jan 27 #Python
python正则表达式re.match()匹配多个字符方法的实现
Jan 27 #Python
You might like
239军机修复记
2021/03/02 无线电
PHP数组操作汇总 php数组的使用技巧
2011/07/17 PHP
php获得用户ip地址的比较不错的方法
2014/02/08 PHP
destoon找回管理员密码的方法
2014/06/21 PHP
PHP Reflection API详解
2015/05/12 PHP
PHP实现的AES加密、解密封装类与用法示例
2018/08/02 PHP
PHP验证类的封装与使用方法详解
2019/01/10 PHP
jquery 可排列的表实现代码
2009/11/13 Javascript
javascript 文章截取部分无损html显示实现代码
2010/05/04 Javascript
Jquery多选框互相内容交换的实例代码
2013/07/04 Javascript
把文本中的URL地址转换为可点击链接的JavaScript、PHP自定义函数
2014/07/29 Javascript
IE浏览器IFrame对象内存不释放问题解决方法
2014/08/22 Javascript
jQuery中:selected选择器用法实例
2015/01/04 Javascript
JavaScript实现数字数组按照倒序排列的方法
2015/04/06 Javascript
基于insertBefore制作简单的循环插空效果
2015/09/21 Javascript
js获取时间精确到秒(年月日)
2016/03/16 Javascript
jQuery 实现评论等级好评差评特效
2016/05/06 Javascript
jQuery 常见小例汇总
2016/12/14 Javascript
React Native模块之Permissions权限申请的实例相机
2017/09/28 Javascript
js动态添加表格逐行添加、删除、遍历取值的实例代码
2018/01/25 Javascript
js实现随机抽奖
2020/03/19 Javascript
JQuery使用数组遍历跳出each循环
2020/09/01 jQuery
原生js实现照片墙效果
2020/10/13 Javascript
python队列Queue的详解
2019/05/10 Python
Office DEPOT法国官网:欧迪办公用品采购
2018/01/03 全球购物
轻松制作精彩视频:Animoto
2018/09/19 全球购物
学校宣传标语
2014/06/18 职场文书
幼儿园秋季开学寄语
2014/08/02 职场文书
2014年林业工作总结
2014/12/05 职场文书
2014年社区卫生工作总结
2014/12/18 职场文书
2014年英语工作总结
2014/12/20 职场文书
全国爱牙日活动总结
2015/02/05 职场文书
世界卫生日宣传活动总结
2015/02/09 职场文书
如何计划开一家便利店?
2019/07/31 职场文书
Java中的随机数Random
2022/03/17 Java/Android
微信小程序APP的生命周期及页面的生命周期
2022/04/19 Javascript