Python 利用scrapy爬虫通过短短50行代码下载整站短视频


Posted in Python onOctober 29, 2018

近日,有朋友向我求助一件小事儿,他在一个短视频app上看到一个好玩儿的段子,想下载下来,可死活找不到下载的方法。这忙我得帮,少不得就抓包分析了一下这个app,找到了视频的下载链接,帮他解决了这个小问题。

因为这个事儿,勾起了我另一个念头,这不最近一直想把python爬虫方面的知识梳理梳理吗,干脆借机行事,正凑着短视频火热的势头,做一个短视频的爬虫好了,中间用到什么知识就理一理。

我喜欢把事情说得很直白,如果恰好有初入门的朋友想了解爬虫的技术,可以将就看看,或许对你的认识会有提升。如果有高手路过,最好能指点一二,本人不胜感激。

一、撕开爬虫的面纱——爬虫是什么,它能做什么

爬虫是什么

爬虫就是一段能够从互联网上高效获取数据的程序。

我们每天都在从互联网上获取数据。当打开浏览器访问百度的时候,我们就从百度的服务器获取数据,当拿起手机在线听歌的时候,我们就从某个app的服务器上获取数据。简单的归纳,这些过程都可以描述为:我们提交一个Request请求,服务器会返回一个Response数据,应用根据Response来渲染页面,给我们展示数据结果。

爬虫最核心的也是这个过程,提交Requests——〉接受Response。就这样,很简单,当我们在浏览器里打开一个页面,看到页面内容的时候,我们就可以说这个页面被我们采集到了。

只不过当我们真正进行数据爬取时,一般会需要采集大量的页面,这就需要提交许多的Requests,需要接受许多的Response。数量大了之后,就会涉及到一些比较复杂的处理,比如并发的,比如请求序列,比如去重,比如链接跟踪,比如数据存储,等等。于是,随着问题的延伸和扩展,爬虫就成为了一个相对独立的技术门类。

但它的本质就是对一系列网络请求和网络响应的处理。

爬虫能做什么

爬虫的作用和目的只有一个,获取网络数据。我们知道,互联网是个数据的海洋,大量的信息漂浮在其中,想把这些资源收归己用,爬虫是最常用的方式。特别是最近几年大树据挖掘技术和机器学习以及知识图谱等技术的兴盛,更是对数据提出了更大的需求。另外也有很多互联网创业公司,在起步初期自身积累数据较少的时候,也会通过爬虫快速获取数据起步。

二、python爬虫框架scrapy——爬虫开发的利器

如果你刚刚接触爬虫的概念,我建议你暂时不要使用scrapy框架。或者更宽泛的说,如果你刚刚接触某一个技术门类,我都不建议你直接使用框架,因为框架是对许多基础技术细节的高级抽象,如果你不了解底层实现原理就直接用框架多半会让你云里雾里迷迷糊糊。

在入门爬虫之初,看scrapy的文档,你会觉得“太复杂了”。当你使用urllib或者Requests开发一个python的爬虫脚本,并逐个去解决了请求头封装、访问并发、队列去重、数据清洗等等问题之后,再回过头来学习scrapy,你会觉得它如此简洁优美,它能节省你大量的时间,它会为一些常见的问题提供成熟的解决方案。

scrapy数据流程图

这张图是对scrapy框架的经典描述,一时看不懂没有关系,用一段时间再回来看。或者把本文读完再回来看。

Python 利用scrapy爬虫通过短短50行代码下载整站短视频

在一些书上会把爬虫的基本抓取流程概括为UR 2 IM,意思是数据爬取的过程是围绕URL、Request(请求)、Response(响应)、Item(数据项)、MoreUrl(更多的Url)展开的。上图的 绿色箭头 体现的正是这几个要素的流转过程。图中涉及的四个模块正是用于处理这几类对象的:

  • Spider模块:负责生成Request对象、解析Response对象、输出Item对象
  • Scheduler模块:负责对Request对象的调度
  • Downloader模块:负责发送Request请求,接收Response响应
  • ItemPipleline模块:负责数据的处理
  • scrapy Engine负责模块间的通信

各个模块和scrapy引擎之间可以添加一层或多层中间件,负责对出入该模块的UR 2 IM对象进行处理。

scrapy的安装

参考官方文档,不再赘述。官方文档:https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html

三、scrapy实战:50行代码爬取全站短视频

python的优雅之处在于能够让开发者专注于业务逻辑,花更少的时间在枯燥的代码编写调试上。scrapy无疑完美诠释了这一精神。

开发爬虫的一般步骤是:

  • 确定要爬取的数据(item)
  • 找到数据所在页面的url
  • 找到页面间的链接关系,确定如何跟踪(follow)页面

那么,我们一步一步来。

既然是使用scrapy框架,我们先创建项目:

scrapy startproject DFVideo

紧接着,我们创建一个爬虫:

scrapy genspider -t crawl DfVideoSpider eastday.com

这是我们发现在当前目录下已经自动生成了一个目录:DFVideo

目录下包括如图文件:

Python 利用scrapy爬虫通过短短50行代码下载整站短视频

spiders文件夹下,自动生成了名为DfVideoSpider.py的文件。

Python 利用scrapy爬虫通过短短50行代码下载整站短视频

爬虫项目创建之后,我们来确定需要爬取的数据。在items.py中编辑:

import scrapy
class DfvideoItem(scrapy.Item):
 # define the fields for your item here like:
 # name = scrapy.Field()
 video_url = scrapy.Field()#视频源url
 video_title = scrapy.Field()#视频标题
 video_local_path = scrapy.Field()#视频本地存储路径

接下来,我们需要确定视频源的url,这是很关键的一步。

现在许多的视频播放页面是把视频链接隐藏起来的,这就使得大家无法通过右键另存为,防止了视频别随意下载。

但是只要视频在页面上播放了,那么必然是要和视频源产生数据交互的,所以只要稍微抓下包就能够发现玄机。

这里我们使用fiddler抓包分析。

发现其视频播放页的链接类似于:video.eastday.com/a/180926221513827264568.html?index3lbt

视频源的数据链接类似于:mvpc.eastday.com/vyule/20180415/20180415213714776507147_1_06400360.mp4

有了这两个链接,工作就完成了大半:

在DfVideoSpider.py中编辑

# -*- coding: utf-8 -*-
import scrapy
from scrapy.loader import ItemLoader
from scrapy.loader.processors import MapCompose,Join
from DFVideo.items import DfvideoItem
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
import time
from os import path
import os

class DfvideospiderSpider(CrawlSpider):
 name = 'DfVideoSpider'
 allowed_domains = ['eastday.com']
 start_urls = ['http://video.eastday.com/']

 rules = (
  Rule(LinkExtractor(allow=r'video.eastday.com/a/\d+.html'),
    callback='parse_item', follow=True),
 )

 def parse_item(self, response):
  item = DfvideoItem()
  try:
   item["video_url"] = response.xpath('//input[@id="mp4Source"]/@value').extract()[0]
   item["video_title"] = response.xpath('//meta[@name="description"]/@content').extract()[0]
   #print(item)
   item["video_url"] = 'http:' + item['video_url']
   yield scrapy.Request(url=item['video_url'], meta=item, callback=self.parse_video)
  except:
   pass

 def parse_video(self, response):

  i = response.meta
  file_name = Join()([i['video_title'], '.mp4'])
  base_dir = path.join(path.curdir, 'VideoDownload')
  video_local_path = path.join(base_dir, file_name.replace('?', ''))
  i['video_local_path'] = video_local_path

  if not os.path.exists(base_dir):
   os.mkdir(base_dir)

  with open(video_local_path, "wb") as f:
   f.write(response.body)

  yield i

至此,一个简单但强大的爬虫便完成了。

如果你希望将视频的附加数据保存在数据库,可以在pipeline.py中进行相应的操作,比如存入mongodb中:

from scrapy import log
import pymongo
class DfvideoPipeline(object):
 def __init__(self):
  self.mongodb = pymongo.MongoClient(host='127.0.0.1', port=27017)
  self.db = self.mongodb["DongFang"]
  self.feed_set = self.db["video"]
  # self.comment_set=self.db[comment_set]
  self.feed_set.create_index("video_title", unique=1)
  # self.comment_set.create_index(comment_index,unique=1)
 def process_item(self, item, spider):
  try:
   self.feed_set.update({"video_title": item["video_title"]}, item, upsert=True)
  except:
   log.msg(message="dup key: {}".format(item["video_title"]), level=log.INFO)
  return item
 def on_close(self):
  self.mongodb.close()

当然,你需要在setting.py中将pipelines打开:

ITEM_PIPELINES = {
 'TouTiaoVideo.pipelines.ToutiaovideoPipeline': 300,
}

四、执行结果展示

视频文件:

Python 利用scrapy爬虫通过短短50行代码下载整站短视频

五、最后

以上所述是小编给大家介绍的Python 利用scrapy爬虫通过短短50行代码下载整站短视频,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
Python用zip函数同时遍历多个迭代器示例详解
Nov 14 Python
Python中str.join()简单用法示例
Mar 20 Python
python多行字符串拼接使用小括号的方法
Mar 19 Python
Python中使用logging和traceback模块记录日志和跟踪异常
Apr 09 Python
python重要函数eval多种用法解析
Jan 14 Python
TensorFlow自定义损失函数来预测商品销售量
Feb 05 Python
使用OpenCV去除面积较小的连通域
Jul 05 Python
python 实现非极大值抑制算法(Non-maximum suppression, NMS)
Oct 15 Python
python 还原梯度下降算法实现一维线性回归
Oct 22 Python
pytorch简介
Nov 11 Python
用python-webdriver实现自动填表的示例代码
Jan 13 Python
python pillow库的基础使用教程
Jan 13 Python
PyCharm设置护眼背景色的方法
Oct 29 #Python
pycharm恢复默认设置或者是替换pycharm的解释器实例
Oct 29 #Python
对Python subprocess.Popen子进程管道阻塞详解
Oct 29 #Python
[原创]Python入门教程1. 基本运算【四则运算、变量、math模块等】
Oct 28 #Python
pycharm 配置远程解释器的方法
Oct 28 #Python
解决每次打开pycharm直接进入项目的问题
Oct 28 #Python
Python OpenCV读取png图像转成jpg图像存储的方法
Oct 28 #Python
You might like
利用js获取服务器时间的两个简单方法
2010/01/08 Javascript
js页面跳转的问题(跳转到父页面、最外层页面、本页面)
2013/08/14 Javascript
jquery退出each循环的写法
2014/02/26 Javascript
JavaScript判断文件上传类型的方法
2014/09/02 Javascript
javascript自定义右键弹出菜单实现方法
2015/05/25 Javascript
jQuery实现淡入淡出二级下拉导航菜单的方法
2015/08/28 Javascript
详解vue 模版组件的三种用法
2017/07/21 Javascript
微信小程序页面滑动屏幕加载数据效果
2020/11/16 Javascript
详解多页应用 Webpack4 配置优化与踩坑记录
2018/10/16 Javascript
微信小程序图片加载失败时替换为默认图片的方法
2019/12/09 Javascript
微信小程序自定义菜单切换栏tabbar组件代码实例
2019/12/30 Javascript
使用typescript改造koa开发框架的实现
2020/02/04 Javascript
node.JS的crypto加密模块使用方法详解(MD5,AES,Hmac,Diffie-Hellman加密)
2020/02/06 Javascript
[03:17]史诗级大片应援2018DOTA2国际邀请赛 致敬每一位坚守遗迹的勇士
2018/07/20 DOTA
python Django模板的使用方法(图文)
2013/11/04 Python
通过C++学习Python
2015/01/20 Python
Python 爬虫学习笔记之多线程爬虫
2016/09/21 Python
Python中的命令行参数解析工具之docopt详解
2017/03/27 Python
Python整型运算之布尔型、标准整型、长整型操作示例
2017/07/21 Python
python enumerate函数的使用方法总结
2017/11/15 Python
如何实现删除numpy.array中的行或列
2018/05/08 Python
在Python中实现shuffle给列表洗牌
2018/11/08 Python
python判断列表的连续数字范围并分块的方法
2018/11/16 Python
window7下的python2.7版本和python3.5版本的opencv-python安装过程
2019/10/24 Python
Python 脚本拉取 Docker 镜像问题
2019/11/10 Python
python中的itertools的使用详解
2020/01/13 Python
Django 多对多字段的更新和插入数据实例
2020/03/31 Python
关工委先进个人事迹材料
2014/05/23 职场文书
淘宝客服工作职责
2014/07/11 职场文书
初中毕业生自我评价
2015/03/02 职场文书
新员工试用期工作总结2015
2015/05/28 职场文书
千与千寻观后感
2015/06/04 职场文书
收入证明怎么写
2015/06/12 职场文书
2019七夕节祝福语36句,快来收藏吧
2019/08/06 职场文书
【超详细】八大排序算法的各项比较以及各自特点
2021/03/31 Python
Redis唯一ID生成器的实现
2022/07/07 Redis