编程 Python

python爬虫scrapy框架的梨视频案例解析

Posted in Python onFebruary 20, 2021

之前我们使用lxml对梨视频网站中的视频进行了下载，感兴趣的朋友点击查看吧。

下面我用scrapy框架对梨视频网站中的视频标题和视频页中对视频的描述进行爬取

分析：我们要爬取的内容并不在同一个页面，视频描述内容需要我们点开视频，跳转到新的url中才能获取，我们就不能在一个方法中去解析我们需要的不同内容

1.爬虫文件

这里我们可以仿照爬虫文件中的parse方法，写一个新的parse方法，可以将新的url的响应对象传给这个新的parse方法
如果需要在不同的parse方法中使用同一个item对象，可以使用meta参数字典，将item传给callback回调函数
爬虫文件中的parse需要yield的Request请求，而item则在新的parse方法中使用yield item传给下一个parse方法或管道文件

import scrapy

# 从items.py文件中导入BossprojectItem类
from bossProject.items import BossprojectItem

class BossSpider(scrapy.Spider):
 name = 'boss'
 # allowed_domains = ['www.xxx.com']
 start_urls = ['https://www.pearvideo.com/category_5']

 # 回调函数接受响应对象，并且接受传递过来的meata参数
 def content_parse(self,response):
 # meta参数包含在response响应对象中，调用meta，然后根据键值取出对应的值:item
 item = response.meta['item']

 # 解析视频链接中的对视频的描述
 des = response.xpath('//div[@class="summary"]/text()').extract()
 des = "".join(des)
 item['des'] = des

 yield item 

 # 解析首页视频的标题以及视频的链接
 def parse(self, response):
 li_list = response.xpath('//div[@id="listvideoList"]/ul/li')
 for li in li_list:
  href = li.xpath('./div/a/@href').extract()
  href = "https://www.pearvideo.com/" + "".join(href)

  title = li.xpath('./div[1]/a/div[2]/text()').extract()
  title = "".join(title)

  item = BossprojectItem()
  item["title"] = title

  #手动发送请求，并将响应对象传给回调函数
  #请求传参:meta={}，可以将meta字典传递给请求对应的回调函数
  yield scrapy.Request(href,callback=self.content_parse,meta={'item':item})

2.items.py

要将BossprojectItem类导入爬虫文件中才能够创建item对象

import scrapy
class BossprojectItem(scrapy.Item):
 # define the fields for your item here like:
 # name = scrapy.Field()
 # 定义了item属性
 title = scrapy.Field()
 des = scrapy.Field()

3.pipelines.py

open_spider(self,spider)和close_spider(self,spider)重写这两个父类方法，且这两个方法都只执行一次在process_item方法中最好保留return item，因为如果存在多个管道类，return item会自动将item对象传给优先级低于自己的管道类

from itemadapter import ItemAdapter
class BossprojectPipeline:

 def __init__(self):
 self.fp = None

 # 重写父类方法，只调用一次
 def open_spider(self,spider):
 print("爬虫开始")
 self.fp = open('./lishipin.txt','w')

 # 接受爬虫文件中yield传递来的item对象，将item中的内容持久化存储
 def process_item(self, item, spider):
 self.fp.write(item['title'] + '\n\t' + item['des'] + '\n')

 # 如果有多个管道类，会将item传递给下一个管道类
 # 管道类的优先级取决于settings.py中的ITEM_PIPELINES属性中对应的值
  ## ITEM_PIPELINES = {'bossProject.pipelines.BossprojectPipeline': 300,} 键值中的值越小优先级越高
 return item

 # 重写父类方法，只调用一次
 def close_spider(self,spider): 
 self.fp.close()
 print("爬虫结束")

4.进行持久化存储

python爬虫scrapy框架的梨视频案例解析

到此这篇关于python爬虫scrapy框架的梨视频案例解析的文章就介绍到这了,更多相关python爬虫scrapy框架内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬虫scrapy框架的梨视频案例解析

- Author -

小王子爱上玫瑰

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中使用第三方库xlrd来读取Excel示例

Apr 05 Python

理解Python中的With语句

Mar 18 Python

Python网络爬虫项目：内容提取器的定义

Oct 25 Python

HTML中使用python屏蔽一些基本功能的方法

Jul 07 Python

python 读入多行数据的实例

Apr 19 Python

python迭代dict的key和value的方法

Jul 06 Python

Python干货：分享Python绘制六种可视化图表

Aug 27 Python

python3实现点餐系统

Jan 24 Python

对pytorch中的梯度更新方法详解

Aug 20 Python

Python图像处理库PIL的ImageFilter模块使用介绍

Feb 26 Python

Pyqt5 关于流式布局和滚动条的综合使用示例代码

Mar 24 Python

详解Django配置JWT认证方式

May 09 Python

Keras保存模型并载入模型继续训练的实现

Feb 20 #Python

TensorFlow2.0使用keras训练模型的实现

Feb 20 #Python

tensorflow2.0教程之Keras快速入门

Feb 20 #Python

在Pycharm中安装Pandas库方法(简单易懂)

Feb 20 #Python

Python3爬虫RedisDump的安装步骤

Feb 20 #Python

python爬取2021猫眼票房字体加密实例

Feb 19 #Python

Python之Sklearn使用入门教程

Feb 19 #Python

You might like

PHP执行Curl时报错提示CURL ERROR: Recv failure: Connection reset by peer的解决方法

2014/06/26 PHP

codeigniter中实现一次性加载多个view的方法

2015/03/20 PHP

thinkPHP模板引擎用法示例

2016/12/08 PHP

php mysql操作mysql_connect连接数据库实例详解

2016/12/26 PHP

详解php中的implements 使用

2017/06/13 PHP

用js实现的仿sohu博客更换页面风格（简单版）

2007/03/22 Javascript

用javascript来实现动画导航效果的代码

2007/12/16 Javascript

cument.execCommand()用法深入理解

2012/12/04 Javascript

在新窗口打开超链接的方法小结

2013/04/14 Javascript

当鼠标移动到图片上时跟随鼠标显示放大的图片效果

2013/06/06 Javascript

微信小程序网络API发起请求详解

2016/11/09 Javascript

详解vue事件对象、冒泡、阻止默认行为

2017/03/20 Javascript

xmlplus组件设计系列之选项卡（Tabbar)（5）

2017/05/03 Javascript

不得不看之JavaScript构造函数及new运算符

2017/08/21 Javascript

js实现点击按钮复制文本功能

2020/07/20 Javascript

Javascript Promise用法详解

2018/05/10 Javascript

Node.js如何优雅的封装一个实用函数的npm包的方法

2019/04/29 Javascript

对TypeScript库进行单元测试的方法

2019/07/18 Javascript

vue a标签点击实现赋值方式

2020/09/07 Javascript

python的unittest测试类代码实例

2017/12/07 Python

python实现事件驱动

2018/11/21 Python

pandas删除行删除列增加行增加列的实现

2019/07/06 Python

Python字符串、列表、元组、字典、集合的补充实例详解

2019/12/20 Python

pytorch模型存储的2种实现方法

2020/02/14 Python

基于Tensorflow的MNIST手写数字识别分类

2020/06/17 Python

CSS3制作翻转效果_动力节点Java学院整理

2017/07/11 HTML / CSS

HTML5实现动画效果的方式汇总

2016/02/29 HTML / CSS

会计自我鉴定

2014/02/04 职场文书

竞聘演讲稿精彩开头和结尾

2014/05/14 职场文书

党员廉洁自律个人总结

2015/02/13 职场文书

居住证明范文

2015/06/17 职场文书

2019最新版火锅店的创业计划书！

2019/07/12 职场文书

实习报告范文

2019/07/30 职场文书

一看就懂的MySQL的聚簇索引及聚簇索引是如何长高的

2021/05/25 MySQL

MySQL注入基础练习

2021/05/30 MySQL

代码复现python目标检测yolo3详解预测

2022/05/06 Python