python爬虫scrapy框架的梨视频案例解析


Posted in Python onFebruary 20, 2021

之前我们使用lxml对梨视频网站中的视频进行了下载,感兴趣的朋友点击查看吧。

下面我用scrapy框架对梨视频网站中的视频标题和视频页中对视频的描述进行爬取

python爬虫scrapy框架的梨视频案例解析
python爬虫scrapy框架的梨视频案例解析

分析:我们要爬取的内容并不在同一个页面,视频描述内容需要我们点开视频,跳转到新的url中才能获取,我们就不能在一个方法中去解析我们需要的不同内容

1.爬虫文件

  • 这里我们可以仿照爬虫文件中的parse方法,写一个新的parse方法,可以将新的url的响应对象传给这个新的parse方法
  • 如果需要在不同的parse方法中使用同一个item对象,可以使用meta参数字典,将item传给callback回调函数
  • 爬虫文件中的parse需要yield的Request请求,而item则在新的parse方法中使用yield item传给下一个parse方法或管道文件
import scrapy

# 从items.py文件中导入BossprojectItem类
from bossProject.items import BossprojectItem

class BossSpider(scrapy.Spider):
 name = 'boss'
 # allowed_domains = ['www.xxx.com']
 start_urls = ['https://www.pearvideo.com/category_5']

 # 回调函数接受响应对象,并且接受传递过来的meata参数
 def content_parse(self,response):
 # meta参数包含在response响应对象中,调用meta,然后根据键值取出对应的值:item
 item = response.meta['item']

 # 解析视频链接中的对视频的描述
 des = response.xpath('//div[@class="summary"]/text()').extract()
 des = "".join(des)
 item['des'] = des

 yield item 

 # 解析首页视频的标题以及视频的链接
 def parse(self, response):
 li_list = response.xpath('//div[@id="listvideoList"]/ul/li')
 for li in li_list:
  href = li.xpath('./div/a/@href').extract()
  href = "https://www.pearvideo.com/" + "".join(href)

  title = li.xpath('./div[1]/a/div[2]/text()').extract()
  title = "".join(title)

  item = BossprojectItem()
  item["title"] = title

  #手动发送请求,并将响应对象传给回调函数
  #请求传参:meta={},可以将meta字典传递给请求对应的回调函数
  yield scrapy.Request(href,callback=self.content_parse,meta={'item':item})

2.items.py

要将BossprojectItem类导入爬虫文件中才能够创建item对象

import scrapy
class BossprojectItem(scrapy.Item):
 # define the fields for your item here like:
 # name = scrapy.Field()
 # 定义了item属性
 title = scrapy.Field()
 des = scrapy.Field()

3.pipelines.py

open_spider(self,spider)和close_spider(self,spider)重写这两个父类方法,且这两个方法都只执行一次在process_item方法中最好保留return item,因为如果存在多个管道类,return item会自动将item对象传给优先级低于自己的管道类

from itemadapter import ItemAdapter
class BossprojectPipeline:

 def __init__(self):
 self.fp = None

 # 重写父类方法,只调用一次
 def open_spider(self,spider):
 print("爬虫开始")
 self.fp = open('./lishipin.txt','w')

 # 接受爬虫文件中yield传递来的item对象,将item中的内容持久化存储
 def process_item(self, item, spider):
 self.fp.write(item['title'] + '\n\t' + item['des'] + '\n')

 # 如果有多个管道类,会将item传递给下一个管道类
 # 管道类的优先级取决于settings.py中的ITEM_PIPELINES属性中对应的值
  ## ITEM_PIPELINES = {'bossProject.pipelines.BossprojectPipeline': 300,} 键值中的值越小优先级越高
 return item

 # 重写父类方法,只调用一次
 def close_spider(self,spider): 
 self.fp.close()
 print("爬虫结束")

4.进行持久化存储

python爬虫scrapy框架的梨视频案例解析

到此这篇关于python爬虫scrapy框架的梨视频案例解析的文章就介绍到这了,更多相关python爬虫scrapy框架内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python检测服务器是否正常
Feb 16 Python
Python实现的检测web服务器健康状况的小程序
Sep 17 Python
跟老齐学Python之深入变量和引用对象
Sep 24 Python
浅谈Python单向链表的实现
Dec 24 Python
详细介绍Python的鸭子类型
Sep 12 Python
使用tensorflow实现AlexNet
Nov 20 Python
django中send_mail功能实现详解
Feb 06 Python
PyQt5下拉式复选框QComboCheckBox的实例
Jun 25 Python
python使用tomorrow实现多线程的例子
Jul 20 Python
如何搭建pytorch环境的方法步骤
May 06 Python
Python控制台实现交互式环境执行
Jun 09 Python
如何将numpy二维数组中的np.nan值替换为指定的值
May 14 Python
Keras保存模型并载入模型继续训练的实现
Feb 20 #Python
TensorFlow2.0使用keras训练模型的实现
Feb 20 #Python
tensorflow2.0教程之Keras快速入门
Feb 20 #Python
在Pycharm中安装Pandas库方法(简单易懂)
Feb 20 #Python
Python3爬虫RedisDump的安装步骤
Feb 20 #Python
python爬取2021猫眼票房字体加密实例
Feb 19 #Python
Python之Sklearn使用入门教程
Feb 19 #Python
You might like
PHP实现数字补零功能的2个函数介绍
2014/05/12 PHP
PHP网页游戏学习之Xnova(ogame)源码解读(八)
2014/06/23 PHP
PHP MSSQL 分页实例
2016/04/13 PHP
Google Suggest ;-) 基于js的动态下拉菜单
2006/10/11 Javascript
js使用ajax读博客rss示例
2014/05/06 Javascript
jQuery中slice()方法用法实例
2015/01/07 Javascript
充分发挥Node.js程序性能的一些方法介绍
2015/06/23 Javascript
js事件冒泡、事件捕获和阻止默认事件详解
2016/08/04 Javascript
JavaScript中函数声明与函数表达式的区别详解
2016/08/18 Javascript
详解nodeJS之二进制buffer对象
2017/06/03 NodeJs
js+html5实现半透明遮罩层弹框效果
2020/08/24 Javascript
利用vue和element-ui设置表格内容分页的实例
2018/03/02 Javascript
vue中mint-ui的使用方法
2018/04/04 Javascript
简单介绍react redux的中间件的使用
2018/04/06 Javascript
浅谈JavaScript面向对象--继承
2019/03/20 Javascript
详解vue的双向绑定原理及实现
2019/05/05 Javascript
全面分析JavaScript 继承
2019/05/30 Javascript
JS函数动态传递参数的方法分析【基于arguments对象】
2019/06/05 Javascript
Vue props中Object和Array设置默认值操作
2020/07/30 Javascript
nuxt静态部署打包相对路径操作
2020/11/06 Javascript
Python之ReportLab绘制条形码和二维码的实例
2018/01/15 Python
Python使用Dijkstra算法实现求解图中最短路径距离问题详解
2018/05/16 Python
对python模块中多个类的用法详解
2019/01/10 Python
python 命名规范知识点汇总
2020/02/14 Python
在 Linux/Mac 下为Python函数添加超时时间的方法
2020/02/20 Python
python GUI库图形界面开发之PyQt5单选按钮控件QRadioButton详细使用方法与实例
2020/02/28 Python
基于Python实现2种反转链表方法代码实例
2020/07/06 Python
selenium+超级鹰实现模拟登录12306
2021/01/24 Python
CSS3的Flexbox布局的简明入门指南
2016/04/08 HTML / CSS
猫途鹰:全球领先的旅游点评社区
2017/04/07 全球购物
娇韵诗法国官网:Clarins法国
2019/01/29 全球购物
全球才华横溢工匠的家居装饰、珠宝和礼物:NOVICA
2021/01/22 全球购物
厨师长岗位职责范本
2014/08/25 职场文书
2015年销售工作总结范文
2015/03/30 职场文书
Oracle笔记
2021/04/05 Oracle
Hive常用日期格式转换语法
2022/06/25 数据库