编程 Python

Python Scrapy图片爬取原理及代码实例

Posted in Python onJune 12, 2020

1.在爬虫文件中只需要解析提取出图片地址，然后将地址提交给管道

在管道文件对图片进行下载和持久化存储

class ImgSpider(scrapy.Spider):
  name = 'img'
  # allowed_domains = ['www.xxx.com']
  start_urls = ['http://www.521609.com/daxuemeinv/']
  url = 'http://www.521609.com/daxuemeinv/list8%d.html'
  pageNum = 1
  def parse(self, response):
    li_list = response.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
    for li in li_list:
      img_src = 'http://www.521609.com'+li.xpath('./a[1]/img/@src').extract_first()
      item = ImgproItem()
      item['src'] = img_src

      yield item

2.配置文件修改

配置文件要增加IMAGES_STORE = './imgsLib'表明图片存放的路径

3.管道类的修改

原本管道类继承的object，处理item对象使用时process_item方法，该方法不能发送请求，要想对图片地址发送请求，需要继承ImagesPipeline类，然后重写该类中的三个方法:get_media_requests，file_path，item_completed

from scrapy.pipelines.images import ImagesPipeline
import scrapy

class ImgproPipeline(ImagesPipeline):

  #对某一个媒体资源进行请求发送
  #item就是接收到的spider提交过来的item
  def get_media_requests(self, item, info):
    yield scrapy.Request(item['src'])

  #制定媒体数据存储的名称
  def file_path(self, request, response=None, info=None):
    name = request.url.split('/')[-1]
    print('正在下载：',name)
    return name

  #将item传递给下一个即将给执行的管道类
  def item_completed(self, results, item, info):
    return item

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python Scrapy图片爬取原理及代码实例

- Author -

Hedger_Lee

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

ssh批量登录并执行命令的python实现代码

May 25 Python

Python中格式化format()方法详解

Apr 01 Python

Python+opencv+pyaudio实现带声音屏幕录制

Dec 23 Python

Python函数的迭代器与生成器的示例代码

Jun 18 Python

Python如何实现后端自定义认证并实现多条件登陆

Jun 22 Python

详解pytorch tensor和ndarray转换相关总结

Sep 03 Python

Python实现像awk一样分割字符串

Sep 15 Python

Python爬取网页信息的示例

Sep 24 Python

Django解决frame拒绝问题的方法

Dec 18 Python

完美处理python与anaconda环境变量的冲突问题

Apr 07 Python

python Tkinter模块使用方法详解

Apr 07 Python

Python作用域和名称空间的详细介绍

Apr 13 Python

Python Scrapy多页数据爬取实现过程解析

Jun 12 #Python

Selenium自动化测试工具使用方法汇总

Jun 12 #Python

Python使用socketServer包搭建简易服务器过程详解

Jun 12 #Python

Django之腾讯云短信的实现

Jun 12 #Python

python相对企业语言优势在哪

Jun 12 #Python

keras实现基于孪生网络的图片相似度计算方式

Jun 11 #Python

为什么说python适合写爬虫

Jun 11 #Python

You might like

经典的PHPer为什么被认为是草根？

2007/04/02 PHP

discuz安全提问算法

2007/06/06 PHP

php中检查文件或目录是否存在的代码小结

2012/10/22 PHP

destoon各类调用汇总

2014/06/20 PHP

关于URL最大长度限制的相关资料查证

2014/12/23 PHP

php格式化电话号码的方法

2015/04/24 PHP

php实现微信扫码支付

2017/03/26 PHP

PHP实现简单的模板引擎功能示例

2017/09/02 PHP

php实现微信支付之企业付款

2018/05/30 PHP

InnerHtml和InnerText的区别分析

2009/03/13 Javascript

js获取html参数及向swf传递参数应用介绍

2013/02/18 Javascript

给js文件传参数(详解)

2014/07/13 Javascript

JavaScript的内存释放问题详解

2015/01/21 Javascript

获取jqGrid中选择的行的数据

2016/11/30 Javascript

详解闭包解决jQuery中AJAX的外部变量问题

2017/02/22 Javascript

基于JQuery的购物车添加删除以及结算功能示例

2017/03/08 Javascript

jquery mobile实现可折叠的导航按钮

2017/03/11 Javascript

JavaScript 值类型和引用类型的初次研究(推荐)

2017/07/19 Javascript

解决vue项目刷新后,导航菜单高亮显示的位置不对问题

2019/11/01 Javascript

Vue环境搭建+VSCode+Win10的详细教程

2020/08/19 Javascript

[01:38]【DOTA2亚洲邀请赛】Sumail——梦开始的地方

2017/03/03 DOTA

Python处理CSV与List的转换方法

2018/04/19 Python

python实现简单的单变量线性回归方法

2018/11/08 Python

通过实例解析Python调用json模块

2019/12/11 Python

Python使用psutil获取进程信息的例子

2019/12/17 Python

Django ForeignKey与数据库的FOREIGN KEY约束详解

2020/05/20 Python

python代码实现将列表中重复元素之间的内容全部滤除

2020/05/22 Python

详解FireFox下Canvas使用图像合成绘制SVG的Bug

2019/07/10 HTML / CSS

大学生党员个人对照检查材料范文

2014/09/25 职场文书

个人存款证明书

2014/10/18 职场文书

2014财务年度工作总结

2014/11/11 职场文书

全国助残日活动总结

2015/05/11 职场文书

PyTorch 实现L2正则化以及Dropout的操作

2021/05/27 Python

python3操作redis实现List列表实例

2021/08/04 Python

golang定时器

2022/04/14 Golang

pycharm无法安装cv2模块问题

2022/05/20 Python