使用Python的Scrapy框架十分钟爬取美女图


Posted in Python onDecember 26, 2016

简介

scrapy 是一个 python 下面功能丰富、使用快捷方便的爬虫框架。用 scrapy 可以快速的开发一个简单的爬虫,官方给出的一个简单例子足以证明其强大:

使用Python的Scrapy框架十分钟爬取美女图

快速开发

下面开始10分钟倒计时:

当然开始前,可以先看看之前我们写过的 scrapy 入门文章 《零基础写python爬虫之使用Scrapy框架编写爬虫

1. 初始化项目

scrapy startproject mzt
cd mzt
scrapy genspider meizitu meizitu.com

2. 添加 spider 代码:

定义 scrapy.Item ,添加 image_urls 和 images ,为下载图片做准备。

修改 start_urls 为初始页面, 添加 parse 用于处理列表页, 添加 parse_item 处理项目页面。

使用Python的Scrapy框架十分钟爬取美女图

3. 修改配置文件:

DOWNLOAD_DELAY = 1 # 添加下载延迟配置
ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 1} # 添加图片下载 pipeline
IMAGES_STORE = '.' # 设置图片保存目录

4. 运行项目:

scrapy crawl meizitu

看,项目运行效果图

使用Python的Scrapy框架十分钟爬取美女图

等待一会儿,就是收获的时候了

使用Python的Scrapy框架十分钟爬取美女图

使用Python的Scrapy框架十分钟爬取美女图

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流。

Python 相关文章推荐
Python操作Word批量生成文章的方法
Jul 28 Python
python中的格式化输出用法总结
Jul 28 Python
对python list 遍历删除的正确方法详解
Jun 29 Python
更改Python的pip install 默认安装依赖路径方法详解
Oct 27 Python
Linux CentOS Python开发环境搭建教程
Nov 28 Python
python爬虫 2019中国好声音评论爬取过程解析
Aug 26 Python
Python底层封装实现方法详解
Jan 22 Python
python_mask_array的用法
Feb 18 Python
Keras搭建自编码器操作
Jul 03 Python
Django如何使用asyncio协程和ThreadPoolExecutor多线程
Oct 12 Python
Python通过getattr函数获取对象的属性值
Oct 16 Python
python 使用csv模块读写csv格式文件的示例
Dec 02 Python
Python中如何获取类属性的列表
Dec 26 #Python
Python中强大的命令行库click入门教程
Dec 26 #Python
Python快速从注释生成文档的方法
Dec 26 #Python
浅谈Python类的__getitem__和__setitem__特殊方法
Dec 25 #Python
解决pyqt中ui编译成窗体.py中文乱码的问题
Dec 23 #Python
详解python进行mp3格式判断
Dec 23 #Python
详解python发送各类邮件的主要方法
Dec 22 #Python
You might like
PHP删除数组中指定值的元素常用方法实例分析【4种方法】
2018/08/21 PHP
php微信公众号开发之快递查询
2018/10/20 PHP
javascript eval函数深入认识
2009/02/21 Javascript
JQuery toggle使用分析
2009/11/16 Javascript
JavaScript中的onerror事件概述及使用
2013/04/01 Javascript
如何使用jQuery来处理图片坏链具体实现步骤
2013/05/02 Javascript
如何判断鼠标是否在DIV的区域内
2013/11/13 Javascript
jQuery+ajax实现动态执行脚本的方法
2015/01/27 Javascript
Javascript中3个需要注意的运算符
2015/04/02 Javascript
详解 javascript中offsetleft属性的用法
2015/11/11 Javascript
通过node-mysql搭建Windows+Node.js+MySQL环境的教程
2016/03/01 Javascript
Vuejs第十篇之vuejs父子组件通信
2016/09/06 Javascript
javascript九宫格图片随机打乱位置的实现方法
2017/03/15 Javascript
jQuery EasyUI tree增加搜索功能的实现方法
2017/04/27 jQuery
vuex实现登录状态的存储,未登录状态不允许浏览的方法
2018/03/09 Javascript
Vue利用Blob下载原生二进制数组文件
2019/09/25 Javascript
js实现数据导出为EXCEL(支持大量数据导出)
2020/03/31 Javascript
uniapp微信小程序:key失效的解决方法
2021/01/20 Javascript
python基础教程之缩进介绍
2014/08/29 Python
Python的Django框架中的Context使用
2015/07/15 Python
Python常见MongoDB数据库操作实例总结
2018/07/24 Python
Python OpenCV之图片缩放的实现(cv2.resize)
2019/06/28 Python
Python 获取命令行参数内容及参数个数的实例
2019/12/20 Python
Pycharm中切换pytorch的环境和配置的教程详解
2020/03/13 Python
安装pyinstaller遇到的各种问题(小结)
2020/11/20 Python
利用CSS3的flexbox实现水平垂直居中与三列等高布局
2016/09/12 HTML / CSS
HTML5画渐变背景图片并自动下载实现步骤
2013/11/18 HTML / CSS
Nice Kicks网上商店:ShopNiceKicks.com
2018/12/25 全球购物
新春寄语大全
2014/04/09 职场文书
讲座开场白台词和结束语
2015/05/29 职场文书
汤姆索亚历险记读书笔记
2015/06/29 职场文书
《圆明园的毁灭》教学反思
2016/02/16 职场文书
八年级作文之友情
2019/11/25 职场文书
Spring Boot 整合 Apache Dubbo的示例代码
2021/07/04 Java/Android
关于MySQL临时表为什么可以重名的问题
2022/03/22 MySQL
Oracle锁表解决方法的详细记录
2022/06/05 Oracle