使用Python的Scrapy框架十分钟爬取美女图


Posted in Python onDecember 26, 2016

简介

scrapy 是一个 python 下面功能丰富、使用快捷方便的爬虫框架。用 scrapy 可以快速的开发一个简单的爬虫,官方给出的一个简单例子足以证明其强大:

使用Python的Scrapy框架十分钟爬取美女图

快速开发

下面开始10分钟倒计时:

当然开始前,可以先看看之前我们写过的 scrapy 入门文章 《零基础写python爬虫之使用Scrapy框架编写爬虫

1. 初始化项目

scrapy startproject mzt
cd mzt
scrapy genspider meizitu meizitu.com

2. 添加 spider 代码:

定义 scrapy.Item ,添加 image_urls 和 images ,为下载图片做准备。

修改 start_urls 为初始页面, 添加 parse 用于处理列表页, 添加 parse_item 处理项目页面。

使用Python的Scrapy框架十分钟爬取美女图

3. 修改配置文件:

DOWNLOAD_DELAY = 1 # 添加下载延迟配置
ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 1} # 添加图片下载 pipeline
IMAGES_STORE = '.' # 设置图片保存目录

4. 运行项目:

scrapy crawl meizitu

看,项目运行效果图

使用Python的Scrapy框架十分钟爬取美女图

等待一会儿,就是收获的时候了

使用Python的Scrapy框架十分钟爬取美女图

使用Python的Scrapy框架十分钟爬取美女图

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流。

Python 相关文章推荐
Python设计模式编程中Adapter适配器模式的使用实例
Mar 02 Python
Python正则表达式实现截取成对括号的方法
Jan 06 Python
python实现requests发送/上传多个文件的示例
Jun 04 Python
python3 线性回归验证方法
Jul 09 Python
浅谈python中统计计数的几种方法和Counter详解
Nov 07 Python
Python中Flask-RESTful编写API接口(小白入门)
Dec 11 Python
Pytorch 实现sobel算子的卷积操作详解
Jan 10 Python
基于Keras的格式化输出Loss实现方式
Jun 17 Python
通过实例解析Python RPC实现原理及方法
Jul 07 Python
Python3爬虫中Selenium的用法详解
Jul 10 Python
使paramiko库执行命令时在给定的时间强制退出功能的实现
Mar 03 Python
Python函数中的不定长参数相关知识总结
Jun 24 Python
Python中如何获取类属性的列表
Dec 26 #Python
Python中强大的命令行库click入门教程
Dec 26 #Python
Python快速从注释生成文档的方法
Dec 26 #Python
浅谈Python类的__getitem__和__setitem__特殊方法
Dec 25 #Python
解决pyqt中ui编译成窗体.py中文乱码的问题
Dec 23 #Python
详解python进行mp3格式判断
Dec 23 #Python
详解python发送各类邮件的主要方法
Dec 22 #Python
You might like
MVC模式的PHP实现
2006/10/09 PHP
PHP 表单提交给自己
2008/07/24 PHP
探讨php中遍历二维数组的几种方法详解
2013/06/08 PHP
用 Composer构建自己的 PHP 框架之构建路由
2014/10/30 PHP
PHP转盘抽奖接口实例
2015/02/09 PHP
php获取开始与结束日期之间所有日期的方法
2016/11/29 PHP
PHP实现的操作数组类库定义与用法示例
2019/05/24 PHP
Windows Live的@live.com域名注册漏洞 利用代码
2006/12/27 Javascript
JS中Iframe之间传值及子页面与父页面应用
2013/03/11 Javascript
Bootstrap树形控件使用方法详解
2016/01/27 Javascript
Bootstrap中定制LESS-颜色及导航条(推荐)
2016/11/21 Javascript
jquery实现弹窗功能(窗口居中显示)
2017/02/27 Javascript
jQuery返回定位插件详解
2017/05/15 jQuery
Angular.js中下拉框实现渲染html的方法
2017/06/18 Javascript
Easyui使用Dialog行内按钮布局的实例
2017/07/27 Javascript
详述 Sublime Text 打开 GBK 格式中文乱码的解决方法
2017/10/26 Javascript
在Swiper内如何制作CSS3动画效果示例代码
2017/12/07 Javascript
JS脚本实现网页自动秒杀点击
2018/01/11 Javascript
详解如何在react中搭建d3力导向图
2018/01/12 Javascript
node.js使用免费的阿里云ip查询获取ip所在地【推荐】
2018/09/03 Javascript
解决Vue router-link绑定事件不生效的问题
2020/07/22 Javascript
微信小程序实现文件预览
2020/10/22 Javascript
解决ant-design-vue中menu菜单无法默认展开的问题
2020/10/31 Javascript
[36:33]完美世界DOTA2联赛PWL S2 LBZS vs Forest 第二场 11.29
2020/12/02 DOTA
python中尾递归用法实例详解
2015/04/28 Python
浅谈python之高阶函数和匿名函数
2019/03/21 Python
python批量图片处理简单示例
2019/08/06 Python
python文件和文件夹复制函数
2020/02/07 Python
在tensorflow实现直接读取网络的参数(weight and bias)的值
2020/06/24 Python
英国羊皮鞋类领先品牌:Just Sheepskin
2019/12/12 全球购物
关联、聚合(Aggregation)以及组合(Composition)的区别
2012/02/29 面试题
优秀员工演讲稿
2014/05/19 职场文书
债务追讨律师函
2015/06/24 职场文书
2015年度考核个人工作总结
2015/10/24 职场文书
导游词之贵州织金洞
2019/10/12 职场文书
Python Django模型详解
2021/10/05 Python