Python爬虫:通过关键字爬取百度图片


Posted in Python onFebruary 17, 2017

使用工具:Python2.7 点我下载

scrapy框架

sublime text3

一。搭建python(Windows版本)

 1.安装python2.7 ---然后在cmd当中输入python,界面如下则安装成功

Python爬虫:通过关键字爬取百度图片

 2.集成Scrapy框架----输入命令行:pip install Scrapy

Python爬虫:通过关键字爬取百度图片

安装成功界面如下:

Python爬虫:通过关键字爬取百度图片

失败的情况很多,举例一种:

Python爬虫:通过关键字爬取百度图片

解决方案:

其余错误可百度搜索。

二。开始编程。

1.爬取无反爬虫措施的静态网站。例如百度贴吧,豆瓣读书。

例如-《桌面吧》的一个帖子https://tieba.baidu.com/p/2460150866?red_tag=3569129009

python代码如下:

Python爬虫:通过关键字爬取百度图片

代码注释:引入了两个模块urllib,re。定义两个函数,第一个函数是获取整个目标网页数据,第二个函数是在目标网页中获取目标图片,遍历网页,并且给获取的图片按照0开始排序。

注:re模块知识点:

Python爬虫:通过关键字爬取百度图片

爬取图片效果图:

Python爬虫:通过关键字爬取百度图片

图片保存路径默认在建立的.py同目录文件下。

2.爬取有反爬虫措施的百度图片。如百度图片等。

例如关键字搜索“表情包”https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111

图片采用滚动式加载,先爬取最优先的30张。

代码如下:

Python爬虫:通过关键字爬取百度图片

代码注释:导入4个模块,os模块用于指定保存路径。前两个函数同上。第三个函数使用了if语句,并tryException异常。

爬取过程如下:

Python爬虫:通过关键字爬取百度图片

爬取结果:

Python爬虫:通过关键字爬取百度图片

注:编写python代码注重对齐,and不能混用Tab和空格,易报错。

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,同时也希望多多支持三水点靠木!

Python 相关文章推荐
详解PANDAS 数据合并与重塑(join/merge篇)
Jul 09 Python
Python 通过微信控制实现app定位发送到个人服务器再转发微信服务器接收位置信息
Aug 05 Python
Django ORM多对多查询方法(自定义第三张表&ManyToManyField)
Aug 09 Python
python实现画出e指数函数的图像
Nov 21 Python
python数据化运营的重要意义
Nov 25 Python
Python爬虫库BeautifulSoup获取对象(标签)名,属性,内容,注释
Jan 25 Python
pytorch模型存储的2种实现方法
Feb 14 Python
浅析python 定时拆分备份 nginx 日志的方法
Apr 27 Python
pycharm sciview的图片另存为操作
Jun 01 Python
4款Python 类型检查工具,你选择哪个呢?
Oct 30 Python
python xlwt模块的使用解析
Apr 13 Python
使用python将HTML转换为PDF pdfkit包(wkhtmltopdf) 的使用方法
Apr 21 Python
Python 遍历列表里面序号和值的方法(三种)
Feb 17 #Python
浅谈python中的实例方法、类方法和静态方法
Feb 17 #Python
Python之日期与时间处理模块(date和datetime)
Feb 16 #Python
python字符串中的单双引
Feb 16 #Python
使用PyV8在Python爬虫中执行js代码
Feb 16 #Python
Python错误提示:[Errno 24] Too many open files的分析与解决
Feb 16 #Python
Python变量和数据类型详解
Feb 15 #Python
You might like
PHP中,文件上传
2006/12/06 PHP
PHP 中文乱码解决办法总结分析
2009/07/30 PHP
php smarty模版引擎中的缓存应用
2009/12/11 PHP
php 中的4种标记风格介绍
2012/05/10 PHP
PHP安全的URL字符串base64编码和解码
2014/06/19 PHP
Javascript this关键字使用分析
2008/10/21 Javascript
Ajax,UTF-8还是GB2312 eval 还是execScript
2008/11/13 Javascript
JavaScript 类似flash效果的立体图片浏览器
2010/02/08 Javascript
使用Microsoft Ajax Minifier减小JavaScript文件大小的方法
2010/04/01 Javascript
打造基于jQuery的高性能TreeView(asp.net)
2011/02/23 Javascript
Javascript字符串对象的常用方法简明版
2014/06/26 Javascript
JavaScript中判断函数、变量是否存在
2015/06/10 Javascript
javascript获取系统当前时间的方法
2015/11/19 Javascript
javascript函数命名的三种方式及区别介绍
2016/03/22 Javascript
BootStrap初学者对弹出框和进度条的使用感觉
2016/06/27 Javascript
JS变量及其作用域
2017/03/29 Javascript
Angularjs添加排序查询功能的实例代码
2017/10/24 Javascript
详解vue项目打包步骤
2019/03/29 Javascript
[06:09]辉夜杯主赛事开幕式
2015/12/25 DOTA
Python ValueError: invalid literal for int() with base 10 实用解决方法
2015/06/21 Python
python生成IP段的方法
2015/07/07 Python
python使用selenium登录QQ邮箱(附带滑动解锁)
2019/01/23 Python
Python Django form 组件动态从数据库取choices数据实例
2020/05/19 Python
记录一下scrapy中settings的一些配置小结
2020/09/28 Python
HTML5 Canvas API中drawImage()方法的使用实例
2016/03/25 HTML / CSS
html5桌面通知(Web Notifications)实例解析
2014/07/07 HTML / CSS
利用HTML5绘制点线面组成的3D图形的示例
2015/05/12 HTML / CSS
女性时尚网购:Chic Me
2019/07/30 全球购物
eBay意大利购物网站:eBay.it
2019/09/04 全球购物
linux下进程间通信的方式
2014/12/23 面试题
医学院毕业生自荐信
2013/11/08 职场文书
个人求职信范文分享
2014/01/06 职场文书
学生安全教育材料
2014/02/14 职场文书
小学教师寄语大全
2014/04/03 职场文书
设备管理实施方案
2014/05/31 职场文书
如何使用Python对NetCDF数据做空间相关分析
2021/04/21 Python