Python爬虫:通过关键字爬取百度图片


Posted in Python onFebruary 17, 2017

使用工具:Python2.7 点我下载

scrapy框架

sublime text3

一。搭建python(Windows版本)

 1.安装python2.7 ---然后在cmd当中输入python,界面如下则安装成功

Python爬虫:通过关键字爬取百度图片

 2.集成Scrapy框架----输入命令行:pip install Scrapy

Python爬虫:通过关键字爬取百度图片

安装成功界面如下:

Python爬虫:通过关键字爬取百度图片

失败的情况很多,举例一种:

Python爬虫:通过关键字爬取百度图片

解决方案:

其余错误可百度搜索。

二。开始编程。

1.爬取无反爬虫措施的静态网站。例如百度贴吧,豆瓣读书。

例如-《桌面吧》的一个帖子https://tieba.baidu.com/p/2460150866?red_tag=3569129009

python代码如下:

Python爬虫:通过关键字爬取百度图片

代码注释:引入了两个模块urllib,re。定义两个函数,第一个函数是获取整个目标网页数据,第二个函数是在目标网页中获取目标图片,遍历网页,并且给获取的图片按照0开始排序。

注:re模块知识点:

Python爬虫:通过关键字爬取百度图片

爬取图片效果图:

Python爬虫:通过关键字爬取百度图片

图片保存路径默认在建立的.py同目录文件下。

2.爬取有反爬虫措施的百度图片。如百度图片等。

例如关键字搜索“表情包”https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111

图片采用滚动式加载,先爬取最优先的30张。

代码如下:

Python爬虫:通过关键字爬取百度图片

代码注释:导入4个模块,os模块用于指定保存路径。前两个函数同上。第三个函数使用了if语句,并tryException异常。

爬取过程如下:

Python爬虫:通过关键字爬取百度图片

爬取结果:

Python爬虫:通过关键字爬取百度图片

注:编写python代码注重对齐,and不能混用Tab和空格,易报错。

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,同时也希望多多支持三水点靠木!

Python 相关文章推荐
Python中获取对象信息的方法
Apr 27 Python
在Django的模板中使用认证数据的方法
Jul 23 Python
简单介绍使用Python解析并修改XML文档的方法
Oct 15 Python
Python面向对象特殊成员
Apr 24 Python
利用Python批量提取Win10锁屏壁纸实战教程
Mar 27 Python
python顺序的读取文件夹下名称有序的文件方法
Jul 11 Python
Python爬虫运用正则表达式的方法和优缺点
Aug 25 Python
python redis 批量设置过期key过程解析
Nov 26 Python
Python基础之高级变量类型实例详解
Jan 03 Python
Python函数基本使用原理详解
Mar 19 Python
Python使用Matlab命令过程解析
Jun 04 Python
python3.8.3安装教程及环境配置的详细教程(64-bit)
Nov 28 Python
Python 遍历列表里面序号和值的方法(三种)
Feb 17 #Python
浅谈python中的实例方法、类方法和静态方法
Feb 17 #Python
Python之日期与时间处理模块(date和datetime)
Feb 16 #Python
python字符串中的单双引
Feb 16 #Python
使用PyV8在Python爬虫中执行js代码
Feb 16 #Python
Python错误提示:[Errno 24] Too many open files的分析与解决
Feb 16 #Python
Python变量和数据类型详解
Feb 15 #Python
You might like
用PHP+MySql编写聊天室
2006/10/09 PHP
php5数字型字符串加解密代码
2008/04/24 PHP
Zend Framework实现Zend_View集成Smarty模板系统的方法
2016/03/05 PHP
PHP实现可添加水印与生成缩略图的图片处理工具类
2018/01/16 PHP
ThinkPHP 框架实现的读取excel导入数据库操作示例
2020/04/14 PHP
javascript比较文档位置
2008/04/08 Javascript
xml和web特殊字符
2009/04/28 Javascript
js 学习笔记(三)
2009/12/29 Javascript
js鼠标左右键 键盘值小结
2010/06/11 Javascript
理解JavaScript的变量的入门教程
2015/07/07 Javascript
超链接怎么正确调用javascript函数
2016/05/23 Javascript
JavaScript中的boolean布尔值使用学习及相关技巧讲解
2016/05/26 Javascript
node.js中grunt和gulp的区别详解
2017/07/17 Javascript
简单的Vue异步组件实例Demo
2017/12/27 Javascript
Vue axios 跨域请求无法带上cookie的解决
2020/09/08 Javascript
解决antd datepicker 获取时间默认少8个小时的问题
2020/10/29 Javascript
[58:00]DOTA2-DPC中国联赛 正赛 PSG.LGD vs Elephant BO3 第二场 2月7日
2021/03/11 DOTA
wxPython窗口中文乱码解决方法
2014/10/11 Python
python验证码识别的实例详解
2016/09/09 Python
numpy.std() 计算矩阵标准差的方法
2018/07/11 Python
Python 如何优雅的将数字转化为时间格式的方法
2019/09/26 Python
pygame实现烟雨蒙蒙下彩虹雨
2019/11/11 Python
使用pyqt5 tablewidget 单元格设置正则表达式
2019/12/13 Python
Python切割图片成九宫格的示例代码
2020/03/10 Python
python实现图像高斯金字塔的示例代码
2020/12/11 Python
8款精美的CSS3表单设计(登录表单/下拉选择/按钮附演示及源码)
2013/02/04 HTML / CSS
全球知名的珠宝首饰品牌:Kay Jewelers
2018/02/11 全球购物
洗发水广告词
2014/03/13 职场文书
垃圾分类的活动方案
2014/08/15 职场文书
中学生爱国演讲稿
2014/09/05 职场文书
学习优秀党务工作者先进事迹材料思想报告
2014/09/17 职场文书
银行竞聘报告范文
2014/11/06 职场文书
领导欢送会主持词
2015/07/06 职场文书
小学运动会报道稿
2015/07/22 职场文书
保姆聘用合同
2015/09/21 职场文书
选调生挂职锻炼工作总结
2015/10/23 职场文书