python3 requests库实现多图片爬取教程


Posted in Python onDecember 18, 2019

最近对爬虫比较感兴趣,所以就学了一下,看人家都在网上爬取那么多美女图片养眼,我也迫不及待的试了一下,不多说,切入正题。

其实爬取图片和你下载图片是一个样子的,都是操作链接,也就是url,所以当我们确定要爬取的东西后就要开始寻找url了,所以先打开百度图片搜一下

python3 requests库实现多图片爬取教程

然后使用浏览器F12进入开发者模式,或者右键检查元素

python3 requests库实现多图片爬取教程

注意看xhr,点开观察有什么不一样的(如果没有xhr就在网页下滑)

第一个是这样的

第二个是这样的

注意看,pn是不是是30的倍数,而此时网页图片的数量也在增多,发现了这个,进url看一下,首先看原网页源码

view-source:http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111121&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E7%BE%8E%E5%A5%B3&oq=%E7%BE%8E%E5%A5%B3&rsp=-1

再看看两个Requests URL的页面,发现都是这样的

不用管他,找我们要的信息,ObjURL,"ObjURL":"http:\/\/image.tianjimedia.com\/uploadimages\/2015\/131\/34\/545szi3x5s84_680x500.jpg"

就是这个,好,现在东西都找到在哪了,写程序咯

import re
import requests
import os
 
name=input('输入文件夹名称:')
robot='C:/Users/lenovo/Desktop/'+name+'/'
kv={'user-agent':'mozilla/5.0'}
 
#获取url对应的源码页面
def getHTMLText(url):
 try:
  r=requests.get(url,timeout=30,headers=kv)
  r.raise_for_status()
  r.encoding=r.apparent_encoding
  return r.text
 except:
  return ''
 
#解析url源码页面
def parserHTML(html):
#正则表达式为获取ObjURL
 pattern=r'"ObjURL":"(.*?)"'
 reg=re.compile(pattern)
 urls=re.findall(reg,html)
 return urls
 
#下载图片
def download(List):
 for url in List:
  try:
   path=robot+url.split('/')[-1]
   url=url.replace('\\','')
   r=requests.get(url,timeout=30)
   r.raise_for_status()
   r.encoding=r.apparent_encoding
   if not os.path.exists(robot):
    os.makedirs(robot)
   if not os.path.exists(path):
    with open(path,'wb') as f:
     f.write(r.content)
     f.close()
     print(path+' 文件保存成功')
   else:
    print('文件已经存在')
  except:
   continue
 
#通过Requests URL请求到更多的url源码页面
def getmoreurl(num,word):
 ur=[]
 url=r'http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord={word}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={word}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&cg=girl&pn={pn}&rn=30'
 for x in range(1,num+1):
#word为搜索关键词,num为想获取的页面数量
  u=url.format(word=word,pn=30*x)
  ur.append(u)
 return ur
 
def main():
 n=int(input('输入想下载多少张图片(n*30):'))
 word=input('输入想下载的图片:')
#初始页面url
 url='http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1499773676062_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word={word}'.format(word=word)
 html=getHTMLText(url)
 urls=parserHTML(html)
 download(urls)
#下面操作获取的更多页面图片
 url1=getmoreurl(n,word)
 for i in range(n):
  html1=getHTMLText(url1[i])
  urls1=parserHTML(html1)
  download(urls1)
 
main()

然后试一试效果

python3 requests库实现多图片爬取教程

我知道你们会原谅我的

以上这篇python3 requests库实现多图片爬取教程就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python用GET方法上传文件
Mar 10 Python
在Python中使用全局日志时需要注意的问题
May 06 Python
python结合shell查询google关键词排名的实现代码
Feb 27 Python
使用Python的Tornado框架实现一个Web端图书展示页面
Jul 11 Python
python实现感知器
Dec 19 Python
深入浅析Python的类
Jun 22 Python
对Python3+gdal 读取tiff格式数据的实例讲解
Dec 04 Python
Python实现企业微信机器人每天定时发消息实例
Feb 25 Python
python将logging模块封装成单独模块并实现动态切换Level方式
May 12 Python
浅谈sklearn中predict与predict_proba区别
Jun 28 Python
浅析python函数式编程
Sep 26 Python
基于Python爬取京东双十一商品价格曲线
Oct 23 Python
在notepad++中实现直接运行python代码
Dec 18 #Python
简单了解python装饰器原理及使用方法
Dec 18 #Python
修改Pandas的行或列的名字(重命名)
Dec 18 #Python
Python3直接爬取图片URL并保存示例
Dec 18 #Python
python 实现图片上传接口开发 并生成可以访问的图片url
Dec 18 #Python
Python谱减法语音降噪实例
Dec 18 #Python
利用PyCharm操作Github(仓库新建、更新,代码回滚)
Dec 18 #Python
You might like
一个基于PDO的数据库操作类
2011/03/24 PHP
PHP基础教程(php入门基础教程)一些code代码
2013/01/06 PHP
PHP反射类ReflectionClass和ReflectionObject的使用方法
2013/11/13 PHP
编写PHP脚本清除WordPress头部冗余代码的方法讲解
2016/03/01 PHP
Yii2下点击验证码的切换实例代码
2017/03/14 PHP
javascript 兼容所有浏览器的DOM扩展功能
2012/08/01 Javascript
JS如何将UTC格式时间转本地格式
2013/09/04 Javascript
js控制淡入淡出示例代码
2013/11/12 Javascript
JS中对象与字符串的互相转换详解
2016/05/20 Javascript
JSON字符串和JSON对象相互转化实例详解
2017/01/05 Javascript
微信小程序 WebSocket详解及应用
2017/01/21 Javascript
原生JS实现九宫格抽奖效果
2017/04/01 Javascript
Javascript ES6中对象类型Sets的介绍与使用详解
2017/07/17 Javascript
详解基于Koa2开发微信二维码扫码支付相关流程
2018/05/16 Javascript
Vuex入门到上手教程
2018/06/20 Javascript
Bootstrap Paginator+PageHelper实现分页效果
2018/12/29 Javascript
vuex实现像调用模板方法一样调用Mutations方法
2019/11/06 Javascript
vue倒计时刷新页面不会从头开始的解决方法
2020/03/03 Javascript
vue-cli3项目配置eslint代码规范的完整步骤
2020/09/10 Javascript
浅谈python中的数字类型与处理工具
2017/08/02 Python
Python 和 JS 有哪些相同之处
2017/11/23 Python
python3 对list中每个元素进行处理的方法
2018/06/29 Python
解决pycharm工程启动卡住没反应的问题
2019/01/19 Python
python-itchat 统计微信群、好友数量,及原始消息数据的实例
2019/02/21 Python
python NumPy ndarray二维数组 按照行列求平均实例
2019/11/26 Python
python GUI库图形界面开发之PyQt5多行文本框控件QTextEdit详细使用方法实例
2020/02/28 Python
Python 给下载文件显示进度条和下载时间的实现
2020/04/02 Python
使用HTML5在网页中嵌入音频和视频播放的基本方法
2016/02/22 HTML / CSS
小学生作文评语
2014/04/18 职场文书
我的梦中国梦演讲稿
2014/04/23 职场文书
精神文明建设标语
2014/06/16 职场文书
党员干部群众路线个人整改措施
2014/09/18 职场文书
政风行风评议工作总结
2014/10/21 职场文书
师德标兵事迹材料
2014/12/19 职场文书
中班上学期个人总结
2015/02/12 职场文书
Java后端 Dubbo retries 超时重试机制的解决方案
2022/04/14 Java/Android