python3 requests库实现多图片爬取教程


Posted in Python onDecember 18, 2019

最近对爬虫比较感兴趣,所以就学了一下,看人家都在网上爬取那么多美女图片养眼,我也迫不及待的试了一下,不多说,切入正题。

其实爬取图片和你下载图片是一个样子的,都是操作链接,也就是url,所以当我们确定要爬取的东西后就要开始寻找url了,所以先打开百度图片搜一下

python3 requests库实现多图片爬取教程

然后使用浏览器F12进入开发者模式,或者右键检查元素

python3 requests库实现多图片爬取教程

注意看xhr,点开观察有什么不一样的(如果没有xhr就在网页下滑)

第一个是这样的

第二个是这样的

注意看,pn是不是是30的倍数,而此时网页图片的数量也在增多,发现了这个,进url看一下,首先看原网页源码

view-source:http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111121&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E7%BE%8E%E5%A5%B3&oq=%E7%BE%8E%E5%A5%B3&rsp=-1

再看看两个Requests URL的页面,发现都是这样的

不用管他,找我们要的信息,ObjURL,"ObjURL":"http:\/\/image.tianjimedia.com\/uploadimages\/2015\/131\/34\/545szi3x5s84_680x500.jpg"

就是这个,好,现在东西都找到在哪了,写程序咯

import re
import requests
import os
 
name=input('输入文件夹名称:')
robot='C:/Users/lenovo/Desktop/'+name+'/'
kv={'user-agent':'mozilla/5.0'}
 
#获取url对应的源码页面
def getHTMLText(url):
 try:
  r=requests.get(url,timeout=30,headers=kv)
  r.raise_for_status()
  r.encoding=r.apparent_encoding
  return r.text
 except:
  return ''
 
#解析url源码页面
def parserHTML(html):
#正则表达式为获取ObjURL
 pattern=r'"ObjURL":"(.*?)"'
 reg=re.compile(pattern)
 urls=re.findall(reg,html)
 return urls
 
#下载图片
def download(List):
 for url in List:
  try:
   path=robot+url.split('/')[-1]
   url=url.replace('\\','')
   r=requests.get(url,timeout=30)
   r.raise_for_status()
   r.encoding=r.apparent_encoding
   if not os.path.exists(robot):
    os.makedirs(robot)
   if not os.path.exists(path):
    with open(path,'wb') as f:
     f.write(r.content)
     f.close()
     print(path+' 文件保存成功')
   else:
    print('文件已经存在')
  except:
   continue
 
#通过Requests URL请求到更多的url源码页面
def getmoreurl(num,word):
 ur=[]
 url=r'http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord={word}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={word}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&cg=girl&pn={pn}&rn=30'
 for x in range(1,num+1):
#word为搜索关键词,num为想获取的页面数量
  u=url.format(word=word,pn=30*x)
  ur.append(u)
 return ur
 
def main():
 n=int(input('输入想下载多少张图片(n*30):'))
 word=input('输入想下载的图片:')
#初始页面url
 url='http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1499773676062_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word={word}'.format(word=word)
 html=getHTMLText(url)
 urls=parserHTML(html)
 download(urls)
#下面操作获取的更多页面图片
 url1=getmoreurl(n,word)
 for i in range(n):
  html1=getHTMLText(url1[i])
  urls1=parserHTML(html1)
  download(urls1)
 
main()

然后试一试效果

python3 requests库实现多图片爬取教程

我知道你们会原谅我的

以上这篇python3 requests库实现多图片爬取教程就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
php使用递归与迭代实现快速排序示例
Jan 23 Python
Python中的localtime()方法使用详解
May 22 Python
python实现字典(dict)和字符串(string)的相互转换方法
Mar 01 Python
Python爬虫框架Scrapy基本用法入门教程
Jul 26 Python
tensorflow 用矩阵运算替换for循环 用tf.tile而不写for的方法
Jul 27 Python
django进阶之cookie和session的使用示例
Aug 17 Python
详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
Aug 27 Python
python下载库的步骤方法
Oct 12 Python
pytorch 实现查看网络中的参数
Jan 06 Python
python pprint模块中print()和pprint()两者的区别
Feb 10 Python
Python面向对象魔法方法和单例模块代码实例
Mar 25 Python
python实现udp聊天窗口
Mar 31 Python
在notepad++中实现直接运行python代码
Dec 18 #Python
简单了解python装饰器原理及使用方法
Dec 18 #Python
修改Pandas的行或列的名字(重命名)
Dec 18 #Python
Python3直接爬取图片URL并保存示例
Dec 18 #Python
python 实现图片上传接口开发 并生成可以访问的图片url
Dec 18 #Python
Python谱减法语音降噪实例
Dec 18 #Python
利用PyCharm操作Github(仓库新建、更新,代码回滚)
Dec 18 #Python
You might like
PHP使用json_encode函数时不转义中文的解决方法
2014/11/12 PHP
ThinkPHP中RBAC类的四种用法分析
2014/11/24 PHP
thinkPHP学习笔记之安装配置篇
2015/03/05 PHP
Apache服务器下防止图片盗链的办法
2015/07/06 PHP
php resizeimage 部分jpg文件 生成缩略图失败的原因分析及解决办法
2016/03/23 PHP
php rmdir使用递归函数删除非空目录实例详解
2016/10/20 PHP
jQuery初学:find()方法及children方法的区别分析
2011/01/31 Javascript
利用jquery操作Radio方法小结
2014/10/20 Javascript
JavaScript实现的背景自动变色代码
2015/10/17 Javascript
解决jQuery上传插件Uploadify出现Http Error 302错误的方法
2015/12/18 Javascript
如何解决IONIC页面底部被遮住无法向上滚动问题
2016/09/06 Javascript
浅谈javascript:两种注释,声明变量,定义函数
2016/10/05 Javascript
Python 类的继承实例详解
2017/03/25 Python
利用python爬取斗鱼app中照片方法实例
2017/12/03 Python
Python 判断 有向图 是否有环的实例讲解
2018/02/01 Python
Python3.5 创建文件的简单实例
2018/04/26 Python
Python实现将数据写入netCDF4中的方法示例
2018/08/30 Python
利用python和百度地图API实现数据地图标注的方法
2019/05/13 Python
python 多进程共享全局变量之Manager()详解
2019/08/15 Python
python实现拉普拉斯特征图降维示例
2019/11/25 Python
python列表推导式入门学习解析
2019/12/02 Python
python通用读取vcf文件的类(复制粘贴即可用)
2020/02/29 Python
windows下的pycharm安装及其设置中文菜单
2020/04/23 Python
python快速安装OpenCV的步骤记录
2021/02/22 Python
html5中canvas学习笔记1-画板的尺寸与实际显示尺寸
2013/01/06 HTML / CSS
EGO Shoes美国/加拿大:英国时髦鞋类品牌
2018/08/04 全球购物
全球最大化妆品零售网站:SkinStore
2020/10/24 全球购物
体育专业学生自我评价范文
2014/01/17 职场文书
大学生毕业求职自荐书范文
2014/02/04 职场文书
入党思想汇报怎么写
2014/04/03 职场文书
解除劳动合同协议书范本
2014/09/13 职场文书
幼师辞职信怎么写
2015/02/27 职场文书
立春观后感
2015/06/18 职场文书
生日赠语
2015/06/23 职场文书
2019年农民幸福观调查的实践感悟
2019/12/19 职场文书
使用opencv-python如何打开USB或者笔记本前置摄像头
2022/06/21 Python