编程 Python

python3 requests库实现多图片爬取教程

Posted in Python onDecember 18, 2019

最近对爬虫比较感兴趣，所以就学了一下，看人家都在网上爬取那么多美女图片养眼，我也迫不及待的试了一下，不多说，切入正题。

其实爬取图片和你下载图片是一个样子的，都是操作链接，也就是url，所以当我们确定要爬取的东西后就要开始寻找url了，所以先打开百度图片搜一下

然后使用浏览器F12进入开发者模式，或者右键检查元素

python3 requests库实现多图片爬取教程

注意看xhr，点开观察有什么不一样的（如果没有xhr就在网页下滑）

第一个是这样的

第二个是这样的

注意看，pn是不是是30的倍数，而此时网页图片的数量也在增多，发现了这个，进url看一下，首先看原网页源码

view-source:http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111121&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E7%BE%8E%E5%A5%B3&oq=%E7%BE%8E%E5%A5%B3&rsp=-1

再看看两个Requests URL的页面，发现都是这样的

不用管他，找我们要的信息，ObjURL，"ObjURL":"http:\/\/image.tianjimedia.com\/uploadimages\/2015\/131\/34\/545szi3x5s84_680x500.jpg"

就是这个，好，现在东西都找到在哪了，写程序咯

import re
import requests
import os
 
name=input('输入文件夹名称:')
robot='C:/Users/lenovo/Desktop/'+name+'/'
kv={'user-agent':'mozilla/5.0'}
 
#获取url对应的源码页面
def getHTMLText(url):
 try:
  r=requests.get(url,timeout=30,headers=kv)
  r.raise_for_status()
  r.encoding=r.apparent_encoding
  return r.text
 except:
  return ''
 
#解析url源码页面
def parserHTML(html):
#正则表达式为获取ObjURL
 pattern=r'"ObjURL":"(.*?)"'
 reg=re.compile(pattern)
 urls=re.findall(reg,html)
 return urls
 
#下载图片
def download(List):
 for url in List:
  try:
   path=robot+url.split('/')[-1]
   url=url.replace('\\','')
   r=requests.get(url,timeout=30)
   r.raise_for_status()
   r.encoding=r.apparent_encoding
   if not os.path.exists(robot):
    os.makedirs(robot)
   if not os.path.exists(path):
    with open(path,'wb') as f:
     f.write(r.content)
     f.close()
     print(path+' 文件保存成功')
   else:
    print('文件已经存在')
  except:
   continue
 
#通过Requests URL请求到更多的url源码页面
def getmoreurl(num,word):
 ur=[]
 url=r'http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord={word}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word={word}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&cg=girl&pn={pn}&rn=30'
 for x in range(1,num+1):
#word为搜索关键词，num为想获取的页面数量
  u=url.format(word=word,pn=30*x)
  ur.append(u)
 return ur
 
def main():
 n=int(input('输入想下载多少张图片(n*30)：'))
 word=input('输入想下载的图片:')
#初始页面url
 url='http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1499773676062_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word={word}'.format(word=word)
 html=getHTMLText(url)
 urls=parserHTML(html)
 download(urls)
#下面操作获取的更多页面图片
 url1=getmoreurl(n,word)
 for i in range(n):
  html1=getHTMLText(url1[i])
  urls1=parserHTML(html1)
  download(urls1)
 
main()

然后试一试效果

python3 requests库实现多图片爬取教程

我知道你们会原谅我的

以上这篇python3 requests库实现多图片爬取教程就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python3 requests库实现多图片爬取教程

- Author -

small_brother

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

php使用递归与迭代实现快速排序示例

Jan 23 Python

Python中的localtime()方法使用详解

May 22 Python

python实现字典(dict)和字符串(string)的相互转换方法

Mar 01 Python

Python爬虫框架Scrapy基本用法入门教程

Jul 26 Python

tensorflow 用矩阵运算替换for循环用tf.tile而不写for的方法

Jul 27 Python

django进阶之cookie和session的使用示例

Aug 17 Python

详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决

Aug 27 Python

python下载库的步骤方法

Oct 12 Python

pytorch 实现查看网络中的参数

Jan 06 Python

python pprint模块中print()和pprint()两者的区别

Feb 10 Python

Python面向对象魔法方法和单例模块代码实例

Mar 25 Python

python实现udp聊天窗口

Mar 31 Python

在notepad++中实现直接运行python代码

Dec 18 #Python

简单了解python装饰器原理及使用方法

Dec 18 #Python

修改Pandas的行或列的名字(重命名)

Dec 18 #Python

Python3直接爬取图片URL并保存示例

Dec 18 #Python

python 实现图片上传接口开发并生成可以访问的图片url

Dec 18 #Python

Python谱减法语音降噪实例

Dec 18 #Python

利用PyCharm操作Github(仓库新建、更新，代码回滚)

Dec 18 #Python

You might like

PHP使用json_encode函数时不转义中文的解决方法

2014/11/12 PHP

ThinkPHP中RBAC类的四种用法分析

2014/11/24 PHP

thinkPHP学习笔记之安装配置篇

2015/03/05 PHP

Apache服务器下防止图片盗链的办法

2015/07/06 PHP

php resizeimage 部分jpg文件生成缩略图失败的原因分析及解决办法

2016/03/23 PHP

php rmdir使用递归函数删除非空目录实例详解

2016/10/20 PHP

jQuery初学:find()方法及children方法的区别分析

2011/01/31 Javascript

利用jquery操作Radio方法小结

2014/10/20 Javascript

JavaScript实现的背景自动变色代码

2015/10/17 Javascript

解决jQuery上传插件Uploadify出现Http Error 302错误的方法

2015/12/18 Javascript

如何解决IONIC页面底部被遮住无法向上滚动问题

2016/09/06 Javascript

浅谈javascript:两种注释,声明变量,定义函数

2016/10/05 Javascript

Python 类的继承实例详解

2017/03/25 Python

利用python爬取斗鱼app中照片方法实例

2017/12/03 Python

Python 判断有向图是否有环的实例讲解

2018/02/01 Python

Python3.5 创建文件的简单实例

2018/04/26 Python

Python实现将数据写入netCDF4中的方法示例

2018/08/30 Python

利用python和百度地图API实现数据地图标注的方法

2019/05/13 Python

python 多进程共享全局变量之Manager()详解

2019/08/15 Python

python实现拉普拉斯特征图降维示例

2019/11/25 Python

python列表推导式入门学习解析

2019/12/02 Python

python通用读取vcf文件的类（复制粘贴即可用）

2020/02/29 Python

windows下的pycharm安装及其设置中文菜单

2020/04/23 Python

python快速安装OpenCV的步骤记录

2021/02/22 Python

html5中canvas学习笔记1-画板的尺寸与实际显示尺寸

2013/01/06 HTML / CSS

EGO Shoes美国/加拿大：英国时髦鞋类品牌

2018/08/04 全球购物

全球最大化妆品零售网站：SkinStore

2020/10/24 全球购物

体育专业学生自我评价范文

2014/01/17 职场文书

大学生毕业求职自荐书范文

2014/02/04 职场文书

入党思想汇报怎么写

2014/04/03 职场文书

解除劳动合同协议书范本

2014/09/13 职场文书

幼师辞职信怎么写

2015/02/27 职场文书

立春观后感

2015/06/18 职场文书

生日赠语

2015/06/23 职场文书

2019年农民幸福观调查的实践感悟

2019/12/19 职场文书

使用opencv-python如何打开USB或者笔记本前置摄像头

2022/06/21 Python