编程 Python

Python3直接爬取图片URL并保存示例

Posted in Python onDecember 18, 2019

有时候我们会需要从网络上爬取一些图片，来满足我们形形色色直至不可描述的需求。

一个典型的简单爬虫项目步骤包括两步：获取网页地址和提取保存数据。

这里是一个简单的从图片url收集图片的例子，可以成为一个小小的开始。

获取地址

这些图片的URL可能是连续变化的，如从001递增到099，这种情况可以在程序中将共同的前面部分截取，再在最后递增并字符串化后循环即可。

抑或是它们的URL都保存在某个文件中，这时可以读取到列表中：

def getUrls(path):
  urls = []
  with open(path,'r') as f:
    for line in f:
      urls.append(line.strip('\n'))
  return(urls)

保存图片

在python3中，urllib提供了一系列用于操作URL的功能，其中的request模块可以非常方便地抓取URL内容，也就是发送一个GET请求到指定的页面，然后返回HTTP的响应。具体细节请看注释：

def requestImg(url, name, num_retries=3):
  img_src = url
  # print(img_src)
  header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) \
    AppleWebKit/537.36 (KHTML, like Gecko) \
      Chrome/35.0.1916.114 Safari/537.36',
    'Cookie': 'AspxAutoDetectCookieSupport=1'
  }
  # Request类可以使用给定的header访问URL
  req = urllib.request.Request(url=img_src, headers=header) 
  try:
    response = urllib.request.urlopen(req) # 得到访问的网址
    filename = name + '.jpg'
    with open(filename, "wb") as f:
      content = response.read() # 获得图片
      f.write(content) # 保存图片
      response.close()
  except HTTPError as e: # HTTP响应异常处理
    print(e.reason)
  except URLError as e: # 一定要放到HTTPError之后，因为它包含了前者
    print(e.reason)
  except IncompleteRead or RemoteDisconnected as e: 
    if num_retries == 0: # 重连机制
      return
    else:
      requestImg(url, name, num_retries-1)

其他

捕获异常

以下是批量爬取网页时可能需要捕获的异常，同时可以看出，urllib2库对应urllib库，而httplib库对应http.client：

Python2	Pyhton3
urllib2.HTTPError	urllib.error.HTTPError
urllib2.URLError	urllib.error.URLError (HTTPError被包含其中)
httplib.IncompleteRead	http.client.IncompleteRead
httplib.RemoteDisconnected	http.client.RemoteDisconnected

重连机制

在函数参数中设置一个参数num_retries并对其进行初始化，即默认参数。在某些异常出现时可以将该参数递减，再让它递归调用自身，这就是基本的重连机制。

修饰器

有种设计模式叫修饰器模式，它可以在不修改目标函数代码的前提下，在目标函数执行前后增加一些额外功能。

def clock(func): # 修饰器函数，对函数计时
  def clocked(*args):
    t0 = timeit.default_timer()
    result = func(*args)
    elapsed = timeit.default_timer() - t0
    name = func.__name__
    arg_str = ', '.join(repr(arg) for arg in args)
    print('[%0.8fs] %s(%s)' % (elapsed, name, arg_str))
    # print('%s(%s) -> %r [%0.8fs]' % (name, arg_str, result, elapsed))
    return result
  return clocked

上面这段代码是修饰器函数的一个例子，用来对函数运行时间进行计时，在需要计时的函数上一行添加一点点代码即可：

@clock

完整代码

from urllib.error import HTTPError, URLError
from http.client import IncompleteRead, RemoteDisconnected
import timeit, time
import urllib.request
import socket
 
 
# timeout = 20
# socket.setdefaulttimeout(timeout) # 等待，防止被简单地反爬
 
 
def getUrls(path):
  urls = []
  with open(path,'r') as f:
    for line in f:
      urls.append(line.strip('\n'))
  return(urls)
 
 
def clock(func): # 修饰器函数，对函数计时
  def clocked(*args):
    t0 = timeit.default_timer()
    result = func(*args)
    elapsed = timeit.default_timer() - t0
    name = func.__name__
    arg_str = ', '.join(repr(arg) for arg in args)
    print('[%0.8fs] %s(%s)' % (elapsed, name, arg_str))
    # print('%s(%s) -> %r [%0.8fs]' % (name, arg_str, result, elapsed))
    return result
  return clocked
 
 
@clock
def requestImg(url, name, num_retries=3):
  img_src = url
  # print(img_src)
  header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) \
    AppleWebKit/537.36 (KHTML, like Gecko) \
      Chrome/35.0.1916.114 Safari/537.36',
    'Cookie': 'AspxAutoDetectCookieSupport=1'
  }
  req = urllib.request.Request(url=img_src, headers=header)
  try:
    response = urllib.request.urlopen(req)
    filename = name + '.jpg'
    with open(filename, "wb") as f:
      content = response.read()
      f.write(content)
      response.close()
  except HTTPError as e:
    print(e.reason)
  except URLError as e:
    print(e.reason)
  except IncompleteRead or RemoteDisconnected as e:
    if num_retries == 0:
      return
    else:
      requestImg(url, name, num_retries-1)
 
 
 
if __name__ =='__main__':
  urls = getUrls('./'URLS.txt') # 换成你的URL文件路径
  nLines = len(urls)
  print(nLines)
  for index, value in enumerate(urls):
      requestImg(value, './'+str(index).zfill(6)) # zfill用来格式化数字：000001

以上这篇Python3直接爬取图片URL并保存示例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Python3直接爬取图片URL并保存示例

- Author -

TelAntiNomy

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

初步解析Python下的多进程编程

Apr 28 Python

Python 爬虫学习笔记之单线程爬虫

Sep 21 Python

python 获取字符串MD5值方法

May 29 Python

python 递归深度优先搜索与广度优先搜索算法模拟实现

Oct 22 Python

python安装pywin32clipboard的操作方法

Jan 24 Python

Python3.5文件修改操作实例分析

May 01 Python

Python实现实时数据采集新型冠状病毒数据实例

Feb 04 Python

Python类super()及私有属性原理解析

Jun 15 Python

使用TensorBoard进行超参数优化的实现

Jul 06 Python

用于ETL的Python数据转换工具详解

Jul 21 Python

Python通过字典映射函数实现switch

Nov 06 Python

如何用python开发Zeroc Ice应用

Jan 29 Python

python 实现图片上传接口开发并生成可以访问的图片url

Dec 18 #Python

Python谱减法语音降噪实例

Dec 18 #Python

利用PyCharm操作Github(仓库新建、更新，代码回滚)

Dec 18 #Python

使用python 对验证码图片进行降噪处理

Dec 18 #Python

如何使用Python多线程测试并发漏洞

Dec 18 #Python

Python实现图像去噪方式(中值去噪和均值去噪)

Dec 18 #Python

python 中值滤波,椒盐去噪,图片增强实例

Dec 18 #Python

You might like

DC动画很好看？新作烂得令人发指，名叫《红色之子》

2020/04/09 欧美动漫

Yii列表定义与使用分页方法小结(3种方法)

2016/07/15 PHP

jquery实现表格奇数偶数行不同样式(有图为证及实现代码)

2013/01/23 Javascript

探讨在JQuery和Js中,如何让ajax执行完后再继续往下执行

2013/07/09 Javascript

js+html5获取用户地理位置信息并在Google地图上显示的方法

2015/06/05 Javascript

实践中学习AngularJS表单

2016/03/21 Javascript

jQuery Easyui使用(一)之可折叠面板的布局手风琴菜单

2016/08/17 Javascript

ES6学习笔记之Set和Map数据结构详解

2017/04/07 Javascript

jQuery遍历节点方法汇总(推荐)

2017/05/13 jQuery

angularjs定时任务的设置与清除示例

2017/06/02 Javascript

AngularJS自定义表单验证功能实例详解

2018/08/24 Javascript

利用原生的JavaScript实现简单拼图游戏

2018/11/18 Javascript

详解js根据百度地图提供经纬度计算两点距离

2019/05/13 Javascript

小程序封装路由文件和路由方法(5种全解析)

2019/05/26 Javascript

详细分析vue响应式原理

2020/06/22 Javascript

JS可断点续传文件上传实现代码解析

2020/07/30 Javascript

了不起的11个JavaScript代码重构最佳实践小结

2021/01/11 Javascript

Python三元运算实现方法

2015/01/12 Python

PyGame贪吃蛇的实现代码示例

2018/11/21 Python

selenium+python设置爬虫代理IP的方法

2018/11/29 Python

浅谈python下tiff图像的读取和保存方法

2018/12/04 Python

python中partial()基础用法说明

2018/12/30 Python

python下载微信公众号相关文章

2019/02/26 Python

python实现字符串加密成纯数字

2019/03/19 Python

Python利用lxml模块爬取豆瓣读书排行榜的方法与分析

2019/04/15 Python

Python3.5以上版本lxml导入etree报错的解决方案

2019/06/26 Python

Django实现网页分页功能

2019/10/31 Python

python中selenium库的基本使用详解

2020/07/31 Python

Python txt文件如何转换成字典

2020/11/03 Python

python中if嵌套命令实例讲解

2021/02/25 Python

利用CSS3的transform做的动态时钟效果

2011/09/21 HTML / CSS

Foot Locker意大利官网：全球领先的运动鞋和服装零售商

2017/05/30 全球购物

捷克钓鱼用品网上商店：Parys.cz

2018/06/15 全球购物

先进员工获奖感言

2014/08/14 职场文书

学校运动会加油词

2015/07/18 职场文书

解决Nginx 配置 proxy_pass 后返回404问题

2021/03/31 Servers