Python爬虫之网页图片抓取的方法


Posted in Python onJuly 16, 2018

一、引入

这段时间一直在学习Python的东西,以前就听说Python爬虫多厉害,正好现在学到这里,跟着小甲鱼的Python视频写了一个爬虫程序,能实现简单的网页图片下载。

二、代码

__author__ = "JentZhang"
import urllib.request
import os
import random
import re
def url_open(url):
  '''
  打开网页
  :param url:
  :return:
  '''
  req = urllib.request.Request(url)
  req.add_header('User-Agent',
          'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36')
  # 应用代理
  '''
  proxyies = ["111.155.116.237:8123","101.236.23.202:8866","122.114.31.177:808"]
  proxy = random.choice(proxyies)
  proxy_support = urllib.request.ProxyHandler({"http": proxy})
  opener = urllib.request.build_opener(proxy_support)
  urllib.request.install_opener(opener)
  '''
  response = urllib.request.urlopen(url)
  html = response.read()
  return html
def save_img(folder, img_addrs):
  '''
  保存图片
  :param folder: 要保存的文件夹
  :param img_addrs: 图片地址(列表)
  :return:
  '''
  # 创建文件夹用来存放图片
  if not os.path.exists(folder):
    os.mkdir(folder)
  os.chdir(folder)
  for each in img_addrs:
    filename = each.split('/')[-1]
    try:
      with open(filename, 'wb') as f:
        img = url_open("http:" + each)
        f.write(img)
    except urllib.error.HTTPError as e:
      # print(e.reason)
      pass
  print('完毕!')
def find_imgs(url):
  '''
  获取全部的图片链接
  :param url: 连接地址
  :return: 图片地址的列表
  '''
  html = url_open(url).decode("utf-8")
  img_addrs = re.findall(r'src="(.+?\.gif)', html)
  return img_addrs
def get_page(url):
  '''
  获取当前一共有多少页的图片
  :param url: 网页地址
  :return:
  '''
  html = url_open(url).decode('utf-8')
  a = html.find("current-comment-page") + 23
  b = html.find("]</span>", a)
  return html[a:b]
def download_mm(url="http://jandan.net/ooxx/", folder="OOXX", pages=1):
  '''
  主程序(下载图片)
  :param folder:默认存放的文件夹
  :param pages: 下载的页数
  :return:
  '''
  page_num = int(get_page(url))
  for i in range(pages):
    page_num -= i
    page_url = url + "page-" + str(page_num) + "#comments"
    img_addrs = find_imgs(page_url)
    save_img(folder, img_addrs)
if __name__ == "__main__":
  download_mm()

三、总结

由于代码中访问的网址已经运用了反爬虫的算法。所以已经爬不到想要的图片啦,so,就当是记了个爬虫的笔记吧。仅供学习参考[捂脸]。。。。

最后:我把jpg格式换成gif,还能爬到可怜的一张gif图:

Python爬虫之网页图片抓取的方法 

第一张正是反爬虫机制的一个图片占位符,完全没有任何内容

总结

以上所述是小编给大家介绍的Python爬虫之网页图片抓取的方法,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
在Python中操作字符串之rstrip()方法的使用
May 19 Python
批量获取及验证HTTP代理的Python脚本
Apr 23 Python
浅谈Python生成器generator之next和send的运行流程(详解)
May 08 Python
Python设计模式之中介模式简单示例
Jan 09 Python
python Celery定时任务的示例
Mar 13 Python
几个适合python初学者的简单小程序,看完受益匪浅!(推荐)
Apr 16 Python
win10下opencv-python特定版本手动安装与pip自动安装教程
Mar 05 Python
Python自动化测试笔试面试题精选
Mar 12 Python
python实现音乐播放和下载小程序功能
Apr 26 Python
使用opencv识别图像红色区域,并输出红色区域中心点坐标
Jun 02 Python
python3将变量输入的简单实例
Aug 19 Python
Python时间操作之pytz模块使用详解
Jun 14 Python
python编辑用户登入界面的实现代码
Jul 16 #Python
python 反向输出字符串的方法
Jul 16 #Python
解决python3 urllib 链接中有中文的问题
Jul 16 #Python
如何用Python实现简单的Markdown转换器
Jul 16 #Python
详解python里的命名规范
Jul 16 #Python
Python 2.7中文显示与处理方法
Jul 16 #Python
Python定时任务sched模块用法示例
Jul 16 #Python
You might like
异世界新番又来了,同样是从零开始,男主的年龄降到5岁
2020/04/09 日漫
MySql中正则表达式的使用方法描述
2008/07/30 PHP
PHP中simplexml_load_string函数使用说明
2011/01/01 PHP
php expects parameter 1 to be resource, array given 错误
2011/03/23 PHP
php中cookie的使用方法
2014/03/29 PHP
快速解决PHP调用Word组件DCOM权限的问题
2017/12/27 PHP
img标签中onerror用法
2009/08/13 Javascript
jquery div拖动效果示例代码
2013/12/08 Javascript
在JS中如何调用JSP中的变量
2014/01/22 Javascript
Jquery获取和修改img的src值的方法
2014/02/17 Javascript
JavaScript极简入门教程(三):数组
2014/10/25 Javascript
js实现适用于素材网站的黑色多级菜单导航条效果
2015/08/24 Javascript
jQuery判断元素是否显示 是否隐藏的简单实现代码
2016/05/19 Javascript
javascript insertAfter()定义与用法示例
2016/07/25 Javascript
jQuery基于函数重载实现自定义Alert函数样式的方法
2016/07/27 Javascript
JS验证字符串功能
2017/02/22 Javascript
在React项目中使用Eslint代码检查工具及常见问题
2018/10/10 Javascript
vuex中遇到的坑,vuex数据改变,组件中页面不渲染操作
2020/11/16 Javascript
ES6 十大特性简介
2020/12/09 Javascript
python控制台显示时钟的示例
2014/02/24 Python
详解Python中的日志模块logging
2015/06/19 Python
Python程序运行原理图文解析
2018/02/10 Python
Python实现删除时保留特定文件夹和文件的示例
2018/04/27 Python
浅谈Python脚本开头及导包注释自动添加方法
2018/10/27 Python
Python的log日志功能及设置方法
2019/07/11 Python
Python Django基础二之URL路由系统
2019/07/18 Python
Django实现CAS+OAuth2的方法示例
2019/10/30 Python
使用spring mvc+localResizeIMG实现HTML5端图片压缩上传的功能
2016/12/16 HTML / CSS
what is the difference between ext2 and ext3
2013/11/03 面试题
电子商务专业自我鉴定
2013/12/18 职场文书
霸气押韵的班级口号
2014/06/09 职场文书
大学生联谊活动策划书(光棍节)
2014/10/10 职场文书
高中班主任评语
2014/12/30 职场文书
工艺技术员岗位职责
2015/02/04 职场文书
消防演习感想
2015/08/10 职场文书
话题作文之生命的旋律
2019/12/17 职场文书