编程 Python

Python实现简单网页图片抓取完整代码实例

Posted in Python onDecember 15, 2017

利用python抓取网络图片的步骤是：
1、根据给定的网址获取网页源代码
2、利用正则表达式把源代码中的图片地址过滤出来
3、根据过滤出来的图片地址下载网络图片

以下是比较简单的一个抓取某一个百度贴吧网页的图片的实现：

# -*- coding: utf-8 -*- 
# feimengjuan 
import re 
import urllib 
import urllib2 
#抓取网页图片  
#根据给定的网址来获取网页详细信息，得到的html就是网页的源代码 
def getHtml(url): 
  page = urllib.urlopen(url) 
  html = page.read() 
  return html 
 def getImg(html): 
  #利用正则表达式把源代码中的图片地址过滤出来 
  reg = r'src="(.+?\.jpg)" pic_ext' 
  imgre = re.compile(reg) 
  imglist = imgre.findall(html) #表示在整个网页中过滤出所有图片的地址，放在imglist中 
  x = 0 
  for imgurl in imglist: 
    urllib.urlretrieve(imgurl,'%s.jpg' %x) #打开imglist中保存的图片网址，并下载图片保存在本地 
    x = x + 1 
 html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息，得到的html就是网页的源代码 
getImg(html)#从网页源代码中分析并下载保存图片

进一步对代码进行了整理，在本地创建了一个“图片”文件夹来保存图片

# -*- coding: utf-8 -*- 
# feimengjuan 
import re 
import urllib 
import urllib2 
import os 
#抓取网页图片  
#根据给定的网址来获取网页详细信息，得到的html就是网页的源代码 
def getHtml(url): 
  page = urllib.urlopen(url) 
  html = page.read() 
  return html 
 
#创建保存图片的文件夹 
def mkdir(path): 
  path = path.strip() 
  # 判断路径是否存在 
  # 存在  True 
  # 不存在 Flase 
  isExists = os.path.exists(path) 
  if not isExists: 
    print u'新建了名字叫做',path,u'的文件夹' 
    # 创建目录操作函数 
    os.makedirs(path) 
    return True 
  else: 
    # 如果目录存在则不创建，并提示目录已经存在 
    print u'名为',path,u'的文件夹已经创建成功' 
    return False 
# 输入文件名，保存多张图片 
def saveImages(imglist,name): 
  number = 1 
  for imageURL in imglist: 
    splitPath = imageURL.split('.') 
    fTail = splitPath.pop() 
    if len(fTail) > 3: 
      fTail = 'jpg' 
    fileName = name + "/" + str(number) + "." + fTail 
    # 对于每张图片地址，进行保存 
    try: 
      u = urllib2.urlopen(imageURL) 
      data = u.read() 
      f = open(fileName,'wb+') 
      f.write(data) 
      print u'正在保存的一张图片为',fileName 
      f.close() 
    except urllib2.URLError as e: 
      print (e.reason) 
    number += 1  
#获取网页中所有图片的地址 
def getAllImg(html): 
  #利用正则表达式把源代码中的图片地址过滤出来 
  reg = r'src="(.+?\.jpg)" pic_ext' 
  imgre = re.compile(reg) 
  imglist = imgre.findall(html) #表示在整个网页中过滤出所有图片的地址，放在imglist中 
  return imglist   
#创建本地保存文件夹，并下载保存图片 
if __name__ == '__main__': 
  html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息，得到的html就是网页的源代码 
  path = u'图片' 
  mkdir(path) #创建本地文件夹 
  imglist = getAllImg(html) #获取图片的地址列表 
  saveImages(imglist,path) # 保存图片

结果在“图片”文件夹下保存了几十张图片，如截图：

Python实现简单网页图片抓取完整代码实例

总结

以上就是本文关于Python实现简单网页图片抓取完整代码实例的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站：

如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

Python实现简单网页图片抓取完整代码实例

- Author -

以后以后

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python 网络编程起步(Socket发送消息)

Sep 06 Python

Python不规范的日期字符串处理类

Jun 10 Python

简单易懂的python环境安装教程

Jul 13 Python

Python3爬虫之自动查询天气并实现语音播报

Feb 21 Python

Python利用sqlacodegen自动生成ORM实体类示例

Jun 04 Python

用openCV和Python 实现图片对比,并标识出不同点的方式

Dec 19 Python

python3格式化字符串 f-string的高级用法(推荐)

Mar 04 Python

如何基于python对接钉钉并获取access_token

Apr 21 Python

python如何查看安装了的模块

Jun 23 Python

Python爬虫逆向分析某云音乐加密参数的实例分析

Dec 04 Python

TensorFlow低版本代码自动升级为1.0版本

Feb 20 Python

用python基于appium模块开发一个自动收取能量的小助手

Sep 25 Python

利用numpy实现一、二维数组的拼接简单代码示例

Dec 15 #Python

神经网络python源码分享

Dec 15 #Python

神经网络理论基础及Python实现详解

Dec 15 #Python

浅谈机器学习需要的了解的十大算法

Dec 15 #Python

python实现协同过滤推荐算法完整代码示例

Dec 15 #Python

python3大文件解压和基本操作

Dec 15 #Python

Python数据结构与算法之常见的分配排序法示例【桶排序与基数排序】

Dec 15 #Python

You might like

深入解析PHP的引用计数机制

2013/06/14 PHP

解析php中curl_multi的应用

2013/07/17 PHP

destoon实现首页显示供应、企业、资讯条数的方法

2014/07/15 PHP

关于PHP 如何用 curl 读取 HTTP chunked 数据

2016/02/26 PHP

疯掉了,尽然有js写的操作系统

2007/04/23 Javascript

jQuery的三种$()

2009/12/30 Javascript

关于JavaScript定义类和对象的几种方式

2010/11/09 Javascript

js控制表单不能输入空格的小例子

2013/11/20 Javascript

jQuery实现菜单式图片滑动切换

2015/03/14 Javascript

jQuery构造函数init参数分析

2015/05/13 Javascript

百度地图api如何使用

2015/08/03 Javascript

Node.js 日志处理模块log4js

2016/08/28 Javascript

JavaScript数据结构之链表的实现

2017/03/19 Javascript

jquery实现用户登陆界面(示例讲解)

2017/09/06 jQuery

详解Vue、element-ui、axios实现省市区三级联动

2019/05/07 Javascript

vue实现在线翻译功能

2019/09/27 Javascript

JS实现横向轮播图（初级版）

2020/06/24 Javascript

在vue中created、mounted等方法使用小结

2020/07/21 Javascript

关于Python数据结构中字典的心得

2017/12/04 Python

Django框架实现的分页demo示例

2019/05/25 Python

Python利用Scrapy框架爬取豆瓣电影示例

2020/01/17 Python

HTML5有哪些新特征

2015/12/01 HTML / CSS

canvas绘制视频封面的方法

2018/02/05 HTML / CSS

意大利综合购物网站：Giordano Shop

2016/10/21 全球购物

Speedo速比涛中国官方网站：全球领先泳装运动品牌

2018/04/24 全球购物

巴西服装和鞋子购物网站：Marisa

2018/10/25 全球购物

日本最佳原创设计品牌：Felissimo（芬理希梦）

2019/03/19 全球购物

Michael Kors香港官网：美国奢侈品品牌

2019/12/26 全球购物

DTD的含义以及作用

2014/01/26 面试题

中专生学习生活的自我评价分享

2013/10/27 职场文书

开办化妆品公司创业计划书

2013/12/26 职场文书

运动会通讯稿150字

2014/02/15 职场文书

国际经济与贸易专业求职信

2014/07/10 职场文书

结对共建协议书

2014/08/20 职场文书

建筑工地资料员岗位职责

2015/04/13 职场文书

呼兰河传读书笔记

2015/06/30 职场文书