Python3简单爬虫抓取网页图片代码实例


Posted in Python onAugust 26, 2019

现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2),

所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。

import urllib.request
import re
import os
import urllib
#根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 
def getHtml(url):
  page = urllib.request.urlopen(url)
  html = page.read()
  return html.decode('UTF-8')

def getImg(html):
  reg = r'src="(.+?\.jpg)" pic_ext'
  imgre = re.compile(reg)
  imglist = imgre.findall(html)#表示在整个网页中过滤出所有图片的地址,放在imglist中
  x = 0
  path = 'D:\\test' 
  # 将图片保存到D:\\test文件夹中,如果没有test文件夹则创建
  if not os.path.isdir(path): 
    os.makedirs(path) 
  paths = path+'\\'   #保存在test路径下 

  for imgurl in imglist: 
    urllib.request.urlretrieve(imgurl,'{0}{1}.jpg'.format(paths,x)) #打开imglist中保存的图片网址,并下载图片保存在本地,format格式化字符串 
    x = x + 1 
  return imglist
html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息,得到的html就是网页的源代码 
print (getImg(html)) #从网页源代码中分析并下载保存图片

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
详解python3中zipfile模块用法
Jun 18 Python
Python实现的网页截图功能【PyQt4与selenium组件】
Jul 12 Python
Python 实现文件打包、上传与校验的方法
Feb 13 Python
Python使用itchat模块实现简单的微信控制电脑功能示例
Aug 26 Python
Python Web静态服务器非堵塞模式实现方法示例
Nov 21 Python
Win下PyInstaller 安装和使用教程
Dec 25 Python
Python autoescape标签用法解析
Jan 17 Python
Django模板标签{% for %}循环,获取制定条数据实例
May 14 Python
Python如何实现FTP功能
May 28 Python
python 判断一组数据是否符合正态分布
Sep 23 Python
Django 用户认证Auth组件的使用
Nov 30 Python
python openpyxl模块的使用详解
Feb 25 Python
python 数据提取及拆分的实现代码
Aug 26 #Python
Python3 使用pillow库生成随机验证码
Aug 26 #Python
python excel转换csv代码实例
Aug 26 #Python
对YOLOv3模型调用时候的python接口详解
Aug 26 #Python
pandas条件组合筛选和按范围筛选的示例代码
Aug 26 #Python
python3 反射的四种基本方法解析
Aug 26 #Python
python接口调用已训练好的caffe模型测试分类方法
Aug 26 #Python
You might like
Linux操作系统安装LAMP环境
2015/06/26 PHP
JavaScript 获得选中文本内容的方法
2009/02/15 Javascript
javascript 写类方式之三
2009/07/05 Javascript
utf-8编码引起js输出中文乱码的解决办法
2010/06/23 Javascript
Javascript学习笔记之 对象篇(四) : for in 循环
2014/06/24 Javascript
Javascript中拼接大量字符串的方法
2015/02/05 Javascript
jquery实现的淡入淡出下拉菜单效果
2015/08/25 Javascript
举例讲解JavaScript substring()的使用方法
2015/11/09 Javascript
如何利用AngularJS打造一款简单Web应用
2015/12/05 Javascript
移动端翻页插件dropload.js(支持Zepto和jQuery)
2016/07/27 Javascript
在 Angular2 中实现自定义校验指令(确认密码)的方法
2017/01/23 Javascript
JavaScript实现鼠标点击导航栏变色特效
2017/02/08 Javascript
node.js支持多用户web终端实现及安全方案
2017/11/29 Javascript
JavaScript如何对图片进行黑白化
2018/04/10 Javascript
微信小程序实现留言板(Storage)
2018/11/02 Javascript
详解vue 图片上传功能
2019/04/30 Javascript
jquery实现动态创建form并提交的方法示例
2019/05/27 jQuery
JavaScript 实现同时选取多个时间段的方法
2019/10/17 Javascript
纯js+css实现仿移动端淘宝网站的弹出详情框功能
2019/12/29 Javascript
JS 创建对象的模式实例小结
2020/04/28 Javascript
[05:05]给小松五分钟系列 第二期介绍为什么打DOTA2
2014/07/02 DOTA
python的keyword模块用法实例分析
2015/06/30 Python
python中的for循环
2018/09/28 Python
python turtle库画一个方格和圆实例
2019/06/27 Python
jenkins配置python脚本定时任务过程图解
2019/10/29 Python
Python flask框架端口失效解决方案
2020/06/04 Python
解决Keras中CNN输入维度报错问题
2020/06/29 Python
Python hashlib模块的使用示例
2020/10/09 Python
印度第一网上礼品店:IGP.com
2020/02/06 全球购物
Java的类与C++的类有什么不同
2014/01/18 面试题
幼儿教师思想汇报
2014/01/10 职场文书
群众路线剖析材料
2014/02/02 职场文书
项目合作协议书
2014/09/23 职场文书
大学毕业生自我评价
2015/03/02 职场文书
汶川大地震感悟
2015/08/10 职场文书
2016年“我们的节日·端午节”活动总结
2016/04/01 职场文书