Python3简单爬虫抓取网页图片代码实例


Posted in Python onAugust 26, 2019

现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2),

所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。

import urllib.request
import re
import os
import urllib
#根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 
def getHtml(url):
  page = urllib.request.urlopen(url)
  html = page.read()
  return html.decode('UTF-8')

def getImg(html):
  reg = r'src="(.+?\.jpg)" pic_ext'
  imgre = re.compile(reg)
  imglist = imgre.findall(html)#表示在整个网页中过滤出所有图片的地址,放在imglist中
  x = 0
  path = 'D:\\test' 
  # 将图片保存到D:\\test文件夹中,如果没有test文件夹则创建
  if not os.path.isdir(path): 
    os.makedirs(path) 
  paths = path+'\\'   #保存在test路径下 

  for imgurl in imglist: 
    urllib.request.urlretrieve(imgurl,'{0}{1}.jpg'.format(paths,x)) #打开imglist中保存的图片网址,并下载图片保存在本地,format格式化字符串 
    x = x + 1 
  return imglist
html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息,得到的html就是网页的源代码 
print (getImg(html)) #从网页源代码中分析并下载保存图片

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
浅谈Python 中整型对象的存储问题
May 16 Python
Python使用PyCrypto实现AES加密功能示例
May 22 Python
Python解决N阶台阶走法问题的方法分析
Dec 28 Python
Python实现利用163邮箱远程关电脑脚本
Feb 22 Python
python调用系统ffmpeg实现视频截图、http发送
Mar 06 Python
python pexpect ssh 远程登录服务器的方法
Feb 14 Python
Python实现字典按key或者value进行排序操作示例【sorted】
May 03 Python
解决django无法访问本地static文件(js,css,img)网页里js,cs都加载不了
Apr 07 Python
python使用pymongo与MongoDB基本交互操作示例
Apr 09 Python
Python中的整除和取模实例
Jun 03 Python
如何用Matplotlib 画三维图的示例代码
Jul 28 Python
如何使用Django Admin管理后台导入CSV
Nov 06 Python
python 数据提取及拆分的实现代码
Aug 26 #Python
Python3 使用pillow库生成随机验证码
Aug 26 #Python
python excel转换csv代码实例
Aug 26 #Python
对YOLOv3模型调用时候的python接口详解
Aug 26 #Python
pandas条件组合筛选和按范围筛选的示例代码
Aug 26 #Python
python3 反射的四种基本方法解析
Aug 26 #Python
python接口调用已训练好的caffe模型测试分类方法
Aug 26 #Python
You might like
php mysql procedure实现获取多个结果集的方法【基于thinkPHP】
2016/11/09 PHP
PHP实现文件下载【实例分享】
2017/04/28 PHP
javascript取消文本选定的实现代码
2010/11/14 Javascript
javascript event 事件解析
2011/01/31 Javascript
基于Jquery+Ajax+Json的高效分页实现代码
2011/10/29 Javascript
jquery使用淘宝接口跨域查询手机号码归属地实例
2013/11/28 Javascript
js中array的sort()方法使用介绍
2014/02/20 Javascript
js换图片效果可进行定时操作
2014/06/09 Javascript
JS简单实现tab切换效果的多窗口显示功能
2016/09/07 Javascript
Bootstrap Modal遮罩弹出层(完整版)
2016/11/21 Javascript
超全面的vue.js使用总结
2017/02/12 Javascript
微信小程序 rich-text的使用方法
2017/08/04 Javascript
基于vue-cli 打包时抽离项目相关配置文件详解
2018/03/07 Javascript
angularjs 动态从后台获取下拉框的值方法
2018/08/13 Javascript
详解Vue.js 作用域、slot用法(单个slot、具名slot)
2019/10/15 Javascript
nodejs脚本centos开机启动实操方法
2020/03/04 NodeJs
vue elementui tree 任意级别拖拽功能代码
2020/08/31 Javascript
vue-simple-uploader上传成功之后的response获取代码
2020/09/07 Javascript
vue+vant 上传图片需要注意的地方
2021/01/03 Vue.js
[05:08]DOTA2-DPC中国联赛3月6日Recap集锦
2021/03/11 DOTA
简单了解什么是神经网络
2017/12/23 Python
Odoo中如何生成唯一不重复的序列号详解
2018/02/10 Python
详解Python字符串切片
2019/05/20 Python
django Model层常用验证器及自定义验证器详解
2020/07/15 Python
详解Python 中的容器 collections
2020/08/17 Python
python 递归相关知识总结
2021/03/03 Python
墨尔本最受欢迎的复古风格品牌:Princess Highway
2018/12/21 全球购物
Lululemon加拿大官网:加拿大知名体育服装零售商
2019/04/12 全球购物
C#里面如何倒序排列一个数组的元素?
2013/06/21 面试题
HR喜欢的自荐信格式
2013/10/08 职场文书
心得体会怎么写
2013/12/30 职场文书
拾金不昧的表扬信
2014/01/16 职场文书
小学教师国培感言
2014/02/08 职场文书
教你快速开启Apache SkyWalking的自监控
2021/04/25 Servers
SpringBoot2零基础到精通之异常处理与web原生组件注入
2022/03/22 Java/Android
Java 关于String字符串原理上的问题
2022/04/07 Java/Android