Python3简单爬虫抓取网页图片代码实例


Posted in Python onAugust 26, 2019

现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2),

所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。

import urllib.request
import re
import os
import urllib
#根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 
def getHtml(url):
  page = urllib.request.urlopen(url)
  html = page.read()
  return html.decode('UTF-8')

def getImg(html):
  reg = r'src="(.+?\.jpg)" pic_ext'
  imgre = re.compile(reg)
  imglist = imgre.findall(html)#表示在整个网页中过滤出所有图片的地址,放在imglist中
  x = 0
  path = 'D:\\test' 
  # 将图片保存到D:\\test文件夹中,如果没有test文件夹则创建
  if not os.path.isdir(path): 
    os.makedirs(path) 
  paths = path+'\\'   #保存在test路径下 

  for imgurl in imglist: 
    urllib.request.urlretrieve(imgurl,'{0}{1}.jpg'.format(paths,x)) #打开imglist中保存的图片网址,并下载图片保存在本地,format格式化字符串 
    x = x + 1 
  return imglist
html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息,得到的html就是网页的源代码 
print (getImg(html)) #从网页源代码中分析并下载保存图片

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
有关wxpython pyqt内存占用问题分析
Jun 09 Python
Python中的map()函数和reduce()函数的用法
Apr 27 Python
Python中list列表的一些进阶使用方法介绍
Aug 15 Python
Python操作MongoDB详解及实例
May 18 Python
TF-IDF与余弦相似性的应用(一) 自动提取关键词
Dec 21 Python
在windows下Python打印彩色字体的方法
May 15 Python
python3 http提交json参数并获取返回值的方法
Dec 19 Python
python接口自动化测试之接口数据依赖的实现方法
Apr 26 Python
Flask框架工厂函数用法实例分析
May 25 Python
对Python3中列表乘以某一个数的示例详解
Jul 20 Python
有趣的Python图片制作之如何用QQ好友头像拼接出里昂
Apr 22 Python
Python gevent协程切换实现详解
Sep 14 Python
python 数据提取及拆分的实现代码
Aug 26 #Python
Python3 使用pillow库生成随机验证码
Aug 26 #Python
python excel转换csv代码实例
Aug 26 #Python
对YOLOv3模型调用时候的python接口详解
Aug 26 #Python
pandas条件组合筛选和按范围筛选的示例代码
Aug 26 #Python
python3 反射的四种基本方法解析
Aug 26 #Python
python接口调用已训练好的caffe模型测试分类方法
Aug 26 #Python
You might like
便携利器 — TECSUN PL-365简评
2021/03/02 无线电
php中spl_autoload详解
2014/10/17 PHP
php获取YouTube视频信息的方法
2015/02/11 PHP
php查看当前Session的ID实例
2015/03/16 PHP
php获取Google机器人访问足迹的方法
2015/04/15 PHP
检测是否已安装 .NET Framework 3.5的js脚本
2009/02/14 Javascript
js 返回时间戳所对应的具体时间
2010/07/20 Javascript
javascript中的return和闭包函数浅析
2014/06/06 Javascript
TinyMCE提交AjaxForm获取不到数据的解决方法
2015/03/05 Javascript
使用JavaScript脚本无法直接改变Asp.net中Checkbox控件的Enable属性的解决方法
2015/09/16 Javascript
超赞的jQuery图片滑块动画特效代码汇总
2016/01/25 Javascript
在IE8上JS实现combobox支持拼音检索功能
2016/05/23 Javascript
概述一个页面从输入URL到页面加载完的过程
2016/12/16 Javascript
详解jquery选择器的原理
2017/08/01 jQuery
深入理解Node.js中通用基础设计模式
2017/09/19 Javascript
jQuery动态移除与增加onclick属性的方法详解
2018/06/07 jQuery
VUE中v-on:click事件中获取当前dom元素的代码
2018/08/22 Javascript
jQuery实现鼠标移到某个对象时弹出显示层功能
2018/08/23 jQuery
vue 中固定导航栏的实例代码
2019/11/01 Javascript
vue中v-model对select的绑定操作
2020/08/31 Javascript
javascript实现点击按钮切换轮播图功能
2020/09/23 Javascript
js中复选框的取值及赋值示例详解
2020/10/18 Javascript
原生js实现自定义消息提示框
2020/11/19 Javascript
[03:55]TI9战队采访——TNC Predator
2019/08/22 DOTA
python开发中module模块用法实例分析
2015/11/12 Python
python3实现TCP协议的简单服务器和客户端案例(分享)
2017/06/14 Python
Python实现的爬虫功能代码
2017/06/24 Python
python爬取网页转换为PDF文件
2018/06/07 Python
python_array[0][0]与array[0,0]的区别详解
2020/02/18 Python
详解python常用命令行选项与环境变量
2020/02/20 Python
canvas 阴影和图形变换的示例代码
2018/01/02 HTML / CSS
餐饮业会计岗位职责
2013/12/19 职场文书
小学班主任寄语大全
2014/04/04 职场文书
师范生见习自我总结
2015/06/23 职场文书
餐馆开业致辞
2015/08/01 职场文书
游戏《铁拳》动画化!2022年年内播出
2022/03/21 日漫