Python3简单爬虫抓取网页图片代码实例


Posted in Python onAugust 26, 2019

现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2),

所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。

import urllib.request
import re
import os
import urllib
#根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 
def getHtml(url):
  page = urllib.request.urlopen(url)
  html = page.read()
  return html.decode('UTF-8')

def getImg(html):
  reg = r'src="(.+?\.jpg)" pic_ext'
  imgre = re.compile(reg)
  imglist = imgre.findall(html)#表示在整个网页中过滤出所有图片的地址,放在imglist中
  x = 0
  path = 'D:\\test' 
  # 将图片保存到D:\\test文件夹中,如果没有test文件夹则创建
  if not os.path.isdir(path): 
    os.makedirs(path) 
  paths = path+'\\'   #保存在test路径下 

  for imgurl in imglist: 
    urllib.request.urlretrieve(imgurl,'{0}{1}.jpg'.format(paths,x)) #打开imglist中保存的图片网址,并下载图片保存在本地,format格式化字符串 
    x = x + 1 
  return imglist
html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息,得到的html就是网页的源代码 
print (getImg(html)) #从网页源代码中分析并下载保存图片

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python的tkinter布局之简单的聊天窗口实现方法
Sep 03 Python
python处理csv数据的方法
Mar 11 Python
在Python中移动目录结构的方法
Jan 31 Python
举例讲解Python中的Null模式与桥接模式编程
Feb 02 Python
python 字典(dict)按键和值排序
Jun 28 Python
Python搭建HTTP服务器和FTP服务器
Mar 09 Python
python实现给微信公众号发送消息的方法
Jun 30 Python
Python函数装饰器原理与用法详解
Aug 16 Python
python getpass实现密文实例详解
Sep 24 Python
pytorch的batch normalize使用详解
Jan 15 Python
python安装和pycharm环境搭建设置方法
May 27 Python
Pytorch中Softmax与LogSigmoid的对比分析
Jun 05 Python
python 数据提取及拆分的实现代码
Aug 26 #Python
Python3 使用pillow库生成随机验证码
Aug 26 #Python
python excel转换csv代码实例
Aug 26 #Python
对YOLOv3模型调用时候的python接口详解
Aug 26 #Python
pandas条件组合筛选和按范围筛选的示例代码
Aug 26 #Python
python3 反射的四种基本方法解析
Aug 26 #Python
python接口调用已训练好的caffe模型测试分类方法
Aug 26 #Python
You might like
PHP 木马攻击防御技巧
2009/06/13 PHP
PHP number_format函数原理及实例解析
2020/07/14 PHP
asp.net 30分钟掌握无刷新 Repeater
2011/09/16 Javascript
实用的Jquery选项卡TAB示例代码
2013/08/28 Javascript
浅析return false的正确使用
2013/11/04 Javascript
jquery ajax 局部无刷新更新数据的实现案例
2014/02/08 Javascript
JQuery动态添加和删除表格行的方法
2015/03/09 Javascript
JavaScript中的定时器之Item23的合理使用
2015/10/30 Javascript
Bootstrap源码解读按钮(5)
2016/12/23 Javascript
微信小程序icon组件使用详解
2018/01/31 Javascript
nodejs多版本管理总结
2018/04/03 NodeJs
深入浅析javascript函数中with
2018/10/28 Javascript
Nuxt.js开启SSR渲染的教程详解
2018/11/30 Javascript
JavaScrip数组去重操作实例小结
2019/06/20 Javascript
JavaScript中的执行环境和作用域链
2020/09/04 Javascript
nodejs中内置模块fs,path常见的用法说明
2020/11/07 NodeJs
[23:21]Ti4 冒泡赛第二轮DK vs C9 2
2014/07/14 DOTA
深入理解Python中装饰器的用法
2016/06/28 Python
Python代码实现KNN算法
2017/12/20 Python
Tensorflow 实现修改张量特定元素的值方法
2018/07/30 Python
Python模拟百度自动输入搜索功能的实例
2019/02/14 Python
python使用正则表达式(Regular Expression)方法超详细
2019/12/30 Python
Tensorflow 卷积的梯度反向传播过程
2020/02/10 Python
Django实现图片上传功能步骤解析
2020/04/22 Python
keras读取训练好的模型参数并把参数赋值给其它模型详解
2020/06/15 Python
Python xlrd/xlwt 创建excel文件及常用操作
2020/09/24 Python
彪马法国官网:PUMA法国
2019/12/15 全球购物
12月小学生校园广播稿
2014/02/04 职场文书
实习生工作证明范本
2014/09/14 职场文书
2014年人力资源部工作总结
2014/11/19 职场文书
管理人员岗位职责
2015/02/14 职场文书
圆明园纪录片观后感
2015/06/03 职场文书
合理缓解职场压力,让你随时保持最佳状态!
2019/06/21 职场文书
vue实现简单数据双向绑定
2021/04/28 Vue.js
logback如何自定义日志存储
2021/08/30 Java/Android
Docker官方工具docker-registry案例演示
2022/04/13 Servers