Python3简单爬虫抓取网页图片代码实例


Posted in Python onAugust 26, 2019

现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2),

所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。

import urllib.request
import re
import os
import urllib
#根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 
def getHtml(url):
  page = urllib.request.urlopen(url)
  html = page.read()
  return html.decode('UTF-8')

def getImg(html):
  reg = r'src="(.+?\.jpg)" pic_ext'
  imgre = re.compile(reg)
  imglist = imgre.findall(html)#表示在整个网页中过滤出所有图片的地址,放在imglist中
  x = 0
  path = 'D:\\test' 
  # 将图片保存到D:\\test文件夹中,如果没有test文件夹则创建
  if not os.path.isdir(path): 
    os.makedirs(path) 
  paths = path+'\\'   #保存在test路径下 

  for imgurl in imglist: 
    urllib.request.urlretrieve(imgurl,'{0}{1}.jpg'.format(paths,x)) #打开imglist中保存的图片网址,并下载图片保存在本地,format格式化字符串 
    x = x + 1 
  return imglist
html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息,得到的html就是网页的源代码 
print (getImg(html)) #从网页源代码中分析并下载保存图片

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python连接mongodb操作数据示例(mongodb数据库配置类)
Dec 31 Python
python编程开发之日期操作实例分析
Nov 13 Python
Python 模板引擎的注入问题分析
Jan 01 Python
Python学生信息管理系统修改版
Mar 13 Python
python实现树形打印目录结构
Mar 29 Python
selenium设置proxy、headers的方法(phantomjs、Chrome、Firefox)
Nov 29 Python
python 搜索大文件的实例代码
Jul 08 Python
python中的global关键字的使用方法
Aug 20 Python
基于python+selenium的二次封装的实现
Jan 06 Python
开启Django博客的RSS功能的实现方法
Feb 17 Python
Anaconda3+tensorflow2.0.0+PyCharm安装与环境搭建(图文)
Feb 18 Python
Python3 使用pip安装git并获取Yahoo金融数据的操作
Apr 08 Python
python 数据提取及拆分的实现代码
Aug 26 #Python
Python3 使用pillow库生成随机验证码
Aug 26 #Python
python excel转换csv代码实例
Aug 26 #Python
对YOLOv3模型调用时候的python接口详解
Aug 26 #Python
pandas条件组合筛选和按范围筛选的示例代码
Aug 26 #Python
python3 反射的四种基本方法解析
Aug 26 #Python
python接口调用已训练好的caffe模型测试分类方法
Aug 26 #Python
You might like
用PHP调用Oracle存储过程的方法
2008/09/12 PHP
php 安全过滤函数代码
2011/05/07 PHP
使用php将某个目录下面的所有文件罗列出来的方法详解
2013/06/21 PHP
php模板引擎技术简单实现
2016/03/15 PHP
POST一个JSON格式的数据给Restful服务实例详解
2017/04/07 PHP
window.location.hash 属性使用说明
2010/03/20 Javascript
js设置组合快捷键/tabindex功能的方法
2013/11/21 Javascript
js中一维数组和二位数组中的几个问题示例说明
2014/07/17 Javascript
Jquery Mobile 自定义按钮图标
2015/11/18 Javascript
深入理解jQuery layui分页控件的使用
2016/08/17 Javascript
jQuery zTree树插件简单使用教程
2017/01/10 Javascript
Bootstrap面板使用方法
2017/01/16 Javascript
详解Node.js串行化流程控制
2017/05/04 Javascript
bootstrap-table实现表头固定以及列固定的方法示例
2019/03/07 Javascript
简单了解python PEP的一些知识
2019/07/13 Python
python 实现GUI(图形用户界面)编程详解
2019/07/17 Python
Django框架基础模板标签与filter使用方法详解
2019/07/23 Python
屏蔽Django admin界面添加按钮的操作
2020/03/11 Python
基于python检查矩阵计算结果
2020/05/21 Python
keras读取h5文件load_weights、load代码操作
2020/06/12 Python
使用keras内置的模型进行图片预测实例
2020/06/17 Python
基于python实现生成指定大小txt文档
2020/07/20 Python
python 基于Apscheduler实现定时任务
2020/12/15 Python
总结html5自定义属性有哪些
2020/04/01 HTML / CSS
YOINS官网:时尚女装网上购物
2017/03/17 全球购物
"火柴棍式"程序员面试题
2014/03/16 面试题
2019史上最全Database工程师题库
2015/12/06 面试题
毕业自我鉴定
2013/11/05 职场文书
学生打架检讨书
2014/02/14 职场文书
2014年迎新年联欢会活动策划方案
2014/02/26 职场文书
董事长岗位职责
2015/02/13 职场文书
房产遗嘱范本
2015/08/06 职场文书
《植树问题》教学反思
2016/03/03 职场文书
python自动化测试通过日志3分钟定位bug
2021/11/20 Python
mysql使用 not int 子查询隐含陷阱
2022/04/12 MySQL
Oracle查看表空间使用率以及爆满解决方案详解
2022/07/23 Oracle