python抓取网页图片并放到指定文件夹


Posted in Python onApril 24, 2014

python抓取网站图片并放到指定文件夹

# -*- coding=utf-8 -*-
import urllib2
import urllib
import socket
import os
import re
def Docment():
    print u'把文件存在E:\Python\图(请输入数字或字母)'
    h=raw_input()
    path=u'E:\Python\图'+str(h)
    if not os.path.exists(path):
        os.makedirs(path)
    return path
def getallurl(html):
    reg=r"a href='(.*?\.htm)'"
    allurl= re.compile(reg)
    allList = re.findall(allurl,html)
    return allList
def getHTML(url):
    url=url
    req_header = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
    req_timeout = 20
    html='cuowu'
    try:
        req = urllib2.Request(url,None,req_header)
        resp = urllib2.urlopen(req,None,req_timeout)
        html = resp.read()
    except urllib2.URLError as e:
        print e.message
    except socket.timeout as e:
        getHTML(url,fu)
    return html
def getImg(html,path):
    reg = r'img class=IMG_show border=0 src=(.*?\.jpg)'
    imgre= re.compile(reg)
    imgList = re.findall(imgre, html)
    if imgList:
        print 'ghasghg',path
        for imgurl in imgList:
            print imgurl
            content2=urllib2.urlopen(imgurl).read()
            with open(path+'/'+imgurl[-7:],'wb') as code:
                code.write(content2)
    else:
        return 0
def getallurl(html):
    reg=r"a href='(.*?\.htm)'"
    allurl= re.compile(reg)
    allList = re.findall(allurl,html)
    return allList
j=1
i=0
print u'请输入网址:'
ul=raw_input()
print u'开始下载'
print u'第'+str(j)+u'页'
html=getHTML(ul)
allList=getallurl(html)
path=Docment()
getImg(html,path)
while i<len(allList):
    for lis in allList:
        l=lis[i]
        url=r'http://www.umei.cc/p/gaoqing/rihan/'+lis
        i=i+1
        j=j+1
        html=getHTML(url)
        getImg(html,path)
        print u'第'+str(j)+u'页'
    else:
        print u'下载完毕'
Python 相关文章推荐
python抓取京东商城手机列表url实例代码
Dec 18 Python
Python脚本实现Web漏洞扫描工具
Oct 25 Python
Python3.5编程实现修改IIS WEB.CONFIG的方法示例
Aug 18 Python
Python 内置函数进制转换的用法(十进制转二进制、八进制、十六进制)
Apr 30 Python
解决Pycharm中import时无法识别自己写的程序方法
May 18 Python
Django contenttypes 框架详解(小结)
Aug 13 Python
Python的UTC时间转换讲解
Feb 26 Python
Python数据类型之Set集合实例详解
May 07 Python
python替换字符串中的子串图文步骤
Jun 19 Python
python 两种方法修改文件的创建时间、修改时间、访问时间
Sep 26 Python
Python排序算法之插入排序及其优化方案详解
Jun 11 Python
Python各协议下socket黏包问题原理
Apr 12 Python
python字符串替换示例
Apr 24 #Python
python自动安装pip
Apr 24 #Python
python网络编程示例(客户端与服务端)
Apr 24 #Python
python使用PyFetion来发送短信的例子
Apr 22 #Python
Python BeautifulSoup中文乱码问题的2种解决方法
Apr 22 #Python
python中使用smtplib和email模块发送邮件实例
Apr 22 #Python
python用字典统计单词或汉字词个数示例
Apr 22 #Python
You might like
可定制的PHP缩略图生成程式(需要GD库支持)
2007/03/06 PHP
完美解决dedecms中的[html][/html]和[code][/code]问题
2007/03/20 PHP
用HTML/JS/PHP方式实现页面延时跳转的简单实例
2016/07/18 PHP
简述AngularJS的控制器的使用
2015/06/16 Javascript
不依赖Flash和任何JS库实现文本复制与剪切附源码下载
2015/10/09 Javascript
jQuery 选择同时包含两个class的元素的实现方法
2016/06/01 Javascript
Angular中$cacheFactory的作用和用法实例详解
2016/08/19 Javascript
详解JS-- 浮点数运算处理
2016/11/28 Javascript
JS实现的RC4加密算法示例
2018/08/16 Javascript
手把手带你封装一个vue component第三方库
2019/02/14 Javascript
解析原来浏览器原生支持JS Base64编码解码
2019/08/12 Javascript
用Python写的图片蜘蛛人代码
2012/08/27 Python
解决python使用open打开文件中文乱码的问题
2017/12/29 Python
python3.6的venv模块使用详解
2018/08/01 Python
浅谈Python在pycharm中的调试(debug)
2018/11/29 Python
Python使用post及get方式提交数据的实例
2019/01/24 Python
使用django的objects.filter()方法匹配多个关键字的方法
2019/07/18 Python
python能开发游戏吗
2020/06/11 Python
Pandas中DataFrame基本函数整理(小结)
2020/07/20 Python
python中把元组转换为namedtuple方法
2020/12/09 Python
Html5自定义字体解决方法
2019/10/09 HTML / CSS
巴塞罗那观光通票:Barcelona Pass
2019/10/30 全球购物
为什么要优先使用同步代码块而不是同步方法?
2013/01/30 面试题
内科护士实习自我鉴定
2013/10/17 职场文书
关于幼儿的自我评价
2013/12/18 职场文书
高二政治教学反思
2014/02/01 职场文书
如何写求职信
2014/05/24 职场文书
学校消防安全责任书
2014/07/23 职场文书
竞选班干部演讲稿300字
2014/08/20 职场文书
三八妇女节标语
2014/10/09 职场文书
行政经理岗位职责
2015/04/15 职场文书
Python打包exe时各种异常处理方案总结
2021/05/18 Python
SQLServer 错误: 15404,无法获取有关 Windows NT 组/用户 WIN-8IVSNAQS8T7\Administrator 的信息
2021/06/30 SQL Server
星际争霸:毕姥爷vs解冻03
2022/04/01 星际争霸
Java 常见的限流算法详细分析并实现
2022/04/07 Java/Android
小程序实现侧滑删除功能
2022/06/25 Javascript