python妹子图简单爬虫实例


Posted in Python onJuly 07, 2015

本文实例讲述了python妹子图简单爬虫实现方法。分享给大家供大家参考。具体如下:

#!/usr/bin/env python
#coding: utf-8
import urllib
import urllib2
import os
import re
import sys
#显示下载进度
def schedule(a,b,c):
  '''''
  a:已经下载的数据块
  b:数据块的大小
  c:远程文件的大小
  '''
  per = 100.0 * a * b / c
  if per > 100 :
    per = 100
  print '%.2f%%' % per
#获取html源码
def getHtml(url):
  page = urllib.urlopen(url)
  html = page.read()
  return html
#下载图片
def downloadImg(html, num, foldername):
  picpath = '%s' % (foldername) #下载到的本地目录
  if not os.path.exists(picpath): #路径不存在时创建一个
    os.makedirs(picpath)
  target = picpath+'/%s.jpg' % num
  myItems = re.findall('<p><a href="http:\/\/www.mzitu.com/.*?" ><img src="(.*?)" alt=".*?" /></a></p>',html,re.S)
  print 'Downloading image to location: ' + target
  urllib.urlretrieve(myItems[0], target, schedule)
#正则匹配分页
def findPage(html):
  myItems = re.findall('<span>(\d*)</span>', html, re.S)
  return myItems.pop()
#正则匹配列表
def findList(html):
  myItems = re.findall('<h2><a href="http://www.mzitu.com/(\d*)" title="(.*?)" target="_blank">.*?</a></h2>', html, re.S)
  return myItems
#总下载
def totalDownload(modelUrl):
  listHtml5 = getHtml(modelUrl)
  listContent = findList(listHtml)
  for list in listContent:
    html = getHtml('http://www.mzitu.com/' + str(list[0]))
    totalNum = findPage(html)
    for num in range(1, int(totalNum)+1):
      if num == 1:
        url = 'http://www.mzitu.com/' + str(list[0])
        html5 = getHtml(url)
        downloadImg(html5, str(num), str(list[1]))
      else:
        url = 'http://www.mzitu.com/' + str(list[0]) + '/'+str(num)
        html5 = getHtml(url)
        downloadImg(html5, str(num), str(list[1]))
if __name__ == '__main__':
  listHtml = getHtml('http://www.mzitu.com/model')
  #这是其中一个模块的url,可以添加不同的模块url从而达到整站爬取。
  for model in range(1, int(findPage(listHtml))+1):
    if model == 1:
      modelUrl = 'http://www.mzitu.com/model'
      totalDownload(modelUrl)
    else:
      modelUrl = 'http://www.mzitu.com/model/page/' + str(model)
      totalDownload(modelUrl)
  print "Download has finished."

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
举例详解Python中的split()函数的使用方法
Apr 07 Python
python访问mysql数据库的实现方法(2则示例)
Jan 06 Python
Python3使用requests登录人人影视网站的方法
May 11 Python
Python实现扩展内置类型的方法分析
Oct 16 Python
python matplotlib画图实例代码分享
Dec 27 Python
PyQt5实现五子棋游戏(人机对弈)
Mar 24 Python
Python OpenCV调用摄像头检测人脸并截图
Aug 20 Python
wxpython实现按钮切换界面的方法
Nov 19 Python
Python2与Python3的区别点整理
Dec 12 Python
tensorboard 可以显示graph,却不能显示scalar的解决方式
Feb 15 Python
详解Python中import机制
Sep 11 Python
Python基于callable函数检测对象是否可被调用
Oct 16 Python
python操作redis的方法
Jul 07 #Python
python生成IP段的方法
Jul 07 #Python
Python的多态性实例分析
Jul 07 #Python
Python中的urllib模块使用详解
Jul 07 #Python
Python实现图像几何变换
Jul 06 #Python
Python统计日志中每个IP出现次数的方法
Jul 06 #Python
python统计日志ip访问数的方法
Jul 06 #Python
You might like
php fsockopen中多线程问题的解决办法[翻译]
2011/11/09 PHP
php求两个目录的相对路径示例(php获取相对路径)
2014/03/27 PHP
phpcms的分类名称和类别名称的调用
2017/01/05 PHP
PHP中使用jQuery+Ajax实现分页查询多功能操作(示例讲解)
2017/09/17 PHP
Prototype Function对象 学习
2009/07/12 Javascript
根据出生日期自动取得星座的js代码
2010/07/20 Javascript
Fastest way to build an HTML string(拼装html字符串的最快方法)
2011/08/20 Javascript
深入理解JavaScript系列(12) 变量对象(Variable Object)
2012/01/16 Javascript
web的各种前端打印方法之jquery打印插件jqprint实现网页打印
2013/01/09 Javascript
Google (Local) Search API的简单使用介绍
2013/11/28 Javascript
JS获取文本框,下拉框,单选框的值的简单实例
2014/02/26 Javascript
jquery 使用简明教程
2014/03/05 Javascript
使用Nodejs开发微信公众号后台服务实例
2014/09/03 NodeJs
Vue.js创建Calendar日历效果
2016/11/03 Javascript
实例分析浏览器中“JavaScript解析器”的工作原理
2016/12/12 Javascript
基于JavaScript实现屏幕滚动效果
2017/01/18 Javascript
jQuery使用EasyUi实现三级联动下拉框效果
2017/03/08 Javascript
bootstrap-table实现服务器分页的示例 (spring 后台)
2017/09/01 Javascript
p5.js实现斐波那契螺旋的示例代码
2018/03/22 Javascript
Vue中computed与methods的区别详解
2018/03/24 Javascript
JS引用传递与值传递的区别与用法分析
2018/06/01 Javascript
详解在Javascript中进行面向切面编程
2019/04/28 Javascript
[44:50]DOTA2上海特级锦标赛B组小组赛#2 VG VS Fnatic第二局
2016/02/26 DOTA
[01:03:42]VP vs VGJ.S 2018国际邀请赛小组赛BO2 第一场 8.19
2018/08/21 DOTA
Python的设计模式编程入门指南
2015/04/02 Python
编写Python的web框架中的Model的教程
2015/04/29 Python
Python虚拟环境virtualenv的安装与使用详解
2017/05/28 Python
python中numpy包使用教程之数组和相关操作详解
2017/07/30 Python
css3 background属性调整增强介绍
2010/12/18 HTML / CSS
澳大利亚购买太阳镜和眼镜网站:Glamoureyes
2020/09/22 全球购物
小学后勤管理制度
2014/01/14 职场文书
爱国主义主题班会
2015/08/14 职场文书
六年级数学教学反思
2016/02/16 职场文书
html+css实现赛博朋克风格按钮
2021/05/26 HTML / CSS
SpringBoot集成MongoDB实现文件上传的步骤
2022/04/18 MongoDB
详解apache编译安装httpd-2.4.54及三种风格的init程序特点和区别
2022/07/15 Servers