python爬虫入门教程之点点美女图片爬虫代码分享


Posted in Python onSeptember 02, 2014

继续鼓捣爬虫,今天贴出一个代码,爬取点点网「美女」标签下的图片,原图。

# -*- coding: utf-8 -*- 

#--------------------------------------- 
#  程序:点点美女图片爬虫 
#  版本:0.2 
#  作者:zippera 
#  日期:2013-07-26 
#  语言:Python 2.7 
#  说明:能设置下载的页数 
#--------------------------------------- 
 
import urllib2
import urllib
import re
 
 
 
pat = re.compile('<div class="feed-big-img">\n.*?imgsrc="(ht.*?)\".*?')
nexturl1 = "http://www.diandian.com/tag/%E7%BE%8E%E5%A5%B3?page="
 
 
count = 1
 
while count < 2:
 
  print "Page " + str(count) + "\n"
  myurl = nexturl1 + str(count)
  myres = urllib2.urlopen(myurl)
  mypage = myres.read()
  ucpage = mypage.decode("utf-8") #转码
 
  mat = pat.findall(ucpage)
  
 
  
  
  
  if len(mat):
    cnt = 1
    for item in mat:
      print "Page" + str(count) + " No." + str(cnt) + " url: " + item + "\n"
      cnt += 1
      fnp = re.compile('(\w{10}\.\w+)$')
      fnr = fnp.findall(item)
      if fnr:
        fname = fnr[0]
        urllib.urlretrieve(item, fname)
    
  else:
    print "no data"
    
  count += 1

使用方法:新建一个文件夹,把代码保存为name.py文件,运行python name.py就可以把图片下载到文件夹。

Python 相关文章推荐
Python 解析XML文件
Apr 15 Python
从零学python系列之从文件读取和保存数据
May 23 Python
python入门之语句(if语句、while语句、for语句)
Jan 19 Python
Python编程中运用闭包时所需要注意的一些地方
May 02 Python
用Python登录好友QQ空间点赞的示例代码
Nov 04 Python
python3+PyQt5实现自定义流体混合窗口部件
Apr 24 Python
浅谈python3中input输入的使用
Aug 02 Python
详解python中index()、find()方法
Aug 29 Python
tornado+celery的简单使用详解
Dec 21 Python
pytorch 自定义参数不更新方式
Jan 06 Python
Python selenium实现断言3种方法解析
Sep 08 Python
Python使用windows设置定时执行脚本
Nov 12 Python
python爬虫入门教程之糗百图片爬虫代码分享
Sep 02 #Python
python批量同步web服务器代码核心程序
Sep 01 #Python
寻找网站后台地址的python脚本
Sep 01 #Python
python批量修改文件名的实现代码
Sep 01 #Python
python中List的sort方法指南
Sep 01 #Python
Python抓取京东图书评论数据
Aug 31 #Python
Python深入学习之内存管理
Aug 31 #Python
You might like
也谈截取首页新闻 - 范例
2006/10/09 PHP
关于BIG5-HKSCS的解决方法
2007/03/20 PHP
php使用Cookie控制访问授权的方法
2015/01/21 PHP
PHP strip_tags保留多个HTML标签的方法
2016/05/22 PHP
PHP strcmp()和strcasecmp()的区别实例
2016/11/05 PHP
基于ThinkPHP5.0实现图片上传插件
2017/09/25 PHP
PHP与以太坊交互详解
2018/08/24 PHP
[原创]后缀就扩展名为js的文件是什么文件
2007/12/06 Javascript
页面只能打开一次Cooike如何实现
2012/12/04 Javascript
原生js的弹出层且其内的窗口居中
2014/05/14 Javascript
js中iframe调用父页面的方法
2014/10/30 Javascript
Node.js实现批量去除BOM文件头
2014/12/20 Javascript
Javascript实现商品秒杀倒计时(时间与服务器时间同步)
2015/09/16 Javascript
jquery+正则实现统一的表单验证
2015/09/20 Javascript
jQuery旋转木马式幻灯片轮播特效
2015/12/04 Javascript
jQuery实现的左右移动焦点图效果
2016/01/14 Javascript
js实现HashTable(哈希表)的实例分析
2016/11/21 Javascript
JavaScript 限制文本框不可输入英文单双引号的方法
2016/12/20 Javascript
angularJS深拷贝详解
2017/03/23 Javascript
xmlplus组件设计系列之选项卡(Tabbar)(5)
2017/05/03 Javascript
基于代数方程库Algebra.js解二元一次方程功能示例
2017/06/09 Javascript
浅谈React高阶组件
2018/03/28 Javascript
vue生命周期与钩子函数简单示例
2019/03/13 Javascript
让mocha支持ES6模块的方法实现
2020/01/14 Javascript
从零开始在vue-cli4配置自适应vw布局的实现
2020/06/08 Javascript
Python multiprocessing.Manager介绍和实例(进程间共享数据)
2014/11/21 Python
使用Python编写一个在Linux下实现截图分享的脚本的教程
2015/04/24 Python
Python爬取网页中的图片(搜狗图片)详解
2017/03/23 Python
Python语言描述连续子数组的最大和
2018/01/04 Python
详解Appium+Python之生成html测试报告
2019/01/04 Python
VS2019+python3.7+opencv4.1+tensorflow1.13配置详解
2020/04/16 Python
Python通过yagmail实现发送邮件代码解析
2020/10/27 Python
函授自我鉴定
2013/11/06 职场文书
情况说明书格式范文
2014/05/06 职场文书
小学生反邪教心得体会
2016/01/15 职场文书
2016年幼儿园教师政治学习心得体会
2016/01/23 职场文书