python爬虫入门教程之点点美女图片爬虫代码分享


Posted in Python onSeptember 02, 2014

继续鼓捣爬虫,今天贴出一个代码,爬取点点网「美女」标签下的图片,原图。

# -*- coding: utf-8 -*- 

#--------------------------------------- 
#  程序:点点美女图片爬虫 
#  版本:0.2 
#  作者:zippera 
#  日期:2013-07-26 
#  语言:Python 2.7 
#  说明:能设置下载的页数 
#--------------------------------------- 
 
import urllib2
import urllib
import re
 
 
 
pat = re.compile('<div class="feed-big-img">\n.*?imgsrc="(ht.*?)\".*?')
nexturl1 = "http://www.diandian.com/tag/%E7%BE%8E%E5%A5%B3?page="
 
 
count = 1
 
while count < 2:
 
  print "Page " + str(count) + "\n"
  myurl = nexturl1 + str(count)
  myres = urllib2.urlopen(myurl)
  mypage = myres.read()
  ucpage = mypage.decode("utf-8") #转码
 
  mat = pat.findall(ucpage)
  
 
  
  
  
  if len(mat):
    cnt = 1
    for item in mat:
      print "Page" + str(count) + " No." + str(cnt) + " url: " + item + "\n"
      cnt += 1
      fnp = re.compile('(\w{10}\.\w+)$')
      fnr = fnp.findall(item)
      if fnr:
        fname = fnr[0]
        urllib.urlretrieve(item, fname)
    
  else:
    print "no data"
    
  count += 1

使用方法:新建一个文件夹,把代码保存为name.py文件,运行python name.py就可以把图片下载到文件夹。

Python 相关文章推荐
跟老齐学Python之玩转字符串(3)
Sep 14 Python
python提取内容关键词的方法
Mar 16 Python
Python之用户输入的实例
Jun 22 Python
Python实现获取本地及远程图片大小的方法示例
Jul 21 Python
Python实现常见的回文字符串算法
Nov 14 Python
Python 分享10个PyCharm技巧
Jul 13 Python
Python实现线性插值和三次样条插值的示例代码
Nov 13 Python
Python 将json序列化后的字符串转换成字典(推荐)
Jan 06 Python
PyTorch中的Variable变量详解
Jan 07 Python
python编写实现抽奖器
Sep 10 Python
Python调用SMTP服务自动发送Email的实现步骤
Feb 07 Python
python井字棋游戏实现人机对战
Apr 28 Python
python爬虫入门教程之糗百图片爬虫代码分享
Sep 02 #Python
python批量同步web服务器代码核心程序
Sep 01 #Python
寻找网站后台地址的python脚本
Sep 01 #Python
python批量修改文件名的实现代码
Sep 01 #Python
python中List的sort方法指南
Sep 01 #Python
Python抓取京东图书评论数据
Aug 31 #Python
Python深入学习之内存管理
Aug 31 #Python
You might like
php缓存技术介绍
2006/11/25 PHP
在IIS7.0下面配置PHP 5.3.2运行环境的方法
2010/04/13 PHP
php打包压缩文件之ZipArchive方法用法分析
2016/04/30 PHP
checkbox 复选框不能为空
2009/07/11 Javascript
IE本地存储userdata的一个bug说明
2010/07/01 Javascript
javascript 折半查找字符在数组中的位置(有序列表)
2010/12/09 Javascript
ajax更新数据后,jquery、jq失效问题
2011/03/16 Javascript
JQuery for与each性能比较分析
2013/05/14 Javascript
Javascript全局变量var与不var的区别深入解析
2013/12/09 Javascript
jQuery制作拼图小游戏
2015/01/12 Javascript
如何使用jquery修改css中带有!important的样式属性
2016/04/28 Javascript
30分钟快速掌握Bootstrap框架
2016/05/24 Javascript
关于原生js中bind函数的简单实现
2016/08/10 Javascript
简单实现JS倒计时效果
2016/12/23 Javascript
Bootstrap 手风琴菜单的实现代码
2017/01/20 Javascript
深入理解vue-router之keep-alive
2017/08/31 Javascript
浅谈vue后台管理系统权限控制思考与实践
2018/12/19 Javascript
[07:59]2014DOTA2叨叨刀塔 林熊猫称被邀请赛现场盛况震撼
2014/07/21 DOTA
[00:35]DOTA2上海特级锦标赛 Newbee战队宣传片
2016/03/03 DOTA
利用python实现简单的循环购物车功能示例代码
2017/07/05 Python
Python简单读取json文件功能示例
2017/11/30 Python
Python函数中不定长参数的写法
2019/02/13 Python
win10系统下python3安装及pip换源和使用教程
2020/01/06 Python
解决pycharm中的run和debug失效无法点击运行
2020/06/09 Python
pycharm如何使用anaconda中的各种包(操作步骤)
2020/07/31 Python
calendar在python3时间中常用函数举例详解
2020/11/18 Python
一家专门做特卖的网站:唯品会
2016/10/09 全球购物
Hotels.com越南:酒店预订
2019/10/29 全球购物
Tessabit美国:集世界奢侈品和设计师品牌的意大利精品买手店
2020/06/29 全球购物
机械专业应届生求职信
2013/12/12 职场文书
市场开发与营销专业求职信范文
2014/05/01 职场文书
2014年国庆节寄语
2014/09/19 职场文书
幼儿园小班教师个人工作总结
2015/02/06 职场文书
本科毕业答辩开场白
2015/05/27 职场文书
详解MySQL连接挂死的原因
2021/05/18 MySQL
SQL Server中搜索特定的对象
2022/05/25 SQL Server