python小技巧之批量抓取美女图片


Posted in Python onJune 06, 2014

其中用到urllib2模块和正则表达式模块。下面直接上代码:

[/code]
#!/usr/bin/env python
#-*- coding: utf-8 -*-
#通过urllib(2)模块下载网络内容
import urllib,urllib2,gevent
#引入正则表达式模块,时间模块
import re,time
from gevent import monkey

monkey.patch_all()

def geturllist(url):
    url_list=[]
    print url      
    s = urllib2.urlopen(url)
    text = s.read()
    #正则匹配,匹配其中的图片
    html = re.search(r'<ol.*</ol>', text, re.S)
    urls = re.finditer(r'<p><img src="(.+?)jpg" /></p>',html.group(),re.I)
    for i in urls:
        url=i.group(1).strip()+str("jpg")
        url_list.append(url)
    return url_list

def download(down_url):
    name=str(time.time())[:-3]+"_"+re.sub('.+?/','',down_url)
    print name
    urllib.urlretrieve(down_url, "D:\\TEMP\\"+name)

def getpageurl():
    page_list = []
    #进行列表页循环
    for page in range(1,700):
        url="http://jandan.net/ooxx/page-"+str(page)+"#comments"
        #把生成的url加入到page_list中
        page_list.append(url)
    print page_list
    return page_list
if __name__ == '__main__':
    jobs = []
    pageurl = getpageurl()[::-1]
    #进行图片下载
    for i in pageurl:
        for (downurl) in geturllist(i):
            jobs.append(gevent.spawn(download, downurl))
    gevent.joinall(jobs)
[/code]

程序不长才45行,不是太难,大家可以研究下,这里我只是抛砖引玉,大家可以根据原理开发出其他的抓取程序,呵呵,自己想去吧。。。我就不多说了~~

Python 相关文章推荐
python 实现文件的递归拷贝实现代码
Aug 02 Python
用python打印菱形的实操方法和代码
Jun 25 Python
Python批量查询关键词微信指数实例方法
Jun 27 Python
Python叠加两幅栅格图像的实现方法
Jul 05 Python
使用APScheduler3.0.1 实现定时任务的方法
Jul 22 Python
Django打印出在数据库中执行的语句问题
Jul 25 Python
Python 日期区间处理 (本周本月上周上月...)
Aug 08 Python
django中瀑布流写法实例代码
Oct 14 Python
Python实现汇率转换操作
May 03 Python
Pytorch mask-rcnn 实现细节分享
Jun 24 Python
python 利用toapi库自动生成api
Oct 19 Python
python statsmodel的使用
Dec 21 Python
Python学习笔记(二)基础语法
Jun 06 #Python
pycharm 使用心得(九)解决No Python interpreter selected的问题
Jun 06 #Python
pycharm 使用心得(八)如何调用另一文件中的函数
Jun 06 #Python
pycharm 使用心得(七)一些实用功能介绍
Jun 06 #Python
pycharm 使用心得(六)进行简单的数据库管理
Jun 06 #Python
pycharm 使用心得(五)断点调试
Jun 06 #Python
pycharm 使用心得(四)显示行号
Jun 05 #Python
You might like
PHP 开发工具
2006/12/06 PHP
Yii数据模型中rules类验证器用法分析
2016/07/15 PHP
基于php判断客户端类型
2016/10/14 PHP
phpcms中的评论样式修改方法
2016/10/21 PHP
PHP PDOStatement::bindParam讲解
2019/01/30 PHP
PHP时间相关常用函数用法示例
2020/06/03 PHP
jQuery拖拽插件gridster使用指南
2015/04/21 Javascript
js实现图片点击左右轮播
2015/07/08 Javascript
基于jQuery实现仿搜狐辩论投票动画代码(附源码下载)
2016/02/18 Javascript
第四章之BootStrap表单与图片
2016/04/25 Javascript
vue2.0使用swiper组件实现轮播效果
2017/11/27 Javascript
iView框架问题整理小结
2018/10/16 Javascript
Vue 框架之动态绑定 css 样式实例分析
2018/11/14 Javascript
javascript设计模式 ? 外观模式原理与用法实例分析
2020/04/15 Javascript
详解如何修改 node_modules 里的文件
2020/05/22 Javascript
[04:52]第二届DOTA2亚洲邀请赛主赛事第一天比赛集锦:OG娜迦海妖放大配合谜团大中3人
2017/04/02 DOTA
[51:26]VP vs VG 2018国际邀请赛小组赛BO2 第二场 8.19
2018/08/21 DOTA
[41:05]Serenity vs Pain 2018国际邀请赛小组赛BO2 第二场 8.19
2018/08/21 DOTA
跟老齐学Python之for循环语句
2014/10/02 Python
Python将阿拉伯数字转换为罗马数字的方法
2015/07/10 Python
Python单链表简单实现代码
2016/04/27 Python
微信跳一跳辅助python代码实现
2018/01/05 Python
Python3的介绍、安装和命令行的认识(推荐)
2018/10/20 Python
Python面向对象之类和实例用法分析
2019/06/08 Python
python创建属于自己的单词词库 便于背单词
2019/07/30 Python
使用Django清空数据库并重新生成
2020/04/03 Python
python与js主要区别点总结
2020/09/13 Python
美国儿童运动鞋和服装零售商:Kids Foot Locker
2017/08/05 全球购物
单位成立周年感言
2014/01/26 职场文书
医学专业职业生涯规划范文
2014/02/05 职场文书
精神文明单位申报材料
2014/05/02 职场文书
说明书格式及范文
2014/05/07 职场文书
青安岗事迹材料
2014/05/14 职场文书
党员廉洁自律个人总结
2015/02/13 职场文书
2015年计划生育协会工作总结
2015/05/13 职场文书
Java实现聊天机器人完善版
2021/07/04 Java/Android