python爬取NUS-WIDE数据库图片


Posted in Python onOctober 05, 2016

实验室需要NUS-WIDE数据库中的原图,数据集的地址为http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm   由于这个数据只给了每个图片的URL,所以需要一个小爬虫程序来爬取这些图片。在图片的下载过程中建议使用VPN。由于一些URL已经失效,所以会下载一些无效的图片。

# PYTHON 2.7   Ubuntu 14.04
nuswide = "$NUS-WIDE-urls_ROOT" #the location of your nus-wide-urls.txt
imagepath = "$IMAGE_ROOT" # path of dataset you want to download in
f = open(nuswide, 'r')
url = f.readlines()
import re
import urllib
import os
reg = r"ImageData.+?jpg"
location_re = re.compile(reg)
reg = r"(ImageData.+?)/0"
direction_re = re.compile(reg)
reg = r"http.+?jpg"
image_re = re.compile(reg)
for i in url:
  filename = re.findall(location_re, i)
  direction = re.findall(direction_re, i)
  image = re.findall(image_re, i)
  if image:
    path = imagepath+filename[0]
    path_n = imagepath+direction[0]
    print path_n
    if os.path.exists(path_n):
      urllib.urlretrieve(image[1], path)
    else:
      os.makedirs(path_n)
      urllib.urlretrieve(image[1], path)

再给大家分享一个爬取百度贴吧图片的小爬虫(你懂得)

#coding=utf-8

#urllib模块提供了读取Web页面数据的接口
import urllib
#re模块主要包含了正则表达式
import re
#定义一个getHtml()函数
def getHtml(url):
  page = urllib.urlopen(url) #urllib.urlopen()方法用于打开一个URL地址
  html = page.read() #read()方法用于读取URL上的数据
  return html

def getImg(html):
  reg = r'src="(.+?\.jpg)" pic_ext'  #正则表达式,得到图片地址
  imgre = re.compile(reg)   #re.compile() 可以把正则表达式编译成一个正则表达式对象.
  imglist = re.findall(imgre,html)   #re.findall() 方法读取html 中包含 imgre(正则表达式)的  数据
  #把筛选的图片地址通过for循环遍历并保存到本地
  #核心是urllib.urlretrieve()方法,直接将远程数据下载到本地,图片通过x依次递增命名
  x = 0

  for imgurl in imglist:
  urllib.urlretrieve(imgurl,'D:\E\%s.jpg' % x)
      x+=1


html = getHtml("http://tieba.baidu.com/p/xxxx")
print getImg(html)
Python 相关文章推荐
python中对list去重的多种方法
Sep 18 Python
Python3遍历目录树实现方法
May 22 Python
在Python中操作日期和时间之gmtime()方法的使用
May 22 Python
利用python将图片转换成excel文档格式
Dec 30 Python
python中的文件打开与关闭操作命令介绍
Apr 26 Python
使用Python更换外网IP的方法
Jul 09 Python
python pands实现execl转csv 并修改csv指定列的方法
Dec 12 Python
Django中的用户身份验证示例详解
Aug 07 Python
python实现电子词典
Mar 03 Python
Python基础教程(一)——Windows搭建开发Python开发环境
Jul 20 Python
Python实现8种常用抽样方法
Jun 27 Python
详解Python+OpenCV绘制灰度直方图
Mar 22 Python
python2.7的编码问题与解决方法
Oct 04 #Python
Python Sqlite3以字典形式返回查询结果的实现方法
Oct 03 #Python
Python实现屏幕截图的代码及函数详解
Oct 01 #Python
Python爬取APP下载链接的实现方法
Sep 30 #Python
Python脚本实现12306火车票查询系统
Sep 30 #Python
Python ldap实现登录实例代码
Sep 30 #Python
python之Socket网络编程详解
Sep 29 #Python
You might like
《OVERLORD》手游英文版即将上线 手机上也能扮演骨王
2020/04/09 日漫
PHP 5.0对象模型深度探索之类的静态成员
2008/03/27 PHP
php开启安全模式后禁用的函数集合
2011/06/26 PHP
php Smarty初体验二 获取配置信息
2011/08/08 PHP
php代码审计比较有意思的例子
2014/05/07 PHP
在PHP站点的页面上添加Facebook评论插件的实例教程
2016/01/08 PHP
PHP数组函数知识汇总
2016/05/12 PHP
smarty模板数学运算示例
2016/12/11 PHP
Laravel5.7 数据库操作迁移的实现方法
2019/04/12 PHP
JQUERY 设置SELECT选中项代码
2014/02/07 Javascript
javascript引用类型指针的工作方式
2015/04/13 Javascript
Angular限制input框输入金额(是小数的话只保留两位小数点)
2017/07/13 Javascript
jQuery实现可兼容IE6的淡入淡出效果告警提示功能示例
2017/09/20 jQuery
Vue全局分页组件的实现代码
2018/08/10 Javascript
angularjs1.5 组件内用函数向外传值的实例
2018/09/30 Javascript
vue 项目build错误异常的解决方法
2019/04/22 Javascript
React如何实现浏览器打印部分内容详析
2019/05/19 Javascript
深入学习JavaScript中的bom
2019/05/27 Javascript
解决layer 动态加载select 失效的问题
2019/09/18 Javascript
uni-app如何页面传参数的几种方法总结
2020/04/28 Javascript
python实现系统状态监测和故障转移实例方法
2013/11/18 Python
python 读写txt文件 json文件的实现方法
2016/10/22 Python
Python正则表达式匹配数字和小数的方法
2019/07/03 Python
基于python的itchat库实现微信聊天机器人(推荐)
2019/10/29 Python
pytorch如何冻结某层参数的实现
2020/01/10 Python
python3正则模块re的使用方法详解
2020/02/11 Python
python 数据分析实现长宽格式的转换
2020/05/18 Python
Python3以GitHub为例来实现模拟登录和爬取的实例讲解
2020/07/30 Python
python openpyxl模块的使用详解
2021/02/25 Python
HTML5 canvas画图并保存成图片的jcanvas插件
2014/01/17 HTML / CSS
不同意离婚答辩状
2015/05/22 职场文书
遗失证明范文
2015/06/19 职场文书
婚礼双方父亲致辞
2015/07/27 职场文书
Python使用scapy模块发包收包
2021/05/07 Python
python使用pymysql模块操作MySQL
2021/06/16 Python
A22国内电台短波广播频率表
2022/05/10 无线电