编程 Python

python爬取NUS-WIDE数据库图片

Posted in Python onOctober 05, 2016

实验室需要NUS-WIDE数据库中的原图，数据集的地址为http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm 由于这个数据只给了每个图片的URL，所以需要一个小爬虫程序来爬取这些图片。在图片的下载过程中建议使用VPN。由于一些URL已经失效，所以会下载一些无效的图片。

# PYTHON 2.7   Ubuntu 14.04
nuswide = "$NUS-WIDE-urls_ROOT" #the location of your nus-wide-urls.txt
imagepath = "$IMAGE_ROOT" # path of dataset you want to download in
f = open(nuswide, 'r')
url = f.readlines()
import re
import urllib
import os
reg = r"ImageData.+?jpg"
location_re = re.compile(reg)
reg = r"(ImageData.+?)/0"
direction_re = re.compile(reg)
reg = r"http.+?jpg"
image_re = re.compile(reg)
for i in url:
  filename = re.findall(location_re, i)
  direction = re.findall(direction_re, i)
  image = re.findall(image_re, i)
  if image:
    path = imagepath+filename[0]
    path_n = imagepath+direction[0]
    print path_n
    if os.path.exists(path_n):
      urllib.urlretrieve(image[1], path)
    else:
      os.makedirs(path_n)
      urllib.urlretrieve(image[1], path)

再给大家分享一个爬取百度贴吧图片的小爬虫（你懂得）

#coding=utf-8

#urllib模块提供了读取Web页面数据的接口
import urllib
#re模块主要包含了正则表达式
import re
#定义一个getHtml()函数
def getHtml(url):
  page = urllib.urlopen(url) #urllib.urlopen()方法用于打开一个URL地址
  html = page.read() #read()方法用于读取URL上的数据
  return html

def getImg(html):
  reg = r'src="(.+?\.jpg)" pic_ext'  #正则表达式，得到图片地址
  imgre = re.compile(reg)   #re.compile() 可以把正则表达式编译成一个正则表达式对象.
  imglist = re.findall(imgre,html)   #re.findall() 方法读取html 中包含 imgre（正则表达式）的  数据
  #把筛选的图片地址通过for循环遍历并保存到本地
  #核心是urllib.urlretrieve()方法,直接将远程数据下载到本地，图片通过x依次递增命名
  x = 0

  for imgurl in imglist:
  urllib.urlretrieve(imgurl,'D:\E\%s.jpg' % x)
      x+=1


html = getHtml("http://tieba.baidu.com/p/xxxx")
print getImg(html)

python爬取NUS-WIDE数据库图片

- Author -

leo-sun

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python网络编程学习笔记(二)：socket建立网络客户端

Jun 09 Python

Python中使用第三方库xlrd来写入Excel文件示例

Apr 05 Python

Python中Random和Math模块学习笔记

May 18 Python

在Django的模型和公用函数中使用惰性翻译对象

Jul 27 Python

Python中常见的数据类型小结

Aug 29 Python

Python中random模块生成随机数详解

Mar 10 Python

用 Python 爬了爬自己的微信朋友(实例讲解)

Aug 25 Python

利用python画出折线图

Jul 26 Python

Pytorch实现LSTM和GRU示例

Jan 14 Python

Django接收照片储存文件的实例代码

Mar 07 Python

浅析Python 中的 WSGI 接口和 WSGI 服务的运行

Dec 09 Python

python热力图实现的完整实例

Jun 25 Python

python2.7的编码问题与解决方法

Oct 04 #Python

Python Sqlite3以字典形式返回查询结果的实现方法

Oct 03 #Python

Python实现屏幕截图的代码及函数详解

Oct 01 #Python

Python爬取APP下载链接的实现方法

Sep 30 #Python

Python脚本实现12306火车票查询系统

Sep 30 #Python

Python ldap实现登录实例代码

Sep 30 #Python

python之Socket网络编程详解

Sep 29 #Python

You might like

《PHP编程最快明白》第六讲：Mysql数据库操作

2010/11/01 PHP

php中通过curl smtp发送邮件

2012/06/05 PHP

php输出xml必须header的解决方法

2014/10/17 PHP

php实现屏蔽掉黑帽SEO的搜索关键字

2015/04/15 PHP

php基于curl实现随机ip地址抓取内容的方法

2016/10/11 PHP

php 判断字符串编码是utf-8 或gb2312实例

2016/11/01 PHP

微信第三方登录(原生)demo【必看篇】

2017/05/26 PHP

phpstudy的php版本自由修改的方法

2017/10/18 PHP

Aster vs KG BO3 第三场2.18

2021/03/10 DOTA

JavaScript中关于indexOf的使用方法与问题小结

2010/08/05 Javascript

解析jQuery与其它js(Prototype)库兼容共存

2013/07/04 Javascript

给html超链接设置事件不使用href来完成跳

2014/04/20 Javascript

JavaScript动态检验密码强度的实现方法

2016/11/09 Javascript

详解微信小程序设置底部导航栏目方法

2017/06/29 Javascript

小程序实现授权登陆的解决方案

2018/12/02 Javascript

JavaScript面向对象编程小游戏---贪吃蛇代码实例

2019/05/15 Javascript

浅谈一个webpack构建速度优化误区

2019/06/24 Javascript

微信小程序如何调用图片接口API并居中显示

2019/06/29 Javascript

解决layui中onchange失效以及form动态渲染失效的问题

2019/09/27 Javascript

在Python的Flask框架中使用日期和时间的教程

2015/04/21 Python

python在指定目录下查找gif文件的方法

2015/05/04 Python

Django实战之用户认证（用户登录与注销）

2018/07/16 Python

Python中创建二维数组

2018/10/17 Python

PyCharm鼠标右键不显示Run unittest的解决方法

2018/11/30 Python

我喜欢你抖音表白程序python版

2019/04/07 Python

python文件读写代码实例

2019/10/21 Python

python 实现检验33品种数据是否是正态分布

2019/12/09 Python

Django后台管理系统的图文使用教学

2020/01/20 Python

python爬虫开发之urllib模块详细使用方法与实例全解

2020/03/09 Python

css3 利用transform打造走动的2D时钟

2020/10/20 HTML / CSS

荷兰皇家航空公司官方网站：KLM Royal Dutch Airlines

2017/12/07 全球购物

大学毕业通用个人的求职信

2013/12/08 职场文书

高一学生评语大全

2014/04/25 职场文书

社会实践心得体会范文

2016/01/14 职场文书

mybatis调用sqlserver存储过程返回结果集的方法

2021/05/08 SQL Server

分析SQL窗口函数之排名窗口函数

2022/04/21 Oracle