【Python】Python的urllib模块、urllib2模块批量进行网页下载文件


Posted in Python onNovember 19, 2016

由于需要从某个网页上下载一些PDF文件,但是需要下载的PDF文件有几百个,所以不可能用人工点击来下载。正好Python有相关的模块,所以写了个程序来进行PDF文件的下载,顺便熟悉了Python的urllib模块和ulrllib2模块。

1、问题描述

需要从http://www.cvpapers.com/cvpr2014.html上下载几百个论文的PDF文件,该网页如下图所示:【Python】Python的urllib模块、urllib2模块批量进行网页下载文件

2、问题解决

通过结合Python的urllib模块和urllib2模块来实现自动下载。代码如下:

test.py

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import urllib              #导入urllib模块 
import urllib2             #导入urllib2模块 
import re               #导入正则表达式模块:re模块 
 
def getPDFFromNet(inputURL): 
  req = urllib2.Request(inputURL) 
  f = urllib2.urlopen(req)         #打开网页 
  localDir = 'E:\downloadPDF\\'        #下载PDF文件需要存储在本地的文件夹 
  urlList = []            #用来存储提取的PDF下载的url的列表 
  for eachLine in f:          #遍历网页的每一行 
    line = eachLine.strip()       #去除行首位的空格,习惯性写法 
    if re.match('.*PDF.*', line):      #去匹配含有“PDF”字符串的行,只有这些行才有PDF下载地址 
      wordList = line.split('\"')    #以"为分界,将该行分开,这样就将url地址单独分开了 
      for word in wordList:      #遍历每个字符串 
        if re.match('.*\.pdf$', word): #去匹配含有“.pdf”的字符串,只有url中才有 
          urlList.append(word)  #将提取的url存入列表 
  for everyURL in urlList:         #遍历列表的每一项,即每一个PDF的url 
    wordItems = everyURL.split('/')     #将url以/为界进行划分,为了提取该PDF文件名 
    for item in wordItems:       #遍历每个字符串 
      if re.match('.*\.pdf$', item):   #查找PDF的文件名 
        PDFName = item     #查找到PDF文件名 
    localPDF = localDir + PDFName      #将本地存储目录和需要提取的PDF文件名进行连接 
    try:            
      urllib.urlretrieve(everyURL, localPDF) #按照url进行下载,并以其文件名存储到本地目录 
    except Exception,e: 
      continue 
 
getPDFFromNet('http://www.cvpapers.com/cvpr2014.html')

注意:

(1)第1、6、8、23行分别多谢了一个“\”来进行转义;

(2)第27行的urlretrieve函数有3个参数:第一个参数就是目标url;第二个参数是保存的文件绝对路径(含文件名),该函数的返回值是一个tuple(filename,header),其中的filename就是第二个参数filename。如果urlretrieve仅提供1个参数,返回值的filename就是产生的临时文件名,函数执行完毕后该临时文件会被删除参数。第3个参数是一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。其中回调函数名称可任意,但是参数必须为三个。一般直接使用reporthook(block_read,block_size,total_size)定义回调函数,block_size是每次读取的数据块的大小,block_read是每次读取的数据块个数,taotal_size是一一共读取的数据量,单位是byte。可以使用reporthook函数来显示读取进度。
如果想显示读取进度,则可以讲第三个参数加上,将上述程序第27行改为如下:

urllib.urlretrieve(everyURL, localPDF, reporthook=reporthook)

而reporthook回调函数的代码如下:

def reporthook(block_read,block_size,total_size): 
 if not block_read: 
 print "connection opened"; 
 return 
 if total_size<0: 
 #unknown size 
 print "read %d blocks (%dbytes)" %(block_read,block_read*block_size); 
 else: 
 amount_read=block_read*block_size; 
 print 'Read %d blocks,or %d/%d' %(block_read,block_read*block_size,total_size);

综上所述,这就是一个简单的从网页抓取数据、下载文件的小程序,希望对正在学习Python的同学有帮助。谢谢!

Python 相关文章推荐
Python ZipFile模块详解
Nov 01 Python
Python中用于检查英文字母大写的isupper()方法
May 19 Python
Python 数据结构之堆栈实例代码
Jan 22 Python
利用Python暴力破解zip文件口令的方法详解
Dec 21 Python
python 3利用Dlib 19.7实现摄像头人脸检测特征点标定
Feb 26 Python
python爱心表白 每天都是浪漫七夕!
Aug 18 Python
Python学习笔记之Zip和Enumerate用法实例分析
Aug 14 Python
WxPython实现无边框界面
Nov 18 Python
在Python中使用turtle绘制多个同心圆示例
Nov 23 Python
使用python采集Excel表中某一格数据
May 14 Python
jupyter notebook远程访问不了的问题解决方法
Jan 11 Python
Python中对象的比较操作==和is区别详析
Feb 12 Python
Python基础中所出现的异常报错总结
Nov 19 #Python
轻松掌握python设计模式之策略模式
Nov 18 #Python
轻松掌握python设计模式之访问者模式
Nov 18 #Python
Win10下Python环境搭建与配置教程
Nov 18 #Python
Python Paramiko模块的安装与使用详解
Nov 18 #Python
Python数据分析之真实IP请求Pandas详解
Nov 18 #Python
Python切换pip安装源的方法详解
Nov 18 #Python
You might like
逐步提升php框架的性能
2008/01/10 PHP
YII实现分页的方法
2014/07/09 PHP
php 使用ActiveMQ发送消息,与处理消息操作示例
2020/02/23 PHP
JavaScript 指导方针
2007/04/05 Javascript
使用jQuery fancybox插件打造一个实用的数据传输模态弹出窗体
2013/01/15 Javascript
JS文本框不能输入空格验证方法
2013/03/19 Javascript
JavaScript代码复用模式详解
2014/11/07 Javascript
javascript十六进制及二进制转化的方法
2015/05/06 Javascript
使用AmplifyJS组件配合JavaScript进行编程的指南
2015/07/28 Javascript
swtich/if...else的替代语句
2015/08/16 Javascript
jQuery实现TAB风格的全国省份城市滑动切换效果代码
2015/08/24 Javascript
Bootstrap布局组件应用实例讲解
2016/02/17 Javascript
js中string和number类型互转换技巧(分享)
2016/11/28 Javascript
JS获取年月日时分秒的方法分析
2016/11/28 Javascript
微信小程序三级联动选择器使用方法
2020/05/19 Javascript
Vue2.X 通过AJAX动态更新数据
2018/07/17 Javascript
基于layui实现高级搜索(筛选)功能
2019/07/26 Javascript
python有证书的加密解密实现方法
2014/11/19 Python
Python实现中一次读取多个值的方法
2018/04/22 Python
python ChainMap的使用和说明详解
2019/06/11 Python
Django中自定义模型管理器(Manager)及方法
2019/09/23 Python
python能做什么 python的含义
2019/10/12 Python
Python坐标线性插值应用实现
2019/11/13 Python
浅谈关于html5中图片抛物线运动的一些心得
2018/01/09 HTML / CSS
美国孕妇装购物网站:Motherhood Maternity
2019/09/22 全球购物
荷兰浴室和卫浴网上商店:Badkamerxxl.nl
2020/10/06 全球购物
linux面试题参考答案(7)
2014/07/24 面试题
测量实习生自我鉴定
2013/09/19 职场文书
《忆江南》教学反思
2014/04/07 职场文书
群众路线对照检查材料思想汇报怎么写
2014/09/18 职场文书
2014年纠风工作总结
2014/12/08 职场文书
2014年妇委会工作总结
2014/12/10 职场文书
乐山大佛导游词
2015/02/02 职场文书
教师个人师德总结
2015/02/06 职场文书
2019XX公司员工考核管理制度!
2019/08/07 职场文书
Linux安装Docker详细教程
2022/07/07 Servers