python实现从web抓取文档的方法


Posted in Python onSeptember 26, 2014

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python3 正在毁灭 Python的原因分析
Nov 28 Python
Python发送以整个文件夹的内容为附件的邮件的教程
May 06 Python
解决matplotlib库show()方法不显示图片的问题
May 24 Python
python3利用tcp实现文件夹远程传输
Jul 28 Python
Python3字符串encode与decode的讲解
Apr 02 Python
Python学习笔记之读取文件、OS模块、异常处理、with as语法示例
Jun 04 Python
Python3网络爬虫中的requests高级用法详解
Jun 18 Python
用Python实现二叉树、二叉树非递归遍历及绘制的例子
Aug 09 Python
python中的subprocess.Popen()使用详解
Dec 25 Python
python 线程的五个状态
Sep 22 Python
Python中正则表达式对单个字符,多个字符和匹配边界等使用
Jan 27 Python
Django程序的优化技巧
Apr 29 Python
python实现udp数据报传输的方法
Sep 26 #Python
python使用Berkeley DB数据库实例
Sep 26 #Python
python实现通过shelve修改对象实例
Sep 26 #Python
python实现在pickling的时候压缩的方法
Sep 25 #Python
python使用cPickle模块序列化实例
Sep 25 #Python
python使用marshal模块序列化实例
Sep 25 #Python
python中类的一些方法分析
Sep 25 #Python
You might like
虹吸式咖啡探讨–研磨
2021/03/03 冲泡冲煮
DedeCMS dede_channeltype表字段注释
2010/04/07 PHP
PHP数据对象PDO操作技巧小结
2016/09/27 PHP
PHP 网站修改默认访问文件的nginx配置
2017/05/27 PHP
Javascript &amp; DHTML 实例编程(教程)基础知识
2007/06/02 Javascript
javascript Select标记中options操作方法集合
2008/10/22 Javascript
JavaScript 提升运行速度之循环篇 译文
2009/08/15 Javascript
javascript算法题 求任意一个1-9位不重复的N位数在该组合中的大小排列序号
2012/07/21 Javascript
JS中window.open全屏命令解析及使用示例
2013/12/11 Javascript
Ajax请求在数据量大的时候出现超时的解决方法
2014/02/27 Javascript
jquery中EasyUI使用技巧小结
2015/02/10 Javascript
jQuery定义背景动态切换效果的方法
2015/03/23 Javascript
Jquery异步提交表单代码分享
2015/03/26 Javascript
微信小程序 开发指南详解
2016/09/27 Javascript
微信小程序实现循环动画效果
2018/07/16 Javascript
vue3实现v-model原理详解
2019/10/09 Javascript
[01:02:10]DOTA2上海特级锦标赛B组小组赛#2 VG VS Fnatic第一局
2016/02/26 DOTA
[36:52]DOTA2真视界:基辅特锦赛总决赛
2017/05/21 DOTA
Python函数学习笔记
2008/10/07 Python
python字典基本操作实例分析
2015/07/11 Python
python通过伪装头部数据抵抗反爬虫的实例
2018/05/07 Python
python中sys.argv函数精简概括
2018/07/08 Python
opencv python 2D直方图的示例代码
2018/07/20 Python
Python开发网站目录扫描器的实现
2019/02/21 Python
十分钟搞定pandas(入门教程)
2019/06/21 Python
django框架model orM使用字典作为参数,保存数据的方法分析
2019/06/24 Python
django多个APP的urls设置方法(views重复问题解决)
2019/07/19 Python
Python re 模块findall() 函数返回值展现方式解析
2019/08/09 Python
基于Python安装pyecharts所遇的问题及解决方法
2019/08/12 Python
决策树剪枝算法的python实现方法详解
2019/09/18 Python
青年教师典范事迹材料
2014/01/31 职场文书
幼儿园教师获奖感言
2014/03/11 职场文书
股权转让协议书
2014/04/12 职场文书
个人的事迹材料怎么写
2019/04/24 职场文书
2019邀请函格式及范文
2019/05/20 职场文书
Python实现批量将文件复制到新的目录中再修改名称
2022/04/12 Python