python实现从web抓取文档的方法


Posted in Python onSeptember 26, 2014

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python实现的百度站长自动URL提交小工具
Jun 27 Python
python中MySQLdb模块用法实例
Nov 10 Python
Python的Flask框架中实现登录用户的个人资料和头像的教程
Apr 20 Python
如何在Python函数执行前后增加额外的行为
Oct 20 Python
Python3 模块、包调用&amp;路径详解
Oct 25 Python
numpy实现合并多维矩阵、list的扩展方法
May 08 Python
python入门:这篇文章带你直接学会python
Sep 14 Python
python Pandas如何对数据集随机抽样
Jul 29 Python
Python一键查找iOS项目中未使用的图片、音频、视频资源
Aug 12 Python
python在OpenCV里实现投影变换效果
Aug 30 Python
Python从列表推导到zip()函数的5种技巧总结
Oct 23 Python
python邮件中附加文字、html、图片、附件实现方法
Jan 04 Python
python实现udp数据报传输的方法
Sep 26 #Python
python使用Berkeley DB数据库实例
Sep 26 #Python
python实现通过shelve修改对象实例
Sep 26 #Python
python实现在pickling的时候压缩的方法
Sep 25 #Python
python使用cPickle模块序列化实例
Sep 25 #Python
python使用marshal模块序列化实例
Sep 25 #Python
python中类的一些方法分析
Sep 25 #Python
You might like
十天学会php之第八天
2006/10/09 PHP
php利用iframe实现无刷新文件上传功能的代码
2011/09/29 PHP
PHP--用万网的接口实现域名查询功能
2012/12/13 PHP
仿dedecms下拉分页样式修改的thinkphp分页类实例
2014/10/30 PHP
在SAE上搭建最新wordpress的方法
2014/12/21 PHP
PHP 7.1中AES加解密方法mcrypt_module_open()的替换方案
2017/10/17 PHP
csdn 博客的css样式 v3
2009/02/24 Javascript
理解Javascript_13_执行模型详解
2010/10/20 Javascript
js判断IE6/IE7/FF的代码[XMLHttpRequest]
2011/02/16 Javascript
JavaScript禁止页面操作的示例代码
2013/12/17 Javascript
js opener的使用详解
2014/01/11 Javascript
javascript实现在某个元素上阻止鼠标右键事件的方法和实例
2014/08/12 Javascript
详解javascript的变量与标识符
2016/01/04 Javascript
总结Node.js中的一些错误类型
2016/08/15 Javascript
vue+ElementUI实现订单页动态添加产品数据效果实例代码
2017/07/13 Javascript
jQuery实现table表格checkbox全选的方法分析
2018/07/04 jQuery
JS 获取文件后缀,判断文件类型(比如是否为图片格式)
2020/05/09 Javascript
JSONP 的原理、理解 与 实例分析
2020/05/16 Javascript
用python实现批量重命名文件的代码
2012/05/25 Python
Python中的tuple元组详细介绍
2015/02/02 Python
Python二分查找详解
2015/09/13 Python
尝试用最短的Python代码来实现服务器和代理服务器
2016/06/23 Python
python常用函数详解
2016/09/13 Python
Python 编码规范(Google Python Style Guide)
2018/05/05 Python
如何通过雪花算法用Python实现一个简单的发号器
2019/07/03 Python
python被修饰的函数消失问题解决(基于wraps函数)
2019/11/04 Python
python中设置超时跳过,超时退出的方式
2019/12/13 Python
Keras 快速解决OOM超内存的问题
2020/06/11 Python
NOTINO英国:在线购买美容和香水
2020/02/25 全球购物
自动化工程专业个人应聘自荐信
2013/09/26 职场文书
四年的大学生生活自我评价
2013/12/09 职场文书
六一节目主持词
2014/04/01 职场文书
主题班会开场白
2015/06/01 职场文书
幼儿园元旦主持词
2015/07/06 职场文书
2015初中团支部工作总结
2015/07/21 职场文书
汽车销售员工作总结
2015/08/12 职场文书