python实现从web抓取文档的方法


Posted in Python onSeptember 26, 2014

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
使用Python中的greenlet包实现并发编程的入门教程
Apr 16 Python
Python中isnumeric()方法的使用简介
May 19 Python
利用Python批量生成任意尺寸的图片
Aug 29 Python
基于django channel实现websocket的聊天室的方法示例
Apr 11 Python
python实现飞机大战游戏
Oct 26 Python
Python深拷贝与浅拷贝用法实例分析
May 05 Python
python中的Elasticsearch操作汇总
Oct 30 Python
TensorFLow 不同大小图片的TFrecords存取实例
Jan 20 Python
python实现ftp文件传输系统(案例分析)
Mar 20 Python
Python自动化之UnitTest框架实战记录
Sep 08 Python
Pandas的数据过滤实现
Jan 15 Python
python中super()函数的理解与基本使用
Aug 30 Python
python实现udp数据报传输的方法
Sep 26 #Python
python使用Berkeley DB数据库实例
Sep 26 #Python
python实现通过shelve修改对象实例
Sep 26 #Python
python实现在pickling的时候压缩的方法
Sep 25 #Python
python使用cPickle模块序列化实例
Sep 25 #Python
python使用marshal模块序列化实例
Sep 25 #Python
python中类的一些方法分析
Sep 25 #Python
You might like
用PHP制作静态网站的模板框架(四)
2006/10/09 PHP
zen cart新进商品的随机排序修改方法
2010/09/10 PHP
PHP弹出提示框并跳转到新页面即重定向到新页面
2014/01/24 PHP
初识php MVC
2014/09/10 PHP
跟我学Laravel之路由
2014/10/15 PHP
PHP图像裁剪缩略裁切类源码及使用方法
2016/01/07 PHP
PHP简单遍历对象示例
2016/09/28 PHP
jquery.boxy插件的iframe扩展代码
2010/07/02 Javascript
JQuery 1.3.2以上版本中出现pareseerror错误的解决方法
2011/01/11 Javascript
Jquery submit()无法提交问题
2013/04/21 Javascript
js如何实现设计模式中的模板方法
2013/07/23 Javascript
PHP使用方法重载实现动态创建属性的get和set方法
2014/11/17 Javascript
jQuery使用append在html元素后同时添加多项内容的方法
2015/03/26 Javascript
jQuery的事件委托实例分析
2015/07/15 Javascript
JS实现完全语义化的网页选项卡效果代码
2015/09/15 Javascript
JavaScript中cookie工具函数封装的示例代码
2016/10/11 Javascript
nodejs对mongodb数据库的增加修删该查实例代码
2020/01/05 NodeJs
JS浏览器BOM常见操作实例详解
2020/04/27 Javascript
js闭包的9个使用场景
2020/12/29 Javascript
[02:40]DOTA2殁境神蚀者 英雄基础教程
2013/11/26 DOTA
[01:00:14]DOTA2-DPC中国联赛 正赛 Ehome vs Elephant BO3 第二场 2月28日
2021/03/11 DOTA
在Python中使用第三方模块的教程
2015/04/27 Python
Python中格式化format()方法详解
2017/04/01 Python
视觉直观感受若干常用排序算法
2017/04/13 Python
Python基于list的append和pop方法实现堆栈与队列功能示例
2017/07/24 Python
Django如何自定义分页
2018/09/25 Python
python实现邮件自动发送
2019/08/10 Python
python类中super() 的使用解析
2019/12/19 Python
pandas创建DataFrame的7种方法小结
2020/06/14 Python
keras model.fit 解决validation_spilt=num 的问题
2020/06/19 Python
咖啡店的创业计划书,让你hold不住
2014/01/03 职场文书
大学毕业生通用自我评价
2014/01/05 职场文书
园林技术专业求职信
2014/07/28 职场文书
九年级化学教学反思
2016/02/22 职场文书
用golang如何替换某个文件中的字符串
2021/04/25 Golang
pytorch 实现在测试的时候启用dropout
2021/05/27 Python