python实现从web抓取文档的方法


Posted in Python onSeptember 26, 2014

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
解决Python中由于logging模块误用导致的内存泄露
Apr 23 Python
深入浅析python with语句简介
Apr 11 Python
python进行文件对比的方法
Dec 24 Python
python实现ip代理池功能示例
Jul 05 Python
Python with用法:自动关闭文件进程
Jul 10 Python
Python自动化完成tb喵币任务的操作方法
Oct 30 Python
python解释器pycharm安装及环境变量配置教程图文详解
Feb 26 Python
浅谈Tensorflow加载Vgg预训练模型的几个注意事项
May 26 Python
解析Tensorflow之MNIST的使用
Jun 30 Python
Python中三维坐标空间绘制的实现
Sep 22 Python
解决pytorch 模型复制的一些问题
Mar 03 Python
Python实现灰色关联分析与结果可视化的详细代码
Mar 25 Python
python实现udp数据报传输的方法
Sep 26 #Python
python使用Berkeley DB数据库实例
Sep 26 #Python
python实现通过shelve修改对象实例
Sep 26 #Python
python实现在pickling的时候压缩的方法
Sep 25 #Python
python使用cPickle模块序列化实例
Sep 25 #Python
python使用marshal模块序列化实例
Sep 25 #Python
python中类的一些方法分析
Sep 25 #Python
You might like
桌面中心(二)数据库写入
2006/10/09 PHP
php下使用curl模拟用户登陆的代码
2010/09/10 PHP
php网页标题中文乱码的有效解决方法
2014/03/05 PHP
php获取YouTube视频信息的方法
2015/02/11 PHP
PHP如何防止XSS攻击与XSS攻击原理的讲解
2019/03/22 PHP
PHP CURL实现模拟登陆并上传文件操作示例
2020/01/02 PHP
枚举JavaScript对象的函数
2006/12/22 Javascript
Javascript调用C#代码
2011/01/17 Javascript
javascript教程:关于if简写语句优化的方法
2014/05/17 Javascript
jQuery EasyUI datagrid实现本地分页的方法
2015/02/13 Javascript
easyui Droppable组件实现放置特效
2015/08/19 Javascript
jQuery事件绑定on()与弹窗实现代码
2016/04/28 Javascript
jQuery基于ID调用指定iframe页面内的方法
2016/07/06 Javascript
vue.js+boostrap项目实践(案例详解)
2016/09/21 Javascript
JavaScript实现图片本地预览功能【不用上传至服务器】
2017/09/20 Javascript
Angular使用过滤器uppercase/lowercase实现字母大小写转换功能示例
2018/03/27 Javascript
JS实现的倒计时恢复按钮点击功能【可用于协议阅读倒计时】
2018/04/19 Javascript
vue.js学习笔记之v-bind和v-on解析
2018/05/03 Javascript
ES6基础之 Promise 对象用法实例详解
2019/08/22 Javascript
layui 富文本编辑器和textarea值的相互传递方法
2019/09/18 Javascript
基于Cesium绘制抛物弧线
2020/11/18 Javascript
[02:40]DOTA2英雄基础教程 巨牙海民
2013/12/23 DOTA
python复制文件代码实现
2013/12/23 Python
scrapy爬虫实例分享
2017/12/28 Python
Python字典生成式、集合生成式、生成器用法实例分析
2020/01/07 Python
Oakley官网:运动太阳镜、雪镜和服装
2016/09/30 全球购物
合作协议书范本
2014/04/17 职场文书
水污染治理工程专业自荐信
2014/06/21 职场文书
会计专业毕业生自荐书
2014/06/25 职场文书
城市规划应届生推荐信
2014/09/08 职场文书
2014年医院工作总结
2014/11/20 职场文书
优秀党员先进事迹材料
2014/12/18 职场文书
2014年英语工作总结
2014/12/20 职场文书
幼儿园教师师德表现自我评价
2015/03/05 职场文书
商务英语邮件开头问候语
2015/11/10 职场文书
《时代广场的蟋蟀》读后感:真挚友情,温暖世界!
2020/01/08 职场文书