python实现从web抓取文档的方法


Posted in Python onSeptember 26, 2014

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
利用一个简单的例子窥探CPython内核的运行机制
Mar 30 Python
使用python3.5仿微软记事本notepad
Jun 15 Python
Python操作Access数据库基本步骤分析
Sep 19 Python
Python的UTC时间转换讲解
Feb 26 Python
Python3中列表list合并的四种方法
Apr 19 Python
python使用minimax算法实现五子棋
Jul 29 Python
Python 实现自动导入缺失的库
Oct 29 Python
基于tensorflow指定GPU运行及GPU资源分配的几种方式小结
Feb 03 Python
python GUI库图形界面开发之PyQt5状态栏控件QStatusBar详细使用方法实例
Feb 28 Python
使用numpy nonzero 找出非0元素
May 14 Python
OpenCV-Python实现怀旧滤镜与连环画滤镜
Jun 09 Python
python中对列表的删除和添加方法详解
Feb 24 Python
python实现udp数据报传输的方法
Sep 26 #Python
python使用Berkeley DB数据库实例
Sep 26 #Python
python实现通过shelve修改对象实例
Sep 26 #Python
python实现在pickling的时候压缩的方法
Sep 25 #Python
python使用cPickle模块序列化实例
Sep 25 #Python
python使用marshal模块序列化实例
Sep 25 #Python
python中类的一些方法分析
Sep 25 #Python
You might like
一个PHP+MSSQL分页的例子
2006/10/09 PHP
PHP 设置MySQL连接字符集的方法
2011/01/02 PHP
探讨file_get_contents与curl效率及稳定性的分析
2013/06/06 PHP
PHP命名空间(namespace)的动态访问及使用技巧
2014/08/18 PHP
thinkphp视图模型查询提示ERR: 1146:Table 'db.pr_order_view' doesn't exist的解决方法
2014/10/30 PHP
jquery 无限级联菜单案例分享
2013/03/26 Javascript
js异常捕获方法介绍
2013/04/10 Javascript
JavaScript中window、doucment、body的解释
2013/08/14 Javascript
js中运算符&amp;&amp; 和 || 的使用记录
2014/08/21 Javascript
javascript实现带节日和农历的日历特效
2015/02/01 Javascript
jQuery Ajax调用WCF服务详细教程
2015/03/31 Javascript
IE和Firefox之间在JavaScript语法上的差异
2016/04/22 Javascript
AngularJS入门教程之表格实例详解
2016/07/27 Javascript
Javascript日期格式化format函数的使用方法
2016/08/30 Javascript
AngularJS使用ocLazyLoad实现js延迟加载
2017/07/05 Javascript
VUE axios上传图片到七牛的实例代码
2017/07/28 Javascript
基于js原生和ajax的get和post方法以及jsonp的原生写法实例
2017/10/16 Javascript
在webstorm开发微信小程序之使用阿里自定义字体图标的方法
2018/11/15 Javascript
mpvue 单文件页面配置详解
2018/12/02 Javascript
了解在JavaScript中将值转换为字符串的5种方法
2019/06/06 Javascript
微信小程序全局变量GLOBALDATA的定义和调用过程解析
2019/09/23 Javascript
React-redux实现小案例(todolist)的过程
2019/09/29 Javascript
vue.js路由mode配置之去掉url上默认的#方法
2019/11/01 Javascript
Python脚本实现代码行数统计代码分享
2015/03/10 Python
Python使用matplotlib绘制三维图形示例
2018/08/25 Python
HTML5操作WebSQL数据库的实例代码
2017/08/26 HTML / CSS
世界上最大的各式箱包网络零售店:eBag
2016/07/21 全球购物
法学个人求职信范文
2014/01/27 职场文书
建筑施工安全责任书
2014/07/24 职场文书
2014乡党委副书记党建工作汇报材料
2014/11/02 职场文书
2014年第四季度入党积极分子思想汇报(十八届四中全会)
2014/11/03 职场文书
2016学习雷锋精神活动倡议书
2015/04/27 职场文书
2016年大学生寒假社会实践心得体会
2015/10/09 职场文书
MySQL主从复制断开的常用修复方法
2021/04/07 MySQL
深入浅析Redis 集群伸缩原理
2021/05/15 Redis
Android开发EditText禁止输入监听及InputFilter字符过滤
2022/06/10 Java/Android