python实现从web抓取文档的方法


Posted in Python onSeptember 26, 2014

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python创建文件和追加文件内容实例
Oct 21 Python
python非递归全排列实现方法
Apr 10 Python
Python代码实现KNN算法
Dec 20 Python
解决Mac安装scrapy失败的问题
Jun 13 Python
使用Python实现一个栈判断括号是否平衡
Aug 23 Python
python的中异常处理机制
Aug 30 Python
python设计微型小说网站(基于Django+Bootstrap框架)
Jul 08 Python
python实现监控阿里云账户余额功能
Dec 16 Python
pytorch实现mnist数据集的图像可视化及保存
Jan 14 Python
python构造函数init实例方法解析
Jan 19 Python
Python 开发工具PyCharm安装教程图文详解(新手必看)
Feb 28 Python
pycharm Tab键设置成4个空格的操作
Feb 26 Python
python实现udp数据报传输的方法
Sep 26 #Python
python使用Berkeley DB数据库实例
Sep 26 #Python
python实现通过shelve修改对象实例
Sep 26 #Python
python实现在pickling的时候压缩的方法
Sep 25 #Python
python使用cPickle模块序列化实例
Sep 25 #Python
python使用marshal模块序列化实例
Sep 25 #Python
python中类的一些方法分析
Sep 25 #Python
You might like
Breeze 文章管理系统 v1.0.0正式发布
2006/12/14 PHP
支持中文的php加密解密类代码
2011/11/27 PHP
php unset全局变量运用问题的深入解析
2013/06/17 PHP
php结合md5的加密解密算法实例
2016/09/30 PHP
Laravel使用memcached缓存对文章增删改查进行优化的方法
2016/10/08 PHP
PHP实现上传多图即时显示与即时删除的方法
2017/05/09 PHP
用PHP的反射实现委托模式的讲解
2019/03/22 PHP
jQuery对象[0]是什么含义?
2010/07/31 Javascript
js模拟select下拉菜单控件的代码
2013/05/08 Javascript
jquery实现图片翻页效果
2013/12/23 Javascript
JavaScript中的object转换函数toString()与valueOf()介绍
2014/12/31 Javascript
深入浅出理解javaScript原型链
2015/05/09 Javascript
jquery实现可点击伸缩与展开的菜单效果代码
2015/08/31 Javascript
使用JQuery在线制作ppt并在线演示源码特效
2015/09/08 Javascript
使用Javascript写的2048小游戏
2015/11/25 Javascript
jQuery学习心得总结(必看篇)
2016/06/10 Javascript
AngularJS入门之动画
2016/07/27 Javascript
Bootstrap导航条可点击和鼠标悬停显示下拉菜单
2016/11/25 Javascript
详解React开发中使用require.ensure()按需加载ES6组件
2017/05/12 Javascript
教你如何用node连接redis的示例代码
2018/07/12 Javascript
vuejs实现折叠面板展开收缩动画效果
2018/09/06 Javascript
JS如何在数组指定位置插入元素
2020/03/10 Javascript
让python同时兼容python2和python3的8个技巧分享
2014/07/11 Python
python新手经常遇到的17个错误分析
2014/07/30 Python
Python的加密模块md5、sha、crypt使用实例
2014/09/28 Python
Python实现发送QQ邮件的封装
2017/07/14 Python
python 爬取B站原视频的实例代码
2020/09/09 Python
编写一个 C 函数,该函数在一个字符串中找到可能的最长的子字符串,且该字符串是由同一字符组成的
2015/07/23 面试题
汽车专业毕业生自荐信
2013/11/03 职场文书
三年级语文教学反思
2014/02/01 职场文书
大学生秋游活动方案
2014/02/17 职场文书
5s标语大全
2014/06/23 职场文书
2015年社区矫正工作总结
2015/04/21 职场文书
感恩信:写给爸爸妈妈的一封感谢信
2019/09/12 职场文书
golang中实现给gif、png、jpeg图片添加文字水印
2021/04/26 Golang
JavaScript高级程序设计之基本引用类型
2021/11/17 Javascript