python实现从web抓取文档的方法


Posted in Python onSeptember 26, 2014

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
用Python代码来绘制彭罗斯点阵的教程
Apr 03 Python
粗略分析Python中的内存泄漏
Apr 23 Python
Python实现监控程序执行时间并将其写入日志的方法
Jun 30 Python
使用python3.5仿微软记事本notepad
Jun 15 Python
利用Python中SocketServer 实现客户端与服务器间非阻塞通信
Dec 15 Python
python读取中文txt文本的方法
Apr 12 Python
python利用smtplib实现QQ邮箱发送邮件
May 20 Python
python用match()函数爬数据方法详解
Jul 23 Python
将python安装信息加入注册表的示例
Nov 20 Python
Python类继承和多态原理解析
Feb 05 Python
python实现在线翻译功能
Mar 03 Python
Pycharm添加虚拟解释器报错问题解决方案
Oct 13 Python
python实现udp数据报传输的方法
Sep 26 #Python
python使用Berkeley DB数据库实例
Sep 26 #Python
python实现通过shelve修改对象实例
Sep 26 #Python
python实现在pickling的时候压缩的方法
Sep 25 #Python
python使用cPickle模块序列化实例
Sep 25 #Python
python使用marshal模块序列化实例
Sep 25 #Python
python中类的一些方法分析
Sep 25 #Python
You might like
php array_unique之后json_encode需要注意
2011/01/02 PHP
CI(CodeIgniter)框架中URL特殊字符处理与SQL注入隐患分析
2019/02/28 PHP
Javascript 变量作用域 两个可能会被忽略的小特性
2010/03/23 Javascript
jQuery 获取对象 定位子对象
2010/05/31 Javascript
jquery制作搜狐快站页面效果示例分享
2014/02/21 Javascript
Javascript显示和隐藏ul列表的方法
2015/07/15 Javascript
JavaScript数据结构与算法之链表
2016/01/29 Javascript
jquery判断类型是不是number类型的实例代码
2016/10/07 Javascript
js 转json格式的字符串为对象或数组(前后台)的方法
2016/11/02 Javascript
浅析bootstrap原理及优缺点
2017/03/19 Javascript
React-Native之定时器Timer的实现代码
2017/10/04 Javascript
使用Vue-Router 2实现路由功能实例详解
2017/11/14 Javascript
基于vue-ssr服务端渲染入门详解
2018/01/08 Javascript
three.js 入门案例详解
2018/01/23 Javascript
基于JQuery实现页面定时弹出广告
2020/05/08 jQuery
jQuery 选择方法及$(this)用法实例分析
2020/05/19 jQuery
JavaScript十大取整方法实例教程
2020/12/03 Javascript
Python的Flask框架中实现登录用户的个人资料和头像的教程
2015/04/20 Python
python运行时间的几种方法
2016/06/17 Python
深入理解Python3 内置函数大全
2017/11/23 Python
浅谈PYTHON 关于文件的操作
2019/03/19 Python
Ubuntu16.04安装python3.6.5步骤详解
2020/01/10 Python
python GUI库图形界面开发之PyQt5日期时间控件QDateTimeEdit详细使用方法与实例
2020/02/27 Python
使用python实现CGI环境搭建过程解析
2020/04/28 Python
python excel多行合并的方法
2020/12/09 Python
Chemist Warehouse中文网:澳洲连锁大药房
2021/02/05 全球购物
小学生期末自我鉴定
2014/01/19 职场文书
《纸船和风筝》教学反思
2014/02/15 职场文书
毕业生自荐信如何写
2014/03/24 职场文书
优秀少先队大队辅导员事迹材料
2014/05/04 职场文书
消防标语大全
2014/06/07 职场文书
工程部经理岗位职责
2015/02/02 职场文书
2015年国庆节活动总结
2015/03/23 职场文书
学习焦裕禄先进事迹心得体会
2016/01/23 职场文书
python树莓派通过队列实现进程交互的程序分析
2021/07/04 Python
Android Canvas绘制文字横纵向对齐
2022/06/05 Java/Android