python实现从web抓取文档的方法


Posted in Python onSeptember 26, 2014

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
pycharm 使用心得(二)设置字体大小
Jun 05 Python
Python unittest 简单实现参数化的方法
Nov 30 Python
详解python websocket获取实时数据的几种常见链接方式
Jul 01 Python
python字符串切割:str.split()与re.split()的对比分析
Jul 16 Python
Python hashlib加密模块常用方法解析
Dec 18 Python
python批量处理txt文件的实例代码
Jan 13 Python
python发qq消息轰炸虐狗好友思路详解(完整代码)
Feb 15 Python
Python新手如何进行闭包时绑定变量操作
May 29 Python
python怎么对数字进行过滤
Jul 05 Python
python判断变量是否为列表的方法
Sep 17 Python
使用py-spy解决scrapy卡死的问题方法
Sep 29 Python
如何用 Python 子进程关闭 Excel 自动化中的弹窗
May 07 Python
python实现udp数据报传输的方法
Sep 26 #Python
python使用Berkeley DB数据库实例
Sep 26 #Python
python实现通过shelve修改对象实例
Sep 26 #Python
python实现在pickling的时候压缩的方法
Sep 25 #Python
python使用cPickle模块序列化实例
Sep 25 #Python
python使用marshal模块序列化实例
Sep 25 #Python
python中类的一些方法分析
Sep 25 #Python
You might like
网络资源
2006/10/09 PHP
浅析php中如何在有限的内存中读取大文件
2013/07/02 PHP
PHP+Ajax检测用户名或邮件注册时是否已经存在实例教程
2014/08/23 PHP
PHP mysql事务问题实例分析
2016/01/18 PHP
PHP二维数组去重实例分析
2016/11/18 PHP
Asp.net下使用Jquery Ajax传送和接收DataTable的代码
2010/09/12 Javascript
jQuery EasyUI API 中文文档 - ValidateBox验证框
2011/10/06 Javascript
js创建数据共享接口——简化框架之间相互传值
2011/10/23 Javascript
JS中Iframe之间传值的方法
2013/03/11 Javascript
jQuery mobile转换url地址及获取url中目录部分的方法
2015/12/04 Javascript
jQuery中bind(),live(),delegate(),on()绑定事件方法实例详解
2016/01/19 Javascript
详解JavaScript的AngularJS框架中的表达式与指令
2016/03/05 Javascript
jQuery Ajax 加载数据时异步显示加载动画
2016/08/01 Javascript
jquery UI Datepicker时间控件冲突问题解决
2016/12/16 Javascript
jQuery菜单实例(全选,反选,取消)
2017/08/28 jQuery
使用ng-packagr打包Angular的方法示例
2018/09/21 Javascript
javascript中join方法实例讲解
2019/02/21 Javascript
node 解析图片二维码的内容代码实例
2019/09/11 Javascript
浅析python 内置字符串处理函数的使用方法
2014/06/11 Python
Python中除法使用的注意事项
2014/08/21 Python
Python使用SocketServer模块编写基本服务器程序的教程
2016/07/12 Python
Python中matplotlib中文乱码解决办法
2017/05/12 Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
2018/05/21 Python
Python中的 is 和 == 以及字符串驻留机制详解
2019/06/28 Python
python写入数据到csv或xlsx文件的3种方法
2019/08/23 Python
Python读取分割压缩TXT文本文件实例
2020/02/14 Python
Python统计学一数据的概括性度量详解
2020/03/03 Python
django使用F方法更新一个对象多个对象字段的实现
2020/03/28 Python
澳洲最大的时尚奢侈品电商平台:Cettire
2020/06/15 全球购物
一套C#面试题
2013/10/09 面试题
Unix/Linux开发面试题
2016/08/16 面试题
小学教师师德感言
2014/02/10 职场文书
贷款担保书
2015/01/20 职场文书
大一新生军训新闻稿
2015/07/17 职场文书
学校就业保障协议书
2019/06/24 职场文书
css3 利用transform-origin 实现圆点分布在大圆上布局及旋转特效
2021/04/29 HTML / CSS