python实现从web抓取文档的方法


Posted in Python onSeptember 26, 2014

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
天翼开放平台免费短信验证码接口使用实例
Dec 18 Python
Python批量修改文件后缀的方法
Jan 26 Python
在Windows8上的搭建Python和Django环境
Jul 03 Python
bpython 功能强大的Python shell
Feb 16 Python
Python中的错误和异常处理简单操作示例【try-except用法】
Jul 25 Python
docker-py 用Python调用Docker接口的方法
Aug 30 Python
pycharm不能运行.py文件的解决方法
Feb 12 Python
在Anaconda3下使用清华镜像源安装TensorFlow(CPU版)
Apr 19 Python
Django --Xadmin 判断登录者身份实例
Jul 03 Python
如何快速一次性卸载所有python包(第三方库)呢
Oct 20 Python
python 解决函数返回return的问题
Dec 05 Python
python 实现网易邮箱邮件阅读和删除的辅助小脚本
Mar 01 Python
python实现udp数据报传输的方法
Sep 26 #Python
python使用Berkeley DB数据库实例
Sep 26 #Python
python实现通过shelve修改对象实例
Sep 26 #Python
python实现在pickling的时候压缩的方法
Sep 25 #Python
python使用cPickle模块序列化实例
Sep 25 #Python
python使用marshal模块序列化实例
Sep 25 #Python
python中类的一些方法分析
Sep 25 #Python
You might like
如何使用PHP往windows中添加用户
2006/12/06 PHP
PHP+APACHE实现网址伪静态
2015/02/22 PHP
PHP魔术方法使用方法汇总
2016/02/14 PHP
PHP 匿名函数与注意事项详细介绍
2016/11/26 PHP
利用 fsockopen() 函数开放端口扫描器的实例
2017/08/19 PHP
PHP使用OB缓存实现静态化功能示例
2019/03/23 PHP
TNC vs BOOM BO3 第三场2.13
2021/03/10 DOTA
document对象execCommand的command参数介绍
2006/08/01 Javascript
javascript 鼠标悬浮图片显示原图 移出鼠标后原图消失(多图)
2009/12/28 Javascript
火狐textarea输入法的bug的触发及解决
2013/07/24 Javascript
jQuery学习笔记之总体架构
2014/06/03 Javascript
Javascript中关于Array.filter()的妙用详解
2016/12/04 Javascript
详解vue+vueRouter+webpack的简单实例
2017/06/17 Javascript
Vue使用vux-ui自定义表单验证遇到的问题及解决方法
2018/05/10 Javascript
基于vue通用表单解决方案的思考与分析
2019/03/16 Javascript
灵活使用console让js调试更简单的方法步骤
2019/04/23 Javascript
手把手教你使用TypeScript开发Node.js应用
2019/05/06 Javascript
[27:53]2014 DOTA2华西杯精英邀请赛 5 24 NewBee VS iG
2014/05/26 DOTA
Python实现代码统计工具(终极篇)
2016/07/04 Python
python中文分词,使用结巴分词对python进行分词(实例讲解)
2017/11/14 Python
Python3.6连接Oracle数据库的方法详解
2018/05/18 Python
详解Python if-elif-else知识点
2018/06/11 Python
Python使用pydub库对mp3与wav格式进行互转的方法
2019/01/10 Python
python批量修改图片尺寸,并保存指定路径的实现方法
2019/07/04 Python
Python使用import导入本地脚本及导入模块的技巧总结
2019/08/07 Python
python入门之井字棋小游戏
2020/03/05 Python
HTML5实现无刷新修改URL的方法
2019/11/14 HTML / CSS
西班牙电子产品购物网站:Electronicamente
2018/07/26 全球购物
大学生求职简历的自我评价
2013/10/21 职场文书
医院反腐倡廉演讲稿
2014/09/16 职场文书
七年级上册语文教学计划
2015/01/22 职场文书
幼儿教师年度个人总结
2015/02/05 职场文书
妈妈别哭观后感
2015/06/08 职场文书
工程主管竞聘书
2015/09/15 职场文书
2016天猫双十一广告语
2016/01/28 职场文书
小学六一儿童节活动开幕词
2016/03/04 职场文书