python实现从web抓取文档的方法


Posted in Python onSeptember 26, 2014

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python解析html开发库pyquery使用方法
Feb 07 Python
python中的__slots__使用示例
Feb 26 Python
Python常见字典内建函数用法示例
May 14 Python
python3.5基于TCP实现文件传输
Mar 20 Python
Django进阶之CSRF的解决
Aug 01 Python
Python 创建新文件时避免覆盖已有的同名文件的解决方法
Nov 16 Python
Python从文件中读取指定的行以及在文件指定位置写入
Sep 06 Python
Python之变量类型和if判断方式
May 05 Python
解决Keras中循环使用K.ctc_decode内存不释放的问题
Jun 29 Python
解决keras模型保存h5文件提示无此目录问题
Jul 01 Python
python批量修改文件名的示例
Sep 27 Python
解决Pymongo insert时会自动添加_id的问题
Dec 05 Python
python实现udp数据报传输的方法
Sep 26 #Python
python使用Berkeley DB数据库实例
Sep 26 #Python
python实现通过shelve修改对象实例
Sep 26 #Python
python实现在pickling的时候压缩的方法
Sep 25 #Python
python使用cPickle模块序列化实例
Sep 25 #Python
python使用marshal模块序列化实例
Sep 25 #Python
python中类的一些方法分析
Sep 25 #Python
You might like
将文件夹压缩成zip文件的php代码
2009/12/14 PHP
php获得网站访问统计信息类Compete API用法实例
2015/04/02 PHP
php判断linux下程序问题实例
2015/07/09 PHP
Laravel中log无法写入问题的解决
2017/06/17 PHP
Laravel框架使用技巧之使用url()全局函数返回前一个页面的地址方法详解
2020/04/06 PHP
js 省地市级联选择
2010/02/07 Javascript
jQuery动态改变图片显示大小(修改版)的实现思路及代码
2013/12/24 Javascript
IE浏览器IFrame对象内存不释放问题解决方法
2014/08/22 Javascript
JSONP之我见
2015/03/24 Javascript
js jquery获取当前元素的兄弟级 上一个 下一个元素
2015/09/01 Javascript
jQuery往返城市和日期查询实例讲解
2015/10/09 Javascript
jQuery实现图片加载完成后改变图片大小的方法
2016/03/29 Javascript
AngularJS ng-controller 指令简单实例
2016/08/01 Javascript
Vue使用高德地图搭建实时公交应用功能(地图 + 附近站点+线路详情 + 输入提示+换乘详情)
2018/05/16 Javascript
extract-text-webpack-plugin用法详解
2019/02/14 Javascript
vue+web端仿微信网页版聊天室功能
2019/04/30 Javascript
JavaScript实现网页下拉菜单效果
2020/11/20 Javascript
JavaScript实现前端倒计时效果
2021/02/09 Javascript
[01:04:49]KG vs LGD 2019国际邀请赛小组赛 BO2 第二场 8.15
2019/08/16 DOTA
wxPython事件驱动实例详解
2014/09/28 Python
python脚本生成caffe train_list.txt的方法
2018/04/27 Python
对python中的乘法dot和对应分量相乘multiply详解
2018/11/14 Python
带你彻底搞懂python操作mysql数据库(cursor游标讲解)
2020/01/06 Python
解决Keras中Embedding层masking与Concatenate层不可调和的问题
2020/06/18 Python
css3闪亮进度条效果实现思路及代码
2013/04/17 HTML / CSS
Staples加拿大官方网站:办公用品一站式采购
2016/09/25 全球购物
加拿大最大的相机店:Henry’s
2017/05/17 全球购物
贝嫂喜欢的婴儿品牌,个性化的婴儿礼物:My 1st Years
2017/11/19 全球购物
美国最大的烧烤架和户外生活用品专业零售商:Barbeques Galore
2021/01/09 全球购物
珠宝店促销方案
2014/03/21 职场文书
读书活动总结
2014/04/28 职场文书
化工专业自荐书
2014/06/16 职场文书
土木工程专业本科生求职信
2014/10/01 职场文书
三年级上册科学教学计划
2015/01/21 职场文书
2015年世界无烟日演讲稿
2015/03/18 职场文书
PyQt5实现多张图片显示并滚动
2021/06/11 Python