用Python下载一个网页保存为本地的HTML文件实例


Posted in Python onMay 21, 2018

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。

比如我们要下载山东大学新闻网的一个页面,该网页如下:

用Python下载一个网页保存为本地的HTML文件实例

实现代码如下:

import urllib.request

def getHtml(url):
 html = urllib.request.urlopen(url).read()
 return html

def saveHtml(file_name, file_content):
 # 注意windows文件命名的禁用符,比如 /
 with open(file_name.replace('/', '_') + ".html", "wb") as f:
  # 写文件用bytes而不是str,所以要转码
  f.write(file_content)

aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"
html = getHtml(aurl)
saveHtml("sduview", html)

print("下载成功")

打开相应的目录可以看到这个网页已经被下载保存成功了

用Python下载一个网页保存为本地的HTML文件实例

我们用浏览器打开这个网页文件如下

用Python下载一个网页保存为本地的HTML文件实例

由于我们只是下载了网页的主要源码,其中的很多图片之类的文件都不在这里。因此这种方法只适用于提取文字内容。

以上这篇用Python下载一个网页保存为本地的HTML文件实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现中文输出的两种方法
May 09 Python
python字典排序实例详解
May 20 Python
Python解析最简单的验证码
Jan 07 Python
Python中定时任务框架APScheduler的快速入门指南
Jul 06 Python
Python如何通过subprocess调用adb命令详解
Aug 27 Python
Python使用numpy实现BP神经网络
Mar 10 Python
python 制作自定义包并安装到系统目录的方法
Oct 27 Python
如何用Python来搭建一个简单的推荐系统
Aug 07 Python
django 实现后台从富文本提取纯文本
Jul 02 Python
如何把python项目部署到linux服务器
Aug 26 Python
使用Python爬虫爬取小红书完完整整的全过程
Jan 19 Python
Python中Qslider控件实操详解
Feb 20 Python
Python读取本地文件并解析网页元素的方法
May 21 #Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
You might like
php实现将Session写入数据库
2015/07/26 PHP
javascript中获取选中对象的类型
2007/04/02 Javascript
深入理解Javascript动态方法调用与参数修改的问题
2013/12/10 Javascript
jQuery动态添加、删除元素的方法
2014/01/09 Javascript
.NET微信公众号开发之创建自定义菜单
2015/07/16 Javascript
轻松实现javascript图片轮播特效
2016/01/13 Javascript
jQuery获取父元素及父节点的方法小结
2016/04/14 Javascript
JavaScript学习小结之使用canvas画“哆啦A梦”时钟
2016/07/24 Javascript
完美解决jQuery fancybox ie 无法显示关闭按钮的问题
2016/11/29 Javascript
详解微信小程序开发之——wx.showToast(OBJECT)的使用
2017/01/18 Javascript
nodeJs链接Mysql做增删改查的简单操作
2017/02/04 NodeJs
angularjs+bootstrap菜单的使用示例代码
2017/03/07 Javascript
详解angularjs 关于ui-router分层使用
2017/06/12 Javascript
Popup弹出框添加数据实现方法
2017/10/27 Javascript
Vue配合iView实现省市二级联动的示例代码
2018/07/27 Javascript
jQuery实现的自定义轮播图功能详解
2018/12/28 jQuery
Vue组件内部实现一个双向数据绑定的实例代码
2019/04/04 Javascript
微信小程序导入Vant报错VM292:1 thirdScriptError的解决方法
2019/08/01 Javascript
[38:44]DOTA2上海特级锦标赛A组小组赛#2 Secret VS CDEC第二局
2016/02/25 DOTA
python2.7安装图文教程
2018/03/13 Python
pandas使用apply多列生成一列数据的实例
2018/11/28 Python
python3 中的字符串(单引号、双引号、三引号)以及字符串与数字的运算
2019/07/18 Python
django将网络中的图片,保存成model中的ImageField的实例
2019/08/07 Python
Python+numpy实现矩阵的行列扩展方式
2019/11/29 Python
python闭包、深浅拷贝、垃圾回收、with语句知识点汇总
2020/03/11 Python
django自定义非主键自增字段类型详解(auto increment field)
2020/03/30 Python
python实现登录与注册系统
2020/11/30 Python
中国茶叶、茶具一站式网上购物商城:醉品茶城
2018/07/03 全球购物
团日活动策划书
2014/02/01 职场文书
结婚周年感言
2014/02/24 职场文书
竞选卫生委员演讲稿
2014/04/28 职场文书
求职教师自荐书
2014/06/19 职场文书
小学教师自我剖析材料
2014/09/29 职场文书
北京青年观后感
2015/06/15 职场文书
公司环境卫生管理制度
2015/08/05 职场文书
建立共青团委员会的请示
2019/04/02 职场文书