用Python下载一个网页保存为本地的HTML文件实例


Posted in Python onMay 21, 2018

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。

比如我们要下载山东大学新闻网的一个页面,该网页如下:

用Python下载一个网页保存为本地的HTML文件实例

实现代码如下:

import urllib.request

def getHtml(url):
 html = urllib.request.urlopen(url).read()
 return html

def saveHtml(file_name, file_content):
 # 注意windows文件命名的禁用符,比如 /
 with open(file_name.replace('/', '_') + ".html", "wb") as f:
  # 写文件用bytes而不是str,所以要转码
  f.write(file_content)

aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"
html = getHtml(aurl)
saveHtml("sduview", html)

print("下载成功")

打开相应的目录可以看到这个网页已经被下载保存成功了

用Python下载一个网页保存为本地的HTML文件实例

我们用浏览器打开这个网页文件如下

用Python下载一个网页保存为本地的HTML文件实例

由于我们只是下载了网页的主要源码,其中的很多图片之类的文件都不在这里。因此这种方法只适用于提取文字内容。

以上这篇用Python下载一个网页保存为本地的HTML文件实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python映射列表实例分析
Jan 26 Python
python使用webbrowser浏览指定url的方法
Apr 04 Python
Python使用Scrapy爬取妹子图
May 28 Python
Python图片裁剪实例代码(如头像裁剪)
Jun 21 Python
计算机二级python学习教程(2) python语言基本语法元素
May 16 Python
关于PyTorch 自动求导机制详解
Aug 18 Python
Python 网络编程之TCP客户端/服务端功能示例【基于socket套接字】
Oct 12 Python
Python sys模块常用方法解析
Feb 20 Python
Python selenium页面加载慢超时的解决方案
Mar 18 Python
Python爬虫JSON及JSONPath运行原理详解
Jun 04 Python
Python实现中英文全文搜索的示例
Dec 04 Python
使用pd.merge表连接出现多余行的问题解决
Jun 16 Python
Python读取本地文件并解析网页元素的方法
May 21 #Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
You might like
PHP 中提示undefined index如何解决(多种方法)
2016/03/16 PHP
PHP调用API接口实现天气查询功能的示例
2017/09/21 PHP
在b/s开发中经常用到的javaScript技术
2006/08/23 Javascript
jquery插件如何使用 jQuery操作Cookie插件使用介绍
2012/12/15 Javascript
jQuery中each()方法用法实例
2014/12/27 Javascript
js的window.showModalDialog及window.open用法实例分析
2015/01/29 Javascript
jQuery插件slicebox实现3D动画图片轮播切换特效
2015/04/12 Javascript
两款JS脚本判断手机浏览器类型跳转WAP手机网站
2015/10/16 Javascript
全面接触神奇的Bootstrap导航条实战篇
2016/08/01 Javascript
浅析如何利用JavaScript进行语音识别
2016/10/27 Javascript
JS两种类型的表单提交方法实例分析
2016/11/28 Javascript
Javascript 详解封装from表单数据为json串进行ajax提交
2017/03/29 Javascript
jQuery EasyUI开发技巧总结
2017/09/26 jQuery
angular将html代码输出为内容的实例
2018/09/30 Javascript
Vue $emit()不能触发父组件方法的原因及解决
2020/07/28 Javascript
[00:36]TI7不朽珍藏III——斯温不朽展示
2017/07/15 DOTA
[42:52]IG vs VGJ.T 2018国际邀请赛小组赛BO2 第二场 8.18
2018/08/19 DOTA
Python Queue模块详解
2014/11/30 Python
基于python list对象中嵌套元组使用sort时的排序方法
2018/04/18 Python
python多进程下实现日志记录按时间分割
2019/07/22 Python
Django实现后台上传并显示图片功能
2020/05/29 Python
Django模型验证器介绍与源码分析
2020/09/08 Python
linux centos 7.x 安装 python3.x 替换 python2.x的过程解析
2020/12/14 Python
Python开发.exe小工具的详细步骤
2021/01/27 Python
CSS3实现粒子旋转伸缩加载动画
2016/04/22 HTML / CSS
详解使用双缓存解决Canvas clearRect引起的闪屏问题
2019/04/29 HTML / CSS
阿迪达斯印度官方商城:adidas India
2017/03/26 全球购物
俄罗斯游戏商店:Buka
2020/03/01 全球购物
怎样在程序里获得一个空指针
2015/01/24 面试题
会计专业毕业生推荐信
2013/11/05 职场文书
师范大学应届生求职信
2013/11/21 职场文书
高三毕业典礼演讲稿
2014/05/13 职场文书
健康教育评估方案
2014/05/25 职场文书
四大名著读书笔记
2015/06/25 职场文书
2016年党员读书月活动总结
2016/04/06 职场文书
Python下opencv使用hough变换检测直线与圆
2021/06/18 Python