用Python下载一个网页保存为本地的HTML文件实例


Posted in Python onMay 21, 2018

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。

比如我们要下载山东大学新闻网的一个页面,该网页如下:

用Python下载一个网页保存为本地的HTML文件实例

实现代码如下:

import urllib.request

def getHtml(url):
 html = urllib.request.urlopen(url).read()
 return html

def saveHtml(file_name, file_content):
 # 注意windows文件命名的禁用符,比如 /
 with open(file_name.replace('/', '_') + ".html", "wb") as f:
  # 写文件用bytes而不是str,所以要转码
  f.write(file_content)

aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"
html = getHtml(aurl)
saveHtml("sduview", html)

print("下载成功")

打开相应的目录可以看到这个网页已经被下载保存成功了

用Python下载一个网页保存为本地的HTML文件实例

我们用浏览器打开这个网页文件如下

用Python下载一个网页保存为本地的HTML文件实例

由于我们只是下载了网页的主要源码,其中的很多图片之类的文件都不在这里。因此这种方法只适用于提取文字内容。

以上这篇用Python下载一个网页保存为本地的HTML文件实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python通过解析网页实现看报程序的方法
Aug 04 Python
Python使用爬虫猜密码
Feb 19 Python
Python3实现并发检验代理池地址的方法
Sep 18 Python
python enumerate函数的使用方法总结
Nov 15 Python
Python判断一个三位数是否为水仙花数的示例
Nov 13 Python
Python设计模式之装饰模式实例详解
Jan 21 Python
python生成带有表格的图片实例
Feb 03 Python
python opencv 图像拼接的实现方法
Jun 27 Python
Python列表list操作相关知识小结
Jan 29 Python
python mysql自增字段AUTO_INCREMENT值的修改方式
May 18 Python
Python 列表推导式需要注意的地方
Oct 23 Python
Python制作一个随机抽奖小工具的实现
Jul 07 Python
Python读取本地文件并解析网页元素的方法
May 21 #Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
You might like
网页游戏开发入门教程二(游戏模式+系统)
2009/11/02 PHP
获取用户Ip地址通用方法与常见安全隐患(HTTP_X_FORWARDED_FOR)
2013/06/01 PHP
ThinkPHP3.1查询语言详解
2014/06/19 PHP
php新建文件的方法实例
2019/09/26 PHP
写了一个layout,拖动条连贯,内容区可为iframe
2007/08/19 Javascript
JavaScript性能优化 创建文档碎片(document.createDocumentFragment)
2010/07/13 Javascript
js中opener与parent的区别详细解析
2014/01/14 Javascript
JS生成随机字符串的多种方法
2014/06/10 Javascript
jQuery表单域选择器用法分析
2015/02/10 Javascript
基于jquery实现简单的手风琴特效
2015/11/24 Javascript
JavaScript实现页面跳转的几种常用方式
2015/11/28 Javascript
基于Javascript实现返回顶部按钮
2016/02/29 Javascript
JS实现简单的二元方程计算器功能示例
2017/01/03 Javascript
Javascript 实现计算器时间功能详解及实例(二)
2017/01/08 Javascript
vue组件Prop传递数据的实现示例
2017/08/17 Javascript
vue-router命名路由和编程式路由传参讲解
2019/01/19 Javascript
express启用https使用小记
2019/05/21 Javascript
vue组件命名和props命名代码详解
2019/09/01 Javascript
微信公众号网页分享功能开发的示例代码
2020/05/27 Javascript
vue pages 多入口项目 + chainWebpack 全局引用缩写说明
2020/09/21 Javascript
详解微信小程序「渲染层网络层错误」的解决方法
2021/01/06 Javascript
使用python实现rsa算法代码
2016/02/17 Python
深入理解python函数递归和生成器
2016/06/06 Python
Python3 中sorted() 函数的用法
2020/03/24 Python
将tf.batch_matmul替换成tf.matmul的实现
2020/06/18 Python
python中pickle模块浅析
2020/12/29 Python
美国批发零售网站:GearXS
2016/07/26 全球购物
Original Penguin美国官网:布拉德皮特、强尼德普喜爱的服装品牌
2016/10/25 全球购物
局部内部类是否可以访问非final变量?
2013/04/20 面试题
父母对孩子的寄语
2014/04/09 职场文书
安全责任协议书
2014/04/21 职场文书
环卫处个人工作总结
2015/03/04 职场文书
电影开国大典观后感
2015/06/04 职场文书
教师见习总结范文
2015/06/23 职场文书
2015入党自传书范文
2015/06/26 职场文书
2019年怎样写好导游词?
2019/07/02 职场文书