用Python下载一个网页保存为本地的HTML文件实例


Posted in Python onMay 21, 2018

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。

比如我们要下载山东大学新闻网的一个页面,该网页如下:

用Python下载一个网页保存为本地的HTML文件实例

实现代码如下:

import urllib.request

def getHtml(url):
 html = urllib.request.urlopen(url).read()
 return html

def saveHtml(file_name, file_content):
 # 注意windows文件命名的禁用符,比如 /
 with open(file_name.replace('/', '_') + ".html", "wb") as f:
  # 写文件用bytes而不是str,所以要转码
  f.write(file_content)

aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"
html = getHtml(aurl)
saveHtml("sduview", html)

print("下载成功")

打开相应的目录可以看到这个网页已经被下载保存成功了

用Python下载一个网页保存为本地的HTML文件实例

我们用浏览器打开这个网页文件如下

用Python下载一个网页保存为本地的HTML文件实例

由于我们只是下载了网页的主要源码,其中的很多图片之类的文件都不在这里。因此这种方法只适用于提取文字内容。

以上这篇用Python下载一个网页保存为本地的HTML文件实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python简单的函数定义和用法实例
May 07 Python
Python和JavaScript间代码转换的4个工具
Feb 22 Python
详解python并发获取snmp信息及性能测试
Mar 27 Python
快速解决PyCharm无法引用matplotlib的问题
May 24 Python
numpy matrix和array的乘和加实例
Jun 28 Python
Python lambda表达式用法实例分析
Dec 25 Python
python-tkinter之按钮的使用,开关方法
Jun 11 Python
用python建立两个Y轴的XY曲线图方法
Jul 08 Python
使用WingPro 7 设置Python路径的方法
Jul 24 Python
Python字典底层实现原理详解
Dec 18 Python
Python configparser模块应用过程解析
Aug 14 Python
python 读取、写入txt文件的示例
Sep 27 Python
Python读取本地文件并解析网页元素的方法
May 21 #Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
You might like
PHP数据库开发知多少
2006/10/09 PHP
PHP URL参数获取方式的四种例子
2014/02/28 PHP
PHP在弹框中获取foreach中遍历的id值并传递给地址栏
2017/06/13 PHP
php微信公众号开发之二级菜单
2018/10/20 PHP
php实现QQ小程序发送模板消息功能
2019/09/18 PHP
jQuery 通过事件委派一次绑定多种事件,以减少事件冗余
2010/06/30 Javascript
javascript学习笔记(六) Date 日期类型
2012/06/19 Javascript
高性能Javascript笔记 数据的存储与访问性能优化
2012/08/02 Javascript
输入密码检测大写是否锁定js实现代码
2012/12/03 Javascript
js检查页面上有无重复id的实现代码
2013/07/17 Javascript
js string 转 int 注意的问题小结
2013/08/15 Javascript
用js一次改变多个input的readonly属性值的方法
2014/06/11 Javascript
javascript实现日期时间动态显示示例代码
2015/09/08 Javascript
vue mint-ui学习笔记之picker的使用
2017/10/11 Javascript
在ES5与ES6环境下处理函数默认参数的实现方法
2018/05/13 Javascript
小程序数据通信方法大全(推荐)
2019/04/15 Javascript
通过实例了解js函数中参数的传递
2019/06/15 Javascript
基于 Vue 的 Electron 项目搭建过程图文详解
2020/07/22 Javascript
[03:17]2014DOTA2 国际邀请赛中国区预选赛 四强专访
2014/05/23 DOTA
Python 获得13位unix时间戳的方法
2017/10/20 Python
Django migrations 默认目录修改的方法教程
2018/09/28 Python
Python根据成绩分析系统浅析
2019/02/11 Python
详解python tkinter教程-事件绑定
2019/03/28 Python
详解python读取和输出到txt
2019/03/29 Python
python生成requirements.txt的两种方法
2019/09/18 Python
Python3加密解密库Crypto的RSA加解密和签名/验签实现方法实例
2020/02/11 Python
垃圾回收的优点和原理
2014/05/16 面试题
个人找工作求职简历的自我评价
2013/10/20 职场文书
学习十八届三中全会精神实施方案
2014/02/17 职场文书
售后服务承诺书模板
2014/05/21 职场文书
支部鉴定材料
2014/06/02 职场文书
2015年度班主任自我评价
2015/03/11 职场文书
民事调解书范文
2015/05/20 职场文书
国博复兴之路观后感
2015/06/02 职场文书
趣味运动会通讯稿
2015/07/18 职场文书
2015中学教学工作总结
2015/07/22 职场文书