用Python下载一个网页保存为本地的HTML文件实例


Posted in Python onMay 21, 2018

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。

比如我们要下载山东大学新闻网的一个页面,该网页如下:

用Python下载一个网页保存为本地的HTML文件实例

实现代码如下:

import urllib.request

def getHtml(url):
 html = urllib.request.urlopen(url).read()
 return html

def saveHtml(file_name, file_content):
 # 注意windows文件命名的禁用符,比如 /
 with open(file_name.replace('/', '_') + ".html", "wb") as f:
  # 写文件用bytes而不是str,所以要转码
  f.write(file_content)

aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"
html = getHtml(aurl)
saveHtml("sduview", html)

print("下载成功")

打开相应的目录可以看到这个网页已经被下载保存成功了

用Python下载一个网页保存为本地的HTML文件实例

我们用浏览器打开这个网页文件如下

用Python下载一个网页保存为本地的HTML文件实例

由于我们只是下载了网页的主要源码,其中的很多图片之类的文件都不在这里。因此这种方法只适用于提取文字内容。

以上这篇用Python下载一个网页保存为本地的HTML文件实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python的Django框架可适配的各种数据库介绍
Jul 15 Python
python opencv 直方图反向投影的方法
Feb 24 Python
python数字图像处理之骨架提取与分水岭算法
Apr 27 Python
python3实现SMTP发送邮件详细教程
Jun 19 Python
python虚拟环境完美部署教程
Aug 06 Python
python2和python3实现在图片上加汉字的方法
Aug 22 Python
Python爬取腾讯视频评论的思路详解
Dec 19 Python
python判断变量是否为int、字符串、列表、元组、字典的方法详解
Feb 13 Python
Python模块/包/库安装的六种方法及区别
Feb 24 Python
Python抓包程序mitmproxy安装和使用过程图解
Mar 02 Python
Python数据可视化图实现过程详解
Jun 12 Python
python使用yaml 管理selenium元素的示例
Dec 01 Python
Python读取本地文件并解析网页元素的方法
May 21 #Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
You might like
全国FM电台频率大全 - 25 云南省
2020/03/11 无线电
推荐一款PHP+jQuery制作的列表分页的功能模块
2014/10/14 PHP
thinkPHP简单实现多个子查询语句的方法
2016/12/05 PHP
关于ThinkPHP中的异常处理详解
2018/05/11 PHP
YII框架模块化处理操作示例
2019/04/26 PHP
JQuery中$(document)是什么意思有什么作用
2014/07/21 Javascript
jQuery实现页面滚动时动态加载内容的方法
2015/03/20 Javascript
详解JavaScript数组的操作大全
2015/10/19 Javascript
js如何判断是否在iframe中及防止网页被别站用iframe嵌套
2017/01/11 Javascript
Ajax高级笔记 JavaScript高级程序设计笔记
2017/06/22 Javascript
Angular2 组件通信的实例代码
2017/06/23 Javascript
JavaScript中in和hasOwnProperty区别详解
2017/08/04 Javascript
vue解决跨域路由冲突问题思路解析
2017/11/03 Javascript
layui实现下拉框三级联动
2019/07/26 Javascript
微信小程序里引入SVG矢量图标的方法
2019/09/20 Javascript
element中的$confirm的使用
2020/04/26 Javascript
vue 遮罩层阻止默认滚动事件操作
2020/07/28 Javascript
[11:27]《一刀刀一天》之DOTA全时刻20:TI4总奖金突破920W TS赛事分析
2014/06/18 DOTA
[00:02]DOTA2新版本使用PA至宝后暴击展示
2014/11/19 DOTA
Python抓取淘宝下拉框关键词的方法
2015/07/08 Python
python抓取京东小米8手机配置信息
2018/11/13 Python
pandas通过loc生成新的列方法
2018/11/28 Python
python与字符编码问题
2019/05/24 Python
pycharm配置当鼠标悬停时快速提示方法参数
2019/07/31 Python
Python如何基于rsa模块实现非对称加密与解密
2020/01/03 Python
Python3 assert断言实现原理解析
2020/03/02 Python
python dict如何定义
2020/09/02 Python
CSS3五个技巧给你的网站带来出色的效果
2009/04/02 HTML / CSS
人力资源部培训专员岗位职责
2014/01/02 职场文书
党员民主生活会个人整改措施材料
2014/09/16 职场文书
入党积极分子十八届四中全会思想汇报
2014/10/23 职场文书
孔繁森观后感
2015/06/10 职场文书
结婚仪式主持词
2015/06/29 职场文书
移除Selenium中window.navigator.webdriver值
2022/06/10 Python
oracle设置密码复杂度及设置超时退出的功能
2022/06/28 Oracle
win10电脑右下角输入法图标不见了?Win10右下角不显示输入法的解决方法
2022/07/23 数码科技