用Python下载一个网页保存为本地的HTML文件实例


Posted in Python onMay 21, 2018

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。

比如我们要下载山东大学新闻网的一个页面,该网页如下:

用Python下载一个网页保存为本地的HTML文件实例

实现代码如下:

import urllib.request

def getHtml(url):
 html = urllib.request.urlopen(url).read()
 return html

def saveHtml(file_name, file_content):
 # 注意windows文件命名的禁用符,比如 /
 with open(file_name.replace('/', '_') + ".html", "wb") as f:
  # 写文件用bytes而不是str,所以要转码
  f.write(file_content)

aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"
html = getHtml(aurl)
saveHtml("sduview", html)

print("下载成功")

打开相应的目录可以看到这个网页已经被下载保存成功了

用Python下载一个网页保存为本地的HTML文件实例

我们用浏览器打开这个网页文件如下

用Python下载一个网页保存为本地的HTML文件实例

由于我们只是下载了网页的主要源码,其中的很多图片之类的文件都不在这里。因此这种方法只适用于提取文字内容。

以上这篇用Python下载一个网页保存为本地的HTML文件实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
布同 统计英文单词的个数的python代码
Mar 13 Python
常用python数据类型转换函数总结
Mar 11 Python
Python的批量远程管理和部署工具Fabric用法实例
Jan 23 Python
Python中的choice()方法使用详解
May 15 Python
将Django框架和遗留的Web应用集成的方法
Jul 24 Python
Python读取图片属性信息的实现方法
Sep 11 Python
python安装oracle扩展及数据库连接方法
Feb 21 Python
Python实现多进程共享数据的方法分析
Dec 04 Python
Python实现中一次读取多个值的方法
Apr 22 Python
python内置数据类型之列表操作
Nov 12 Python
如何使用python爬虫爬取要登陆的网站
Jul 12 Python
Python使用socketServer包搭建简易服务器过程详解
Jun 12 Python
Python读取本地文件并解析网页元素的方法
May 21 #Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
You might like
php文件缓存类汇总
2014/11/21 PHP
CI配置多数据库访问的方法
2016/03/28 PHP
JavaScript 继承机制的实现(待续)
2010/05/18 Javascript
php 中序列化和json使用介绍
2013/07/08 Javascript
JS实现多物体缓冲运动实例代码
2013/11/29 Javascript
简介JavaScript中的setTime()方法的使用
2015/06/11 Javascript
javascript获取系统当前时间的方法
2015/11/19 Javascript
实例详解AngularJS实现无限级联动菜单
2016/01/15 Javascript
js完整倒计时代码分享
2016/09/18 Javascript
微信小程序  action-sheet详解及实例代码
2016/11/09 Javascript
jQuery中Datatables增加跳转到指定页功能
2017/02/08 Javascript
canvas仿iwatch时钟效果
2017/03/06 Javascript
微信小程序之swiper轮播图中的图片自适应高度的方法
2018/04/23 Javascript
angularjs使用div模拟textarea文本框的方法
2018/10/02 Javascript
nodejs npm错误Error:UNKNOWN:unknown error,mkdir 'D:\Develop\nodejs\node_global'at Error
2019/03/02 NodeJs
vue引入微信sdk 实现分享朋友圈获取地理位置功能
2019/07/04 Javascript
Jquery cookie插件实现原理代码解析
2020/08/04 jQuery
[04:10]DOTA2英雄梦之声_第11期_圣堂刺客
2014/06/21 DOTA
Python 中的 else详解
2016/04/23 Python
Python+Turtle动态绘制一棵树实例分享
2018/01/16 Python
selenium+python自动化测试之页面元素定位
2019/01/23 Python
python3.6下Numpy库下载与安装图文教程
2019/04/02 Python
基于Python中isfile函数和isdir函数使用详解
2019/11/29 Python
python @propert装饰器使用方法原理解析
2019/12/25 Python
django在开发中取消外键约束的实现
2020/05/20 Python
爬虫代理的cookie如何生成运行
2020/09/22 Python
伊利莎白雅顿官网:Elizabeth Arden
2016/10/10 全球购物
Rag & Bone官网:瑞格布恩高级成衣
2018/04/19 全球购物
C#中有没有静态构造函数,如果有是做什么用的?
2016/06/04 面试题
小学生自我评价范例
2013/09/24 职场文书
团支书的期末学习总结自我评价
2013/11/01 职场文书
销售副总经理岗位职责
2013/12/11 职场文书
药剂专业学生求职信范文
2013/12/28 职场文书
乡镇八一建军节活动方案
2014/08/24 职场文书
PHP实现考试倒计时功能代码
2021/04/16 PHP
SQL Server内存机制浅探
2022/04/06 SQL Server