Python3使用requests包抓取并保存网页源码的方法


Posted in Python onMarch 15, 2016

本文实例讲述了Python3使用requests包抓取并保存网页源码的方法。分享给大家供大家参考,具体如下:

使用Python 3的requests模块抓取网页源码并保存到文件示例:

import requests
html = requests.get("http://www.baidu.com")
with open('test.txt','w',encoding='utf-8') as f:
 f.write(html.text)

这是一个基本的文件保存操作,但这里有几个值得注意的问题:

1.安装requests包,命令行输入pip install requests即可自动安装。很多人推荐使用requests,自带的urllib.request也可以抓取网页源码

2.open方法encoding参数设为utf-8,否则保存的文件会出现乱码。

3.如果直接在cmd中输出抓取的内容,会提示各种编码错误,所以保存到文件查看。

4.with open方法是更好的写法,可以自动操作完毕后释放资源。

另一个例子:

import requests
ff = open('testt.txt','w',encoding='utf-8')
with open('test.txt',encoding="utf-8") as f:
 for line in f:
 ff.write(line)
ff.close()

这是演示读取一个txt文件,每次读取一行,并保存到另一个txt文件中的示例。

因为在命令行中打印每次读取一行的数据,中文会出现编码错误,所以每次读取一行并保存到另一个文件,这样来测试读取是否正常。(注意open的时候制定encoding编码方式)

转自:小谈博客 http://www.tantengvip.com/2015/05/requests-html/

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python读写二进制文件的方法
May 09 Python
python实现基本进制转换的方法
Jul 11 Python
python去除空格和换行符的实现方法(推荐)
Jan 04 Python
Python随机数用法实例详解【基于random模块】
Apr 18 Python
Python装饰器的执行过程实例分析
Jun 04 Python
Python Pandas批量读取csv文件到dataframe的方法
Oct 08 Python
python+unittest+requests实现接口自动化的方法
Nov 29 Python
解决pycharm的Python console不能调试当前程序的问题
Jan 20 Python
Python判断对象是否相等及eq函数的讲解
Feb 25 Python
python函数参数(必须参数、可变参数、关键字参数)
Aug 16 Python
logging level级别介绍
Feb 21 Python
Python requests上传文件实现步骤
Sep 15 Python
Python减少循环层次和缩进的技巧分析
Mar 15 #Python
Python作用域用法实例详解
Mar 15 #Python
Python的净值数据接口调用示例分享
Mar 15 #Python
Python简单连接MongoDB数据库的方法
Mar 15 #Python
Python函数中的函数(闭包)用法实例
Mar 15 #Python
实例讲解Python中函数的调用与定义
Mar 14 #Python
Python使用multiprocessing实现一个最简单的分布式作业调度系统
Mar 14 #Python
You might like
javascript中获取下个月一号,是星期几
2012/06/01 Javascript
js 用CreateElement动态创建标签示例
2013/11/20 Javascript
javascript操作html控件实例(javascript添加html)
2013/12/02 Javascript
$("").click与onclick的区别示例介绍
2014/09/25 Javascript
node.js开发中使用Node Supervisor实现监测文件修改并自动重启应用
2014/11/04 Javascript
PHP结合jQuery实现红蓝投票功能特效
2015/07/22 Javascript
解决angular的post请求后SpringMVC后台接收不到参数值问题的方法
2015/12/10 Javascript
Javascript 调用 ActionScript 的简单方法
2016/09/22 Javascript
几句话带你理解JS中的this、闭包、原型链
2016/09/26 Javascript
读Javascript高性能编程重点笔记
2016/12/21 Javascript
JS获取多维数组中相同键的值实现方法示例
2017/01/06 Javascript
微信小程序 支付后台java实现实例
2017/05/09 Javascript
浅谈webpack4.x 入门(一篇足矣)
2018/09/05 Javascript
详解js静态检查工具eslint配置文件
2018/11/23 Javascript
详解vue页面首次加载缓慢原因及解决方案
2019/11/06 Javascript
简单了解JavaScript arguement原理及作用
2020/05/28 Javascript
Python字典操作简明总结
2015/04/13 Python
python使用arp欺骗伪造网关的方法
2015/04/24 Python
Python排序搜索基本算法之希尔排序实例分析
2017/12/09 Python
python获取文件路径、文件名、后缀名的实例
2018/04/23 Python
Python 保持登录状态进行接口测试的方法示例
2019/08/06 Python
python3使用print打印带颜色的字符串代码实例
2019/08/22 Python
OpenCV模板匹配matchTemplate的实现
2019/10/18 Python
浅谈python的elementtree模块处理中文注意事项
2020/03/06 Python
Python类绑定方法及非绑定方法实例解析
2020/10/09 Python
分享一枚pycharm激活码适用所有pycharm版本我的pycharm2020.2.3激活成功
2020/11/20 Python
意大利一家专营包包和配饰的网上商店:Borse Last Minute
2019/08/26 全球购物
Java面试题:请说出如下代码的输出结果
2013/04/22 面试题
求职信格式范本
2013/11/15 职场文书
高中生毕业自我鉴定范文
2013/12/22 职场文书
施工协议书范本
2014/04/22 职场文书
中学生操行评语大全
2014/04/24 职场文书
反对邪教标语
2014/06/30 职场文书
离婚协议书格式范本
2016/03/18 职场文书
JavaScript原始值与包装对象的详细介绍
2021/05/11 Javascript
Hive导入csv文件示例
2022/06/25 数据库