Python3使用requests包抓取并保存网页源码的方法


Posted in Python onMarch 15, 2016

本文实例讲述了Python3使用requests包抓取并保存网页源码的方法。分享给大家供大家参考,具体如下:

使用Python 3的requests模块抓取网页源码并保存到文件示例:

import requests
html = requests.get("http://www.baidu.com")
with open('test.txt','w',encoding='utf-8') as f:
 f.write(html.text)

这是一个基本的文件保存操作,但这里有几个值得注意的问题:

1.安装requests包,命令行输入pip install requests即可自动安装。很多人推荐使用requests,自带的urllib.request也可以抓取网页源码

2.open方法encoding参数设为utf-8,否则保存的文件会出现乱码。

3.如果直接在cmd中输出抓取的内容,会提示各种编码错误,所以保存到文件查看。

4.with open方法是更好的写法,可以自动操作完毕后释放资源。

另一个例子:

import requests
ff = open('testt.txt','w',encoding='utf-8')
with open('test.txt',encoding="utf-8") as f:
 for line in f:
 ff.write(line)
ff.close()

这是演示读取一个txt文件,每次读取一行,并保存到另一个txt文件中的示例。

因为在命令行中打印每次读取一行的数据,中文会出现编码错误,所以每次读取一行并保存到另一个文件,这样来测试读取是否正常。(注意open的时候制定encoding编码方式)

转自:小谈博客 http://www.tantengvip.com/2015/05/requests-html/

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python实现类似比特币的加密货币区块链的创建与交易实例
Mar 20 Python
Python爬虫包BeautifulSoup异常处理(二)
Jun 17 Python
python的常用模块之collections模块详解
Dec 06 Python
ZABBIX3.2使用python脚本实现监控报表的方法
Jul 02 Python
pytorch 在网络中添加可训练参数,修改预训练权重文件的方法
Aug 17 Python
使用PyQt5实现图片查看器的示例代码
Apr 21 Python
scrapy在python爬虫中搭建出错的解决方法
Nov 22 Python
Python爬虫模拟登陆哔哩哔哩(bilibili)并突破点选验证码功能
Dec 21 Python
python 通过exifread读取照片信息
Dec 24 Python
python b站视频下载的五种版本
May 27 Python
Python语法学习之进程的创建与常用方法详解
Apr 08 Python
Pandas 数据编码的十种方法
Apr 20 Python
Python减少循环层次和缩进的技巧分析
Mar 15 #Python
Python作用域用法实例详解
Mar 15 #Python
Python的净值数据接口调用示例分享
Mar 15 #Python
Python简单连接MongoDB数据库的方法
Mar 15 #Python
Python函数中的函数(闭包)用法实例
Mar 15 #Python
实例讲解Python中函数的调用与定义
Mar 14 #Python
Python使用multiprocessing实现一个最简单的分布式作业调度系统
Mar 14 #Python
You might like
PHP学习 变量使用总结
2011/03/24 PHP
ThinkPHP调试模式与日志记录概述
2014/08/22 PHP
PHP实现RTX发送消息提醒的实例代码
2017/01/03 PHP
JS 文件本身编码转换 图文教程
2009/10/12 Javascript
nodejs npm package.json中文文档
2014/09/04 NodeJs
jQuery层级选择器用法分析
2015/02/10 Javascript
异步JavaScript编程中的Promise使用方法
2015/07/28 Javascript
JavaScript实现将数组数据添加到Select下拉框的方法
2015/08/21 Javascript
Chrome不支持showModalDialog模态对话框和无法返回returnValue问题的解决方法
2016/10/30 Javascript
高效的jQuery代码编写技巧总结
2017/02/22 Javascript
详解微信小程序Radio选中样式切换
2017/07/06 Javascript
Angular6 正则表达式允许输入部分中文字符
2018/09/10 Javascript
详解如何实现Element树形控件Tree在懒加载模式下的动态更新
2019/04/25 Javascript
React Hooks 实现和由来以及解决的问题详解
2020/01/17 Javascript
Python编程实现使用线性回归预测数据
2017/12/07 Python
Python利用splinter实现浏览器自动化操作方法
2018/05/11 Python
pytorch中tensor的合并与截取方法
2018/07/26 Python
Python + selenium + requests实现12306全自动抢票及验证码破解加自动点击功能
2018/11/23 Python
Python3爬虫使用Fidder实现APP爬取示例
2018/11/27 Python
通过cmd进入python的实例操作
2019/06/26 Python
Python实现性能自动化测试竟然如此简单
2019/07/30 Python
一篇文章弄懂Python中的可迭代对象、迭代器和生成器
2019/08/12 Python
使用python执行shell脚本 并动态传参 及subprocess的使用详解
2020/03/06 Python
python 制作网站筛选工具(附源码)
2021/01/21 Python
亚马逊中国官方网站:amazon.cn
2017/05/25 全球购物
什么情况下你必须要把一个类定义为abstract的
2013/01/06 面试题
教师找工作推荐信
2013/11/23 职场文书
旷课检讨书2000字
2014/01/14 职场文书
业务员简历自我评价
2014/03/06 职场文书
合伙购房协议样本
2014/10/06 职场文书
消防演习感想
2015/08/10 职场文书
村官2015年度工作总结
2015/10/14 职场文书
golang特有程序结构入门教程
2021/06/02 Python
Android超详细讲解组件ScrollView的使用
2022/03/31 Java/Android
python+pytest接口自动化之token关联登录的实现
2022/04/06 Python
Oracle删除归档日志及添加定时任务
2022/06/28 Oracle