Python3使用requests包抓取并保存网页源码的方法


Posted in Python onMarch 15, 2016

本文实例讲述了Python3使用requests包抓取并保存网页源码的方法。分享给大家供大家参考,具体如下:

使用Python 3的requests模块抓取网页源码并保存到文件示例:

import requests
html = requests.get("http://www.baidu.com")
with open('test.txt','w',encoding='utf-8') as f:
 f.write(html.text)

这是一个基本的文件保存操作,但这里有几个值得注意的问题:

1.安装requests包,命令行输入pip install requests即可自动安装。很多人推荐使用requests,自带的urllib.request也可以抓取网页源码

2.open方法encoding参数设为utf-8,否则保存的文件会出现乱码。

3.如果直接在cmd中输出抓取的内容,会提示各种编码错误,所以保存到文件查看。

4.with open方法是更好的写法,可以自动操作完毕后释放资源。

另一个例子:

import requests
ff = open('testt.txt','w',encoding='utf-8')
with open('test.txt',encoding="utf-8") as f:
 for line in f:
 ff.write(line)
ff.close()

这是演示读取一个txt文件,每次读取一行,并保存到另一个txt文件中的示例。

因为在命令行中打印每次读取一行的数据,中文会出现编码错误,所以每次读取一行并保存到另一个文件,这样来测试读取是否正常。(注意open的时候制定encoding编码方式)

转自:小谈博客 http://www.tantengvip.com/2015/05/requests-html/

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python使用MD5加密字符串示例
Aug 22 Python
用Python从零实现贝叶斯分类器的机器学习的教程
Mar 31 Python
python学习数据结构实例代码
May 11 Python
Python实现的Excel文件读写类
Jul 30 Python
python3调用R的示例代码
Feb 23 Python
python爬取网页转换为PDF文件
Jun 07 Python
Django配置celery(非djcelery)执行异步任务和定时任务
Jul 16 Python
python爬虫 正则表达式解析
Sep 28 Python
python3利用Axes3D库画3D模型图
Mar 25 Python
Windows下Anaconda安装、换源与更新的方法
Apr 17 Python
python 爬虫网页登陆的简单实现
Nov 30 Python
python 实现德洛内三角剖分的操作
Apr 22 Python
Python减少循环层次和缩进的技巧分析
Mar 15 #Python
Python作用域用法实例详解
Mar 15 #Python
Python的净值数据接口调用示例分享
Mar 15 #Python
Python简单连接MongoDB数据库的方法
Mar 15 #Python
Python函数中的函数(闭包)用法实例
Mar 15 #Python
实例讲解Python中函数的调用与定义
Mar 14 #Python
Python使用multiprocessing实现一个最简单的分布式作业调度系统
Mar 14 #Python
You might like
php中长文章分页显示实现代码
2012/09/29 PHP
PHP分页初探 一个最简单的PHP分页代码的简单实现
2016/06/21 PHP
thinkphp Apache配置重启Apache1 restart 出错解决办法
2017/02/15 PHP
mysqli扩展无法在PHP7下升级问题的解决
2019/09/10 PHP
javascript 对象的定义方法
2007/01/10 Javascript
js中的referrer返回上一页使用介绍
2013/09/26 Javascript
javascript阻止scroll事件多次执行的思路及实现
2013/11/08 Javascript
使用Jquery获取带特殊符号的ID 标签的方法
2014/04/30 Javascript
js中回调函数的学习笔记
2014/07/31 Javascript
莱鸟介绍window.print()方法
2016/01/06 Javascript
javascript实现的猜数小游戏完整实例代码
2016/05/10 Javascript
jQuery实现左侧导航模块的显示与隐藏效果
2016/07/04 Javascript
Angular中$broadcast和$emit的使用方法详解
2017/05/22 Javascript
JavaScript设计模式之代理模式详解
2017/06/09 Javascript
vue 路由页面之间实现用手指进行滑动的方法
2018/02/23 Javascript
详解react阻止无效重渲染的多种方式
2018/12/11 Javascript
JQuery样式操作、click事件以及索引值-选项卡应用示例
2019/05/14 jQuery
vue draggable resizable gorkys与v-chart使用与总结
2019/09/05 Javascript
JS使用for in有序获取对象数据
2020/05/19 Javascript
图解JS原型和原型链实现原理
2020/09/15 Javascript
CentOS 7下安装Python3.6 及遇到的问题小结
2018/11/08 Python
为什么说python适合写爬虫
2020/06/11 Python
在pytorch中动态调整优化器的学习率方式
2020/06/24 Python
Django+Django-Celery+Celery的整合实战
2021/01/20 Python
历史系毕业生自荐信
2013/10/28 职场文书
小学中秋节活动方案
2014/02/06 职场文书
红旗方阵解说词
2014/02/12 职场文书
班级课外活动总结
2014/07/09 职场文书
2014年检察院个人工作总结
2014/12/09 职场文书
钱塘江大潮导游词
2015/02/03 职场文书
2015年试用期工作总结范文
2015/05/28 职场文书
李强为自己工作观后感
2015/06/11 职场文书
诚信考试主题班会
2015/08/17 职场文书
观看《杨善洲》宣传教育片心得体会
2016/01/23 职场文书
学校趣味运动会开幕词
2016/03/04 职场文书
sql时间段切分实现每隔x分钟出一份高速门架车流量
2022/02/28 SQL Server