Python3使用requests包抓取并保存网页源码的方法


Posted in Python onMarch 15, 2016

本文实例讲述了Python3使用requests包抓取并保存网页源码的方法。分享给大家供大家参考,具体如下:

使用Python 3的requests模块抓取网页源码并保存到文件示例:

import requests
html = requests.get("http://www.baidu.com")
with open('test.txt','w',encoding='utf-8') as f:
 f.write(html.text)

这是一个基本的文件保存操作,但这里有几个值得注意的问题:

1.安装requests包,命令行输入pip install requests即可自动安装。很多人推荐使用requests,自带的urllib.request也可以抓取网页源码

2.open方法encoding参数设为utf-8,否则保存的文件会出现乱码。

3.如果直接在cmd中输出抓取的内容,会提示各种编码错误,所以保存到文件查看。

4.with open方法是更好的写法,可以自动操作完毕后释放资源。

另一个例子:

import requests
ff = open('testt.txt','w',encoding='utf-8')
with open('test.txt',encoding="utf-8") as f:
 for line in f:
 ff.write(line)
ff.close()

这是演示读取一个txt文件,每次读取一行,并保存到另一个txt文件中的示例。

因为在命令行中打印每次读取一行的数据,中文会出现编码错误,所以每次读取一行并保存到另一个文件,这样来测试读取是否正常。(注意open的时候制定encoding编码方式)

转自:小谈博客 http://www.tantengvip.com/2015/05/requests-html/

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python在线编译器的简单原理及简单实现代码
Feb 02 Python
Python RabbitMQ消息队列实现rpc
May 30 Python
修改默认的pip版本为对应python2.7的方法
Nov 06 Python
python处理multipart/form-data的请求方法
Dec 26 Python
python 同时运行多个程序的实例
Jan 07 Python
PyQt5下拉式复选框QComboCheckBox的实例
Jun 25 Python
python移位运算的实现
Jul 15 Python
提升Python效率之使用循环机制代替递归函数
Jul 23 Python
Pycharm中import torch报错的快速解决方法
Mar 05 Python
详解pycharm的python包opencv(cv2)无代码提示问题的解决
Jan 29 Python
详解Python requests模块
Jun 21 Python
Python Pandas pandas.read_sql_query函数实例用法分析
Jun 21 Python
Python减少循环层次和缩进的技巧分析
Mar 15 #Python
Python作用域用法实例详解
Mar 15 #Python
Python的净值数据接口调用示例分享
Mar 15 #Python
Python简单连接MongoDB数据库的方法
Mar 15 #Python
Python函数中的函数(闭包)用法实例
Mar 15 #Python
实例讲解Python中函数的调用与定义
Mar 14 #Python
Python使用multiprocessing实现一个最简单的分布式作业调度系统
Mar 14 #Python
You might like
Pain 全世界最小最简单的PHP模板引擎 (普通版)
2011/10/23 PHP
php从右向左/从左向右截取字符串的实现方法
2011/11/28 PHP
thinkphp实现发送邮件密码找回功能实例
2014/12/01 PHP
php使用unset()删除数组中某个单元(键)的方法
2015/02/17 PHP
PHP判断FORM表单或URL参数来的数据是否为整数的方法
2016/03/25 PHP
PHP面向对象五大原则之里氏替换原则(LSP)详解
2018/04/08 PHP
PHP crypt()函数的用法讲解
2019/02/15 PHP
在Laravel的Model层做数据缓存的实现
2019/09/26 PHP
ImageFlow可鼠标控制图片滚动
2008/01/30 Javascript
Jquery 最近浏览过的商品的功能实现代码
2010/05/14 Javascript
js克隆对象、数组的常用方法介绍
2013/09/26 Javascript
jquery实现类似淘宝星星评分功能实例
2014/09/12 Javascript
JavaScript DOM事件(笔记)
2015/04/08 Javascript
JS实现图片预览的两种方式
2017/06/27 Javascript
three.js实现3D影院的原理的代码分析
2017/12/18 Javascript
基于Vue的SPA动态修改页面title的方法(推荐)
2018/01/02 Javascript
解决Vue中引入swiper,在数据渲染的时候,发生不滑动的问题
2018/09/27 Javascript
如何能分清npm cnpm npx nvm
2019/01/17 Javascript
解析原来浏览器原生支持JS Base64编码解码
2019/08/12 Javascript
Vue.js实现可编辑的表格
2019/12/11 Javascript
vue-cli3自动消除console.log()的调试信息方式
2020/10/21 Javascript
一起深入理解js中的事件对象
2021/02/06 Javascript
[32:56]完美世界DOTA2联赛PWL S3 Rebirth vs CPG 第二场 12.11
2020/12/16 DOTA
Python单链表简单实现代码
2016/04/27 Python
解决PySide+Python子线程更新UI线程的问题
2019/01/11 Python
python将四元数变换为旋转矩阵的实例
2019/12/04 Python
python实现滑雪者小游戏
2020/02/22 Python
python列表删除和多重循环退出原理详解
2020/03/26 Python
如何让python的运行速度得到提升
2020/07/08 Python
HTML5实现的震撼3D焦点图动画的示例代码
2019/09/26 HTML / CSS
点菜员岗位职责范本
2014/02/14 职场文书
校长师德表现自我评价
2015/03/05 职场文书
企业法律事务工作总结
2015/08/11 职场文书
2016年小学生寒假家长评语
2015/10/10 职场文书
python实现简易名片管理系统
2021/04/11 Python
JavaScript canvas实现流星特效
2021/05/20 Javascript