Python3使用requests包抓取并保存网页源码的方法


Posted in Python onMarch 15, 2016

本文实例讲述了Python3使用requests包抓取并保存网页源码的方法。分享给大家供大家参考,具体如下:

使用Python 3的requests模块抓取网页源码并保存到文件示例:

import requests
html = requests.get("http://www.baidu.com")
with open('test.txt','w',encoding='utf-8') as f:
 f.write(html.text)

这是一个基本的文件保存操作,但这里有几个值得注意的问题:

1.安装requests包,命令行输入pip install requests即可自动安装。很多人推荐使用requests,自带的urllib.request也可以抓取网页源码

2.open方法encoding参数设为utf-8,否则保存的文件会出现乱码。

3.如果直接在cmd中输出抓取的内容,会提示各种编码错误,所以保存到文件查看。

4.with open方法是更好的写法,可以自动操作完毕后释放资源。

另一个例子:

import requests
ff = open('testt.txt','w',encoding='utf-8')
with open('test.txt',encoding="utf-8") as f:
 for line in f:
 ff.write(line)
ff.close()

这是演示读取一个txt文件,每次读取一行,并保存到另一个txt文件中的示例。

因为在命令行中打印每次读取一行的数据,中文会出现编码错误,所以每次读取一行并保存到另一个文件,这样来测试读取是否正常。(注意open的时候制定encoding编码方式)

转自:小谈博客 http://www.tantengvip.com/2015/05/requests-html/

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
使用python 爬虫抓站的一些技巧总结
Jan 10 Python
Python异常对代码运行性能的影响实例解析
Feb 08 Python
Python随机函数random()使用方法小结
Apr 29 Python
Python基于dom操作xml数据的方法示例
May 12 Python
Python列表解析配合if else的方法
Jun 23 Python
Flask框架实现给视图函数增加装饰器操作示例
Jul 16 Python
Python对CSV、Excel、txt、dat文件的处理
Sep 18 Python
详解Python 解压缩文件
Apr 09 Python
python GUI库图形界面开发之PyQt5信号与槽多窗口数据传递详细使用方法与实例
Mar 08 Python
使用python实现时间序列白噪声检验方式
Jun 03 Python
Python语法学习之进程的创建与常用方法详解
Apr 08 Python
代码复现python目标检测yolo3详解预测
May 06 Python
Python减少循环层次和缩进的技巧分析
Mar 15 #Python
Python作用域用法实例详解
Mar 15 #Python
Python的净值数据接口调用示例分享
Mar 15 #Python
Python简单连接MongoDB数据库的方法
Mar 15 #Python
Python函数中的函数(闭包)用法实例
Mar 15 #Python
实例讲解Python中函数的调用与定义
Mar 14 #Python
Python使用multiprocessing实现一个最简单的分布式作业调度系统
Mar 14 #Python
You might like
PHP+jQuery翻板抽奖功能实现
2015/10/19 PHP
PHP闭包函数传参及使用外部变量的方法
2016/03/15 PHP
JavaScript在IE和Firefox浏览器下的7个差异兼容写法小结
2010/06/18 Javascript
jQuery Ajax 实例全解析
2011/04/20 Javascript
jquery给图片添加鼠标经过时的边框效果
2013/11/12 Javascript
js使用循环清空某个div中的input标签值
2014/09/29 Javascript
JavaScript中的闭包(Closure)详细介绍
2014/12/30 Javascript
AngularJS中一般函数参数传递用法分析
2016/11/22 Javascript
详解js的事件代理(委托)
2016/12/22 Javascript
Canvas实现放射线动画效果
2017/02/15 Javascript
基于vue-resource jsonp跨域问题的解决方法
2018/02/03 Javascript
vue的toast弹窗组件实例详解
2018/05/14 Javascript
Nuxt默认模板、默认布局和自定义错误页面的实现
2020/05/11 Javascript
Vue项目移动端滚动穿透问题的实现
2020/05/19 Javascript
vue+elementui实现点击table中的单元格触发事件--弹框
2020/07/18 Javascript
[40:03]Liquid vs Optic 2018国际邀请赛淘汰赛BO3 第一场 8.21
2018/08/22 DOTA
Python的Flask框架应用程序实现使用QQ账号登录的方法
2016/06/07 Python
Python ldap实现登录实例代码
2016/09/30 Python
python线程池threadpool实现篇
2018/04/27 Python
Django使用HttpResponse返回图片并显示的方法
2018/05/22 Python
python同时遍历数组的索引和值的实例
2018/11/15 Python
Python中字符串与编码示例代码
2019/05/20 Python
Pytorch训练过程出现nan的解决方式
2020/01/02 Python
Python接口测试结果集实现封装比较
2020/05/01 Python
英国最大的在线运动补充剂商店:Discount Supplements
2017/06/03 全球购物
英国最大的海报商店:GB Posters
2018/03/20 全球购物
意大利奢侈品零售商:ilDuomo Novara
2019/09/11 全球购物
实习单位接收函模板
2014/01/10 职场文书
九年级科学教学反思
2014/01/29 职场文书
优秀体育委员自荐书
2014/01/31 职场文书
总经理工作职责范文
2014/03/14 职场文书
祖国在我心中演讲稿300字
2014/05/04 职场文书
库房管理员岗位职责
2015/02/12 职场文书
仓管员岗位职责范本
2015/04/01 职场文书
房产销售员2015年终工作总结
2015/10/22 职场文书
MySQL视图概念以及相关应用
2022/04/19 MySQL