python中requests爬去网页内容出现乱码问题解决方法介绍


Posted in Python onOctober 25, 2017

最近在学习python爬虫,使用requests的时候遇到了不少的问题,比如说在requests中如何使用cookies进行登录验证,这可以查看这篇文章。这篇博客要解决的问题是如何避免在使用requests的时候出现乱码。

import requests  
res=requests.get("https://www.baidu.com")  
print res.content

以上就是使用requests进行简单的网页请求数据的方式。但是很容易出现乱码的问题。

我们可以通过在网页上右击查看源代码中查看编码方式:content="text/html;charset=utf-8"->

我们便可以知道网页的编码方式是utf8.由于中文的编码方式为gbk,所以我们需要将编码方式改变为gbk。

我查看了一些资料,说requests可以自动获取网页的编码方式的,并且通过res.encode输出一看是utf8,是的 没错。但是输出来的内容中文存在乱码。 有说可以直接指定获取到内容的encode属性即可,"res.encode='gbk'",但我尝试了不可以的。

python内部的编码方式为utf8,也就是说python在处理其他字符串内容的时候首先要先将内容转化为utf8的编码方式,然后在解码为你想要的编码方式输出。

例如s=”中文” 为str类型的字符串 编码方式为gb2312

需要 s.decode("gb2312")将gb2312编码方式的内容解码为Unicode编码

然后输出的时候要将s的编码方式规定为gbk->s.encode("gbk")

言归正传,我们获取到网页内容res后, 通过res.content.decode("utf8","ignore").encode("gbk","ignore")就不会有乱码了。

这里所使用的ignore属性意思是忽略其中有一场的编码,仅显示有效的编码。

总结

以上就是本文关于python中requests爬去网页内容出现乱码问题解决方法的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:python编程之requests在网络请求中添加cookies参数方法详解、Python_LDA实现方法详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
python定时检查启动某个exe程序适合检测exe是否挂了
Jan 21 Python
python中遍历文件的3个方法
Sep 02 Python
python通过pil模块获得图片exif信息的方法
Mar 16 Python
使用70行Python代码实现一个递归下降解析器的教程
Apr 17 Python
Python for Informatics 第11章 正则表达式(一)
Apr 21 Python
用python实现简单EXCEL数据统计的实例
Jan 24 Python
Linux CentOS7下安装python3 的方法
Jan 21 Python
Python实现统计英文文章词频的方法分析
Jan 28 Python
pyqt5 实现 下拉菜单 + 打开文件的示例代码
Jun 20 Python
Mac PyCharm中的.gitignore 安装设置教程
Apr 16 Python
解决Keras中CNN输入维度报错问题
Jun 29 Python
python爬取youtube视频的示例代码
Mar 03 Python
python编程之requests在网络请求中添加cookies参数方法详解
Oct 25 #Python
Python探索之pLSA实现代码
Oct 25 #Python
python正则表达式re之compile函数解析
Oct 25 #Python
Python2和Python3中print的用法示例总结
Oct 25 #Python
Python_LDA实现方法详解
Oct 25 #Python
python+mongodb数据抓取详细介绍
Oct 25 #Python
python装饰器实例大详解
Oct 25 #Python
You might like
用phpmyadmin更改mysql5.0登录密码
2008/03/25 PHP
PHP 长文章分页函数 带使用方法,不会分割段落,翻页在底部
2009/10/22 PHP
PHP用户管理中常用接口调用实例及解析(含源码)
2017/03/09 PHP
script标签的 charset 属性使用说明
2010/12/04 Javascript
键盘上一张下一张兼容IE/google/firefox等浏览器
2014/01/28 Javascript
纯js实现遮罩层效果原理分析
2014/05/27 Javascript
使用百度地图api实现根据地址查询经纬度
2014/12/11 Javascript
JavaScript实现SHA-1加密算法的方法
2015/03/11 Javascript
jQuery实现购物车表单自动结算效果实例
2015/08/10 Javascript
JS实现的新浪微博大厅文字内容滚动效果代码
2015/11/05 Javascript
详解vue嵌套路由-params传递参数
2017/05/23 Javascript
Vue+Vux项目实践完整代码
2017/11/30 Javascript
axios进阶实践之利用最优雅的方式写ajax请求
2017/12/20 Javascript
JS实现图片旋转动画效果封装与使用示例
2018/07/09 Javascript
vue实现页面滚动到底部刷新
2019/08/16 Javascript
IDEA安装vue插件图文详解
2019/09/26 Javascript
JS实现数据动态渲染的竖向步骤条
2020/06/24 Javascript
Python实现基于HTTP文件传输实例
2014/11/08 Python
python实现植物大战僵尸游戏实例代码
2019/06/10 Python
python实现回旋矩阵方式(旋转矩阵)
2019/12/04 Python
python3中sorted函数里cmp参数改变详解
2020/03/12 Python
python matplotlib:plt.scatter() 大小和颜色参数详解
2020/04/14 Python
Cpython解释器中的GIL全局解释器锁
2020/11/09 Python
Linux系统下升级pip的完整步骤
2021/01/31 Python
MAC Cosmetics官方网站:魅可专业艺术彩妆
2019/04/10 全球购物
家具促销活动方案
2014/02/16 职场文书
葛优非诚勿扰搞笑征婚台词
2014/03/17 职场文书
小班开学寄语
2014/04/04 职场文书
公司合作协议书范本
2014/04/18 职场文书
本科毕业生应聘求职信
2014/07/06 职场文书
钱学森观后感
2015/06/04 职场文书
无婚姻登记记录证明
2015/06/18 职场文书
西部计划志愿者工作总结
2015/08/11 职场文书
Canvas三种动态画圆实现方法说明(小结)
2021/04/16 Javascript
JavaGUI模仿QQ聊天功能完整版
2021/07/04 Java/Android
windows server2008 开启端口的实现方法
2022/06/25 Servers