解决Python网页爬虫之中文乱码问题


Posted in Python onMay 11, 2018

Python是个好工具,但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题,中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道,之前爬取的一个学校网页就出现了这个问题,但是当时并没有解决,这着实成了我一个心病。这不,刚刚一解决就将这个方法公布与众,大家一同分享。

首先,我说一下Python中文乱码的原因,Python中文乱码是由于Python在解析网页时默认用Unicode去解析,而大多数网站是utf-8格式的,并且解析出来之后,python竟然再以Unicode字符格式输出,会与系统编码格式不同,导致中文输出乱码,知道原因后我们就好解决了。下面上代码,实验对象仍是被人上了无数遍的百度主页~

# -*- coding: utf-8 -*-

import urllib2
import re
import requests
import sys

import urllib
#设置编码
reload(sys)
sys.setdefaultencoding('utf-8')
#获得系统编码格式
type = sys.getfilesystemencoding()
r = urllib.urlopen("http://www.baidu.com")
#将网页以utf-8格式解析然后转换为系统默认格式
a = r.read().decode('utf-8').encode(type)
print a

最后输出效果,中文完美输出

解决Python网页爬虫之中文乱码问题

以上这篇解决Python网页爬虫之中文乱码问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
50行代码实现贪吃蛇(具体思路及代码)
Apr 27 Python
go语言计算两个时间的时间差方法
Mar 13 Python
详细解析Python当中的数据类型和变量
Apr 25 Python
python任务调度实例分析
May 19 Python
python中的错误处理
Apr 10 Python
Python爬取成语接龙类网站
Oct 19 Python
Python 从相对路径下import的方法
Dec 04 Python
Python解析命令行读取参数之argparse模块
Jul 26 Python
python程序中的线程操作 concurrent模块使用详解
Sep 23 Python
Python+Tensorflow+CNN实现车牌识别的示例代码
Oct 11 Python
详细分析Python垃圾回收机制
Jul 01 Python
Python pyecharts绘制条形图详解
Apr 02 Python
解决python爬虫中有中文的url问题
May 11 #Python
利用Python yagmail三行代码实现发送邮件
May 11 #Python
解决Pandas to_json()中文乱码,转化为json数组的问题
May 10 #Python
解决python3 json数据包含中文的读写问题
May 10 #Python
Python3.6通过自带的urllib通过get或post方法请求url的实例
May 10 #Python
对python3 urllib包与http包的使用详解
May 10 #Python
Python3处理HTTP请求的实例
May 10 #Python
You might like
如何删除多级目录
2006/10/09 PHP
php下载excel无法打开的解决方法
2013/12/24 PHP
php检测图片主要颜色的方法
2015/07/01 PHP
PHP结合Ueditor并修改图片上传路径
2016/10/16 PHP
PHP实现对文件锁进行加锁、解锁操作的方法
2017/07/04 PHP
php面向对象重点知识分享
2019/09/27 PHP
jquery 回车事件实现代码
2011/08/23 Javascript
纯js分页代码(简洁实用)
2013/11/05 Javascript
JavaScript实现从数组中选出和等于固定值的n个数
2014/09/03 Javascript
node.js中的fs.truncateSync方法使用说明
2014/12/15 Javascript
JS+CSS实现自适应选项卡宽度的圆角滑动门效果
2015/09/15 Javascript
深入理解JS addLoadEvent函数
2016/05/20 Javascript
JavaScript实现事件的中断传播和行为阻止方法示例
2017/01/20 Javascript
layer弹窗插件操作方法详解
2017/05/19 Javascript
详解vue渲染函数render的使用
2017/12/12 Javascript
解决vue-router进行build无法正常显示路由页面的问题
2018/03/06 Javascript
js实现继承的方法及优缺点总结
2019/05/08 Javascript
vue2路由基本用法实例分析
2020/03/06 Javascript
[01:06:59]完美世界DOTA2联赛PWL S2 Magma vs FTD 第一场 11.29
2020/12/02 DOTA
Python整型运算之布尔型、标准整型、长整型操作示例
2017/07/21 Python
python利用标准库如何获取本地IP示例详解
2017/11/01 Python
Django权限机制实现代码详解
2018/02/05 Python
对PyQt5中树结构的实现方法详解
2019/06/17 Python
Django admin model 汉化显示文字的实现方法
2019/08/12 Python
python 解决flask uwsgi 获取不到全局变量的问题
2019/12/22 Python
利用Python实现Excel的文件间的数据匹配功能
2020/06/16 Python
美国名牌手表折扣网站:Jomashop
2020/05/22 全球购物
Araks官网:纽约内衣品牌
2020/10/15 全球购物
毕业生自荐书
2013/12/18 职场文书
毕业生自荐书模版
2014/01/04 职场文书
关于爱情的广播稿
2014/01/16 职场文书
个人公司授权委托书范本
2014/10/12 职场文书
2014年学校法制宣传日活动总结
2014/11/01 职场文书
入股协议书范本
2014/11/01 职场文书
投资入股协议书
2016/03/22 职场文书
Python字符串的转义字符
2022/04/07 Python