解决Python网页爬虫之中文乱码问题


Posted in Python onMay 11, 2018

Python是个好工具,但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题,中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道,之前爬取的一个学校网页就出现了这个问题,但是当时并没有解决,这着实成了我一个心病。这不,刚刚一解决就将这个方法公布与众,大家一同分享。

首先,我说一下Python中文乱码的原因,Python中文乱码是由于Python在解析网页时默认用Unicode去解析,而大多数网站是utf-8格式的,并且解析出来之后,python竟然再以Unicode字符格式输出,会与系统编码格式不同,导致中文输出乱码,知道原因后我们就好解决了。下面上代码,实验对象仍是被人上了无数遍的百度主页~

# -*- coding: utf-8 -*-

import urllib2
import re
import requests
import sys

import urllib
#设置编码
reload(sys)
sys.setdefaultencoding('utf-8')
#获得系统编码格式
type = sys.getfilesystemencoding()
r = urllib.urlopen("http://www.baidu.com")
#将网页以utf-8格式解析然后转换为系统默认格式
a = r.read().decode('utf-8').encode(type)
print a

最后输出效果,中文完美输出

解决Python网页爬虫之中文乱码问题

以上这篇解决Python网页爬虫之中文乱码问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 中的列表解析和生成表达式
Mar 10 Python
python根据距离和时长计算配速示例
Feb 16 Python
python实现zencart产品数据导入到magento(python导入数据)
Apr 03 Python
Python实现拼接多张图片的方法
Dec 01 Python
在Python中实现贪婪排名算法的教程
Apr 17 Python
Python处理文本文件中控制字符的方法
Feb 07 Python
Python内置模块logging用法实例分析
Feb 12 Python
Python中将dataframe转换为字典的实例
Apr 13 Python
python web自制框架之接受url传递过来的参数实例
Dec 17 Python
Python使用Turtle库绘制一棵西兰花
Nov 23 Python
Python使用Selenium实现淘宝抢单的流程分析
Jun 23 Python
python文本处理的方案(结巴分词并去除符号)
May 26 Python
解决python爬虫中有中文的url问题
May 11 #Python
利用Python yagmail三行代码实现发送邮件
May 11 #Python
解决Pandas to_json()中文乱码,转化为json数组的问题
May 10 #Python
解决python3 json数据包含中文的读写问题
May 10 #Python
Python3.6通过自带的urllib通过get或post方法请求url的实例
May 10 #Python
对python3 urllib包与http包的使用详解
May 10 #Python
Python3处理HTTP请求的实例
May 10 #Python
You might like
深入掌握include_once与require_once的区别
2013/06/17 PHP
PHP实现生成唯一编号(36进制的不重复编号)
2014/07/01 PHP
ThinkPHP有变量的where条件分页实例
2014/11/03 PHP
php抽象类用法实例分析
2015/07/07 PHP
php 读取输出其他文件的实现方法
2016/07/26 PHP
PHP图片水印类的封装
2017/07/06 PHP
PHP实现数组的笛卡尔积运算示例
2017/12/15 PHP
Javascript日期对象的dateAdd与dateDiff方法
2008/11/18 Javascript
javascript实现tabs选项卡切换效果(自写原生js)
2013/03/19 Javascript
javascript的回调函数应用示例
2014/02/20 Javascript
angularjs指令中的compile与link函数详解
2014/12/06 Javascript
详解JavaScript中数组的相关知识
2015/07/29 Javascript
JS模仿腾讯图片站的图片翻页按钮效果完整实例
2016/06/21 Javascript
javascript简单进制转换实现方法
2016/11/24 Javascript
详解照片瀑布流效果(js,jquery分别实现与知识点总结)
2017/01/01 Javascript
js实现简易垂直滚动条
2017/02/22 Javascript
AngularJS $http模块POST请求实现
2017/04/08 Javascript
js图片放大镜实例讲解(必看篇)
2017/07/17 Javascript
vue中的scope使用详解
2017/10/29 Javascript
ReactNative实现Toast的示例
2017/12/31 Javascript
详解从Vue-router到html5的pushState
2018/07/21 Javascript
Vue源码解析之Template转化为AST的实现方法
2018/12/14 Javascript
[05:17]DOTA2誓师:今天我们在这里 明天TI4等我!
2014/03/26 DOTA
[03:42]2018完美盛典-《加冕》
2018/12/16 DOTA
python实现dict版图遍历示例
2014/02/19 Python
关于Numpy中的行向量和列向量详解
2019/11/30 Python
全球最受追捧的运动服品牌领先数字目的地:Stylerunner
2020/11/25 全球购物
工作交流会欢迎词
2014/01/12 职场文书
校园歌手大赛策划书
2014/01/17 职场文书
幼儿园运动会入场词
2014/02/10 职场文书
送餐员岗位职责范本
2014/02/21 职场文书
绩效工资实施方案
2014/03/15 职场文书
三年级班级文化建设方案
2014/05/04 职场文书
部门活动策划方案
2014/08/16 职场文书
税务职业生涯规划书范文
2014/09/16 职场文书
求职自我评价范文
2015/03/09 职场文书