解决Python网页爬虫之中文乱码问题


Posted in Python onMay 11, 2018

Python是个好工具,但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题,中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道,之前爬取的一个学校网页就出现了这个问题,但是当时并没有解决,这着实成了我一个心病。这不,刚刚一解决就将这个方法公布与众,大家一同分享。

首先,我说一下Python中文乱码的原因,Python中文乱码是由于Python在解析网页时默认用Unicode去解析,而大多数网站是utf-8格式的,并且解析出来之后,python竟然再以Unicode字符格式输出,会与系统编码格式不同,导致中文输出乱码,知道原因后我们就好解决了。下面上代码,实验对象仍是被人上了无数遍的百度主页~

# -*- coding: utf-8 -*-

import urllib2
import re
import requests
import sys

import urllib
#设置编码
reload(sys)
sys.setdefaultencoding('utf-8')
#获得系统编码格式
type = sys.getfilesystemencoding()
r = urllib.urlopen("http://www.baidu.com")
#将网页以utf-8格式解析然后转换为系统默认格式
a = r.read().decode('utf-8').encode(type)
print a

最后输出效果,中文完美输出

解决Python网页爬虫之中文乱码问题

以上这篇解决Python网页爬虫之中文乱码问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python linecache.getline()读取文件中特定一行的脚本
Sep 06 Python
Python实现爬取逐浪小说的方法
Jul 07 Python
Python对象类型及其运算方法(详解)
Jul 05 Python
python爬取网页内容转换为PDF文件
Jul 28 Python
python使用xlsxwriter实现有向无环图到Excel的转换
Dec 12 Python
详解Python数据可视化编程 - 词云生成并保存(jieba+WordCloud)
Mar 26 Python
pytorch神经网络之卷积层与全连接层参数的设置方法
Aug 18 Python
django 数据库返回queryset实现封装为字典
May 19 Python
python3的pip路径在哪
Jun 23 Python
基于Python实现下载网易音乐代码实例
Aug 10 Python
Python3实现英文字母转换哥特式字体实例代码
Sep 01 Python
scrapy在python爬虫中搭建出错的解决方法
Nov 22 Python
解决python爬虫中有中文的url问题
May 11 #Python
利用Python yagmail三行代码实现发送邮件
May 11 #Python
解决Pandas to_json()中文乱码,转化为json数组的问题
May 10 #Python
解决python3 json数据包含中文的读写问题
May 10 #Python
Python3.6通过自带的urllib通过get或post方法请求url的实例
May 10 #Python
对python3 urllib包与http包的使用详解
May 10 #Python
Python3处理HTTP请求的实例
May 10 #Python
You might like
Protoss热键控制
2020/03/14 星际争霸
用PHP和ACCESS写聊天室(七)
2006/10/09 PHP
php判断电脑访问、手机访问的例子
2014/05/10 PHP
PHP实现删除非站内外部链接实例代码
2014/06/17 PHP
PHP中类与对象功能、用法实例解读
2020/03/27 PHP
关于document.cookie的使用javascript
2008/04/11 Javascript
$.ajax json数据传递方法
2008/11/19 Javascript
JQuery 1.6发布 性能提升,同时包含大量破坏性变更
2011/05/10 Javascript
jQuery窗口、文档、网页各种高度的精确理解
2014/07/02 Javascript
Javascript基础知识(一)核心基础语法与事件模型
2014/09/29 Javascript
js获取当前年月日-YYYYmmDD格式的实现代码
2016/06/01 Javascript
深入理解JavaScript 函数
2016/06/06 Javascript
利用Angularjs实现幻灯片效果
2016/09/07 Javascript
vue2.0+webpack环境的构造过程
2016/11/08 Javascript
javascript实现用户点击数量统计
2016/12/25 Javascript
vue + socket.io实现一个简易聊天室示例代码
2017/03/06 Javascript
基于easyui checkbox 的一些操作处理方法
2017/07/10 Javascript
一篇文章让你彻底弄懂JS的事件冒泡和事件捕获
2017/08/14 Javascript
Vue2 SSR渲染根据不同页面修改 meta
2017/11/20 Javascript
详解Vue中使用插槽(slot)、聚类插槽
2019/04/12 Javascript
vue router总结 $router和$route及router与 router与route区别
2019/07/05 Javascript
[04:13]2018国际邀请赛典藏宝瓶Ⅱ饰品一览
2018/07/21 DOTA
python模拟登录百度代码分享(获取百度贴吧等级)
2013/12/27 Python
python面向对象法实现图书管理系统
2019/04/19 Python
浅谈Pandas Series 和 Numpy array中的相同点
2019/06/28 Python
解决Python3 抓取微信账单信息问题
2019/07/19 Python
Python txt文件常用读写操作代码实例
2020/08/03 Python
css 省略号 css3让多余的字符串消失并附加省略号的实现代码
2013/02/07 HTML / CSS
常用的HTML5列表标签
2017/06/20 HTML / CSS
澳大利亚最受欢迎的美发和美容在线商店:Catwalk
2018/12/12 全球购物
新加坡交友网站:be2新加坡
2019/04/10 全球购物
海蓝之谜英国官网:La Mer英国
2020/01/15 全球购物
初级会计求职信范文
2014/02/15 职场文书
金正昆讲礼仪观后感
2015/06/11 职场文书
铁头也玩根德 YachtBoy YB-230......
2022/04/05 无线电
GO语言字符串处理函数之处理Strings包
2022/04/14 Golang