Python字符编码判断方法分析


Posted in Python onJuly 01, 2016

本文实例讲述了Python字符编码判断方法。分享给大家供大家参考,具体如下:

方法一:

isinstance(s, str) 用来判断是否为一般字符串
isinstance(s, unicode) 用来判断是否为unicode

if type(str).__name__!="unicode":
str=unicode(str,"utf-8")
else:
pass

方法二:

Python chardet 字符编码判断

使用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要的,虽然HTML页面有charset标签,但是有些时候是不对的。那么chardet就能帮我们大忙了。

chardet实例

>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
>>>chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。

chardet 安装

下载chardet后,解压chardet压缩包,直接将chardet文件夹放在应用程序目录下,就可以使用import chardet开始使用chardet了。

或者使用setup.py安装文件,将chardet拷贝到Python系统目录下,这样你所有的python程序只要用import chardet就可以了。

python setup.py install参考

chardet官网:http://chardet.feedparser.org/
chardet下载页面:http://chardet.feedparser.org/download/

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python 实现堆排序算法代码
Jun 05 Python
Python写的Socks5协议代理服务器
Aug 06 Python
Python爬取京东的商品分类与链接
Aug 26 Python
python图像常规操作
Nov 11 Python
Python2与Python3的区别实例总结
Apr 17 Python
OpenCV-Python 摄像头实时检测人脸代码实例
Apr 30 Python
解决.ui文件生成的.py文件运行不出现界面的方法
Jun 19 Python
python 实现让字典的value 成为列表
Dec 16 Python
keras实现VGG16 CIFAR10数据集方式
Jul 07 Python
通过实例了解python__slots__使用方法
Sep 14 Python
删除pycharm鼠标右键快捷键打开项目的操作
Jan 16 Python
python 中的jieba分词库
Nov 23 Python
Android模拟器无法启动,报错:Cannot set up guest memory ‘android_arm’ Invalid argument的解决方法
Jul 01 #Python
python在Windows下安装setuptools(easy_install工具)步骤详解
Jul 01 #Python
python抓取并保存html页面时乱码问题的解决方法
Jul 01 #Python
python处理html转义字符的方法详解
Jul 01 #Python
python简单读取大文件的方法
Jul 01 #Python
python编码总结(编码类型、格式、转码)
Jul 01 #Python
Python编码类型转换方法详解
Jul 01 #Python
You might like
PHP中函数内引用全局变量的方法
2008/10/20 PHP
深入PHP5中的魔术方法详解
2013/06/17 PHP
PHP+MySQL存储数据常见中文乱码问题小结
2016/06/13 PHP
php mysql获取表字段名称和字段信息的三种方法
2016/11/13 PHP
浅谈PHP匿名函数和闭包
2019/03/08 PHP
php实现微信小程序授权登录功能(实现流程)
2019/11/13 PHP
一直复略了的一个问题,关于表单重复提交
2007/02/15 Javascript
让getElementsByName适应IE和firefox的方法
2007/09/24 Javascript
用Javascript同时提交多个Web表单的方法
2009/12/26 Javascript
JS下载文件|无刷新下载文件示例代码
2014/04/17 Javascript
详解JavaScript的流程控制语句
2015/11/30 Javascript
DOM中事件处理概览与原理的全面解析
2016/08/16 Javascript
jquery ajax后台返回list,前台用jquery遍历list的实现
2016/10/30 Javascript
Ionic2系列之使用DeepLinker实现指定页面URL
2016/11/21 Javascript
如何处理JSON中的特殊字符
2016/11/30 Javascript
JavaScript事件冒泡机制原理实例解析
2020/01/14 Javascript
jQuery 移除事件的方法
2020/06/20 jQuery
[56:35]DOTA2上海特级锦标赛主赛事日 - 5 总决赛Liquid VS Secret第一局
2016/03/06 DOTA
打开电脑上的QQ的python代码
2013/02/10 Python
使用python编写监听端
2018/04/12 Python
django中账号密码验证登陆功能的实现方法
2019/07/15 Python
python selenium 查找隐藏元素 自动播放视频功能
2019/07/24 Python
Django之使用内置函数和celery发邮件的方法示例
2019/09/16 Python
windows下Python安装、使用教程和Notepad++的使用教程
2019/10/06 Python
基于Django统计博客文章阅读量
2019/10/29 Python
使用pyplot.matshow()函数添加绘图标题
2020/06/16 Python
CSS3实现渐变背景兼容问题
2020/05/06 HTML / CSS
HTML5 Canvas实现玫瑰曲线和心形图案的代码实例
2014/04/10 HTML / CSS
初始化了一个没有run()方法的线程类,是否会出错?
2014/03/27 面试题
班长自荐书范文
2014/02/11 职场文书
员工试用期考核自我鉴定
2014/04/13 职场文书
预防传染病方案
2014/06/14 职场文书
2014年中秋寄语
2014/08/11 职场文书
2014个人四风对照检查材料思想汇报
2014/09/18 职场文书
民主评议党员工作总结
2014/10/20 职场文书
2014年保险业务员工作总结
2014/12/23 职场文书