python字符串编码识别模块chardet简单应用


Posted in Python onJune 15, 2015

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

Python 相关文章推荐
Python入门教程之运算符与控制流
Aug 17 Python
python中执行shell的两种方法总结
Jan 10 Python
win10下Python3.6安装、配置以及pip安装包教程
Oct 01 Python
动态规划之矩阵连乘问题Python实现方法
Nov 27 Python
Python反射的用法实例分析
Feb 11 Python
python内置数据类型之列表操作
Nov 12 Python
python+selenium实现自动抢票功能实例代码
Nov 23 Python
Python获取统计自己的qq群成员信息的方法
Nov 15 Python
解决Python3下map函数的显示问题
Dec 04 Python
Python学习之路之pycharm的第一个项目搭建过程
Jun 18 Python
python之语音识别speech模块
Sep 09 Python
python爬虫搭配起Bilibili唧唧的流程分析
Dec 01 Python
Python字符串格式化
Jun 15 #Python
Java中重定向输出流实现用文件记录程序日志
Jun 12 #Python
Python2中的raw_input() 与 input()
Jun 12 #Python
Windows下实现Python2和Python3两个版共存的方法
Jun 12 #Python
Python3中的2to3转换工具使用示例
Jun 12 #Python
Python中unittest模块做UT(单元测试)使用实例
Jun 12 #Python
搞笑的程序猿:看看你是哪种Python程序员
Jun 12 #Python
You might like
php中simplexml_load_file函数用法实例
2014/11/12 PHP
TNC vs BOOM BO3 第二场2.13
2021/03/10 DOTA
xtree.js 代码
2007/03/13 Javascript
js 居中漂浮广告
2010/03/21 Javascript
IE图片缓存document.execCommand("BackgroundImageCache",false,true)
2011/03/01 Javascript
Prototype源码浅析 Number部分
2012/01/16 Javascript
JS设置获取cookies的方法
2014/01/26 Javascript
jQuery操作cookie方法实例教程
2014/11/25 Javascript
Angularjs中如何使用filterFilter函数过滤
2016/02/06 Javascript
JS中使用FormData上传文件、图片的方法
2016/08/07 Javascript
JS插件plupload.js实现多图上传并显示进度条
2016/11/29 Javascript
BootStrap 实现各种样式的进度条效果
2016/12/07 Javascript
Node.js Mongodb 密码特殊字符 @的解决方法
2017/04/11 Javascript
使用async、enterproxy控制并发数量的方法详解
2018/01/02 Javascript
记React connect的几种写法(小结)
2018/09/18 Javascript
Javascript通过控制类名更改样式
2019/05/24 Javascript
关于angular引入ng-zorro的问题浅析
2020/09/09 Javascript
[34:27]DOTA2上海特级锦标赛B组败者赛 VG VS Spirit第一局
2016/02/26 DOTA
sqlalchemy对象转dict的示例
2014/04/22 Python
跟老齐学Python之字典,你还记得吗?
2014/09/20 Python
python实现xlsx文件分析详解
2018/01/02 Python
python读取文本中数据并转化为DataFrame的实例
2018/04/10 Python
numpy中的delete删除数组整行和整列的实例
2018/05/09 Python
python 美化输出信息的实例
2018/10/15 Python
python如何解析配置文件并应用到项目中
2019/06/27 Python
在OpenCV里使用Camshift算法的实现
2019/11/22 Python
Python中if有多个条件处理方法
2020/02/26 Python
Python yield的用法实例分析
2020/03/06 Python
基于Keras的格式化输出Loss实现方式
2020/06/17 Python
MCAKE蛋糕官方网站:一直都是巴黎的味道
2018/02/06 全球购物
.NET面试题:什么是值类型和引用类型
2016/01/12 面试题
《猴子种果树》教学反思
2014/04/26 职场文书
2014年流动人口工作总结
2014/11/26 职场文书
浅析InnoDB索引结构
2021/04/05 MySQL
MySQL里面的子查询的基本使用
2021/08/02 MySQL
使用pd.merge表连接出现多余行的问题解决
2022/06/16 Python