python字符串编码识别模块chardet简单应用


Posted in Python onJune 15, 2015

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

Python 相关文章推荐
Python的print用法示例
Feb 11 Python
举例讲解Python中is和id的用法
Apr 03 Python
python中Matplotlib实现绘制3D图的示例代码
Sep 04 Python
python 对象和json互相转换方法
Mar 22 Python
Python数据预处理之数据规范化(归一化)示例
Jan 08 Python
python实现QQ空间自动点赞功能
Apr 09 Python
Django ORM多对多查询方法(自定义第三张表&ManyToManyField)
Aug 09 Python
postman传递当前时间戳实例详解
Sep 14 Python
python 实现矩阵按对角线打印
Nov 29 Python
Tensorflow 多线程与多进程数据加载实例
Feb 05 Python
python 解决pycharm运行py文件只有unittest选项的问题
Sep 01 Python
python热力图实现的完整实例
Jun 25 Python
Python字符串格式化
Jun 15 #Python
Java中重定向输出流实现用文件记录程序日志
Jun 12 #Python
Python2中的raw_input() 与 input()
Jun 12 #Python
Windows下实现Python2和Python3两个版共存的方法
Jun 12 #Python
Python3中的2to3转换工具使用示例
Jun 12 #Python
Python中unittest模块做UT(单元测试)使用实例
Jun 12 #Python
搞笑的程序猿:看看你是哪种Python程序员
Jun 12 #Python
You might like
详解 PHP加密解密字符串函数附源码下载
2015/12/18 PHP
Centos PHP 扩展Xchche的安装教程
2016/07/09 PHP
Yii框架用户登录session丢失问题解决方法
2017/01/07 PHP
PHP删除数组中特定元素的两种方法
2019/02/28 PHP
javascript 操作cookies及正确使用cookies的属性
2009/10/15 Javascript
JS多物体 任意值 链式 缓冲运动
2012/08/10 Javascript
jquery()函数的三种语法介绍
2013/10/09 Javascript
Javascript让DEDECMS告别手写Tag
2014/09/01 Javascript
javascript实现复选框超过限制即弹出警告框的方法
2015/02/25 Javascript
Python脚本后台运行的几种方式
2015/03/09 Javascript
javascript简单实现等比例缩小图片的方法
2016/07/27 Javascript
JS作用域闭包、预解释和this关键字综合实例解析
2016/12/16 Javascript
js实现省市级联效果分享
2017/08/10 Javascript
MVVM框架下实现分页功能示例
2018/06/14 Javascript
利用jqgrid实现上移下移单元格功能
2018/11/07 Javascript
JS实现进度条动态加载特效
2020/03/25 Javascript
浅谈vue中$bus的使用和涉及到的问题
2020/07/28 Javascript
浅谈vue-props的default写不写有什么区别
2020/08/09 Javascript
Python3简单实例计算同花的概率代码
2017/12/06 Python
python3下使用cv2.imwrite存储带有中文路径图片的方法
2018/05/10 Python
在Python中将函数作为另一个函数的参数传入并调用的方法
2019/01/22 Python
python 随机森林算法及其优化详解
2019/07/11 Python
python软件都是免费的吗
2020/06/18 Python
IE兼容css3圆角的实现代码
2011/07/21 HTML / CSS
HTML5中如何显示视频呢 HTML5视频播放demo
2013/06/08 HTML / CSS
amazeui树节点自动展开折叠面板并选中第一个树节点的实现
2020/08/24 HTML / CSS
欧洲顶级的童装奢侈品购物网站:Bambini Fashion(面向全球)
2018/04/24 全球购物
Happy Socks英国官网:购买五颜六色的袜子
2020/11/03 全球购物
得到Class的三个过程是什么
2012/08/10 面试题
生物化学研究助理员求职信
2013/10/09 职场文书
婚前财产公证书
2014/04/10 职场文书
培训讲师岗位职责
2014/04/13 职场文书
单位绩效考核方案
2014/05/11 职场文书
小爸爸观后感
2015/06/15 职场文书
小学运动会宣传稿
2015/07/23 职场文书
Python 数据可视化之Seaborn详解
2021/11/02 Python