python字符串编码识别模块chardet简单应用


Posted in Python onJune 15, 2015

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

Python 相关文章推荐
Tornado Web服务器多进程启动的2个方法
Aug 04 Python
python统计文本文件内单词数量的方法
May 30 Python
Python下Fabric的简单部署方法
Jul 14 Python
Python的Django框架下管理站点的基本方法
Jul 17 Python
Python3 处理JSON的实例详解
Oct 29 Python
python 二维数组90度旋转的方法
Jan 28 Python
用Python实现BP神经网络(附代码)
Jul 10 Python
Python通过Manager方式实现多个无关联进程共享数据的实现
Nov 07 Python
django 文件上传功能的相关实例代码(简单易懂)
Jan 22 Python
django 解决model中类写不到数据库中,数据库无此字段的问题
May 20 Python
详解Python调用系统命令的六种方法
Jan 28 Python
Pygame Rect区域位置的使用(图文)
Nov 17 Python
Python字符串格式化
Jun 15 #Python
Java中重定向输出流实现用文件记录程序日志
Jun 12 #Python
Python2中的raw_input() 与 input()
Jun 12 #Python
Windows下实现Python2和Python3两个版共存的方法
Jun 12 #Python
Python3中的2to3转换工具使用示例
Jun 12 #Python
Python中unittest模块做UT(单元测试)使用实例
Jun 12 #Python
搞笑的程序猿:看看你是哪种Python程序员
Jun 12 #Python
You might like
php xml 入门学习资料
2011/01/01 PHP
无JS,完全php面向过程数据分页实现代码
2012/08/27 PHP
深入浅析PHP7.0新特征(五大新特征)
2015/10/29 PHP
PHP中如何防止外部恶意提交调用ajax接口
2016/04/11 PHP
php添加数据到xml文件的简单例子
2016/09/08 PHP
ThinkPHP实现生成和校验验证码功能
2017/04/28 PHP
PHP利用Socket获取网站的SSL证书与公钥
2017/06/18 PHP
PHP mongodb操作类定义与用法示例【适合mongodb2.x和mongodb3.x】
2018/06/16 PHP
Laravel框架集成UEditor编辑器的方法图文与实例详解
2019/04/17 PHP
List all the Databases on a SQL Server
2007/06/21 Javascript
仅img元素创建后不添加到文档中会执行onload事件的解决方法
2011/07/31 Javascript
谈谈JSON对象和字符串之间的相互转换JSON.stringify(obj)和JSON.parse(string)
2015/10/01 Javascript
JavaScript为事件句柄绑定监听函数实例详解
2015/12/15 Javascript
在Linux系统中搭建Node.js开发环境的简单步骤讲解
2016/01/26 Javascript
Highcharts 多个Y轴动态刷新数据的实现代码
2016/05/28 Javascript
原生js封装二级城市下拉列表的实现代码
2016/06/16 Javascript
javascript特效实现——当前时间和倒计时效果的简单实例
2016/07/20 Javascript
AnjularJS中$scope和$rootScope的区别小结
2016/09/18 Javascript
微信小程序 选择器(时间,日期,地区)实例详解
2016/11/16 Javascript
JS 调用微信扫一扫功能
2016/12/22 Javascript
在vue中使用css modules替代scroped的方法
2018/03/10 Javascript
使用Angular CLI快速创建Angular项目的一些基本概念和写法小结
2018/04/22 Javascript
Vue三层嵌套路由的示例代码
2018/05/05 Javascript
echarts统计x轴区间的数值实例代码详解
2019/07/07 Javascript
原生JS实现多条件筛选
2020/08/19 Javascript
js属性对象的hasOwnProperty方法的使用
2021/02/05 Javascript
python发送邮件接收邮件示例分享
2014/01/21 Python
Python模拟百度登录实例详解
2016/01/20 Python
python放大图片和画方格实现算法
2018/03/30 Python
Python调用钉钉自定义机器人的实现
2020/01/03 Python
Python趣味入门教程之循环语句while
2020/08/26 Python
详解HTML5之pushstate、popstate操作history,无刷新改变当前url
2017/03/15 HTML / CSS
机关干部四风问题自查报告及整改措施
2014/10/26 职场文书
财务部岗位职责
2015/02/03 职场文书
奠基仪式致辞
2015/07/30 职场文书
高中生军训感言
2015/08/01 职场文书