python字符串编码识别模块chardet简单应用


Posted in Python onJune 15, 2015

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

Python 相关文章推荐
更换Django默认的模板引擎为jinja2的实现方法
May 28 Python
python多行字符串拼接使用小括号的方法
Mar 19 Python
Django 路由系统URLconf的使用
Oct 11 Python
python: 自动安装缺失库文件的方法
Oct 22 Python
django 自定义过滤器(filter)处理较为复杂的变量方法
Aug 12 Python
Python多线程正确用法实例解析
May 30 Python
keras训练浅层卷积网络并保存和加载模型实例
Jul 02 Python
Python unittest生成测试报告过程解析
Sep 08 Python
Django-Scrapy生成后端json接口的方法示例
Oct 06 Python
如何基于Python按行合并两个txt
Nov 03 Python
Python使用Kubernetes API访问集群
May 30 Python
Python 视频画质增强
Apr 28 Python
Python字符串格式化
Jun 15 #Python
Java中重定向输出流实现用文件记录程序日志
Jun 12 #Python
Python2中的raw_input() 与 input()
Jun 12 #Python
Windows下实现Python2和Python3两个版共存的方法
Jun 12 #Python
Python3中的2to3转换工具使用示例
Jun 12 #Python
Python中unittest模块做UT(单元测试)使用实例
Jun 12 #Python
搞笑的程序猿:看看你是哪种Python程序员
Jun 12 #Python
You might like
PHP 图片上传实现代码 带详细注释
2010/04/29 PHP
php中magic_quotes_gpc对unserialize的影响分析
2014/12/16 PHP
js对象数组按属性快速排序
2011/01/31 Javascript
文本框文本自动补全效果示例分享
2014/01/19 Javascript
Javascript基础教程之switch语句
2015/01/18 Javascript
js控制页面的全屏展示和退出全屏显示的方法
2015/03/10 Javascript
jQuery实现复选框批量选择与反选的方法
2015/06/17 Javascript
原生JavaScript实现瀑布流布局
2020/06/28 Javascript
jQuery Easyui 验证两次密码输入是否相等
2016/05/13 Javascript
AngularJs学习第八篇 过滤器filter创建
2016/06/08 Javascript
Ext JS动态加载JavaScript创建窗体的方法
2016/06/23 Javascript
Angular路由简单学习
2016/12/26 Javascript
Vue.JS实现垂直方向展开、收缩不定高度模块的JS组件
2018/06/19 Javascript
Moment.js实现多个同时倒计时
2019/08/26 Javascript
JS设置自定义快捷键并实现图片上下左右移动
2019/10/17 Javascript
举例讲解Python中字典的合并值相加与异或对比
2016/06/04 Python
Python画图学习入门教程
2016/07/01 Python
python reduce 函数使用详解
2017/12/05 Python
使用python获取csv文本的某行或某列数据的实例
2018/04/03 Python
Python实现将数据写入netCDF4中的方法示例
2018/08/30 Python
python使用scrapy发送post请求的坑
2018/09/04 Python
Python使用ctypes调用C/C++的方法
2019/01/29 Python
用python求一重积分和二重积分的例子
2019/12/06 Python
工商管理实习生自我鉴定范文
2013/12/18 职场文书
教师试用期自我鉴定
2014/02/12 职场文书
技术总监管理岗位职责
2014/03/09 职场文书
面试自我介绍演讲稿
2014/04/29 职场文书
幼儿园中班区域活动总结
2014/07/09 职场文书
乡镇三严三实学习心得体会
2014/10/13 职场文书
2014年政风行风自查自纠报告
2014/10/21 职场文书
大学生团员个人总结
2015/02/14 职场文书
商业计划书范文
2019/04/24 职场文书
SQLServer 错误: 15404,无法获取有关 Windows NT 组/用户 WIN-8IVSNAQS8T7\Administrator 的信息
2021/06/30 SQL Server
python脚本框架webpy模板赋值实现
2021/11/20 Python
24年收藏2000多部退役军用电台
2022/02/18 无线电
MySQL详细讲解变量variables的用法
2022/06/21 MySQL