python字符串编码识别模块chardet简单应用


Posted in Python onJune 15, 2015

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

Python 相关文章推荐
Python time模块详解(常用函数实例讲解,非常好)
Apr 24 Python
给Python初学者的一些编程技巧
Apr 03 Python
详谈在flask中使用jsonify和json.dumps的区别
Mar 26 Python
Python实现快速傅里叶变换的方法(FFT)
Jul 21 Python
使用python采集脚本之家电子书资源并自动下载到本地的实例脚本
Oct 23 Python
NumPy 数组使用大全
Apr 25 Python
Python绘制频率分布直方图的示例
Jul 08 Python
Python 实用技巧之利用Shell通配符做字符串匹配
Aug 23 Python
python 实现快速生成连续、随机字母列表
Nov 28 Python
python实现126邮箱发送邮件
May 20 Python
python中_del_还原数据的方法
Dec 09 Python
python unittest单元测试的步骤分析
Aug 02 Python
Python字符串格式化
Jun 15 #Python
Java中重定向输出流实现用文件记录程序日志
Jun 12 #Python
Python2中的raw_input() 与 input()
Jun 12 #Python
Windows下实现Python2和Python3两个版共存的方法
Jun 12 #Python
Python3中的2to3转换工具使用示例
Jun 12 #Python
Python中unittest模块做UT(单元测试)使用实例
Jun 12 #Python
搞笑的程序猿:看看你是哪种Python程序员
Jun 12 #Python
You might like
Classes and Objects in PHP5-面向对象编程 [1]
2006/10/09 PHP
用PHP调用Oracle存储过程的方法
2008/09/12 PHP
php+mysql事务rollback&commit示例
2010/02/08 PHP
PHP和Mysqlweb应用开发核心技术 第1部分 Php基础-1 开始了解php
2011/07/03 PHP
PHP删除数组中特定元素的两种方法
2013/07/02 PHP
ini_set的用法介绍
2014/01/07 PHP
ThinkPHP实现ajax仿官网搜索功能实例
2014/12/02 PHP
php使用pdo连接mssql server数据库实例
2014/12/25 PHP
PHP微信开发之二维码生成类
2015/06/26 PHP
php利用header函数下载各种文件
2016/08/24 PHP
php curl获取https页面内容,不直接输出返回结果的设置方法
2019/01/15 PHP
修改Laravel自带的认证系统的User类的命名空间的步骤
2019/10/15 PHP
php自动加载代码实例详解
2021/02/26 PHP
javascript json2 使用方法
2010/03/16 Javascript
JQuery入门——用one()方法绑定事件处理函数(仅触发一次)
2013/02/05 Javascript
jquery日历控件实现方法分享
2014/03/07 Javascript
JS 对象属性相关(检查属性、枚举属性等)
2015/04/05 Javascript
javascript框架设计之框架分类及主要功能
2015/06/23 Javascript
JS实现仿Windows经典风格的选项卡Tab切换代码
2015/10/20 Javascript
详解Angular.js数据绑定时自动转义html标签及内容
2017/03/30 Javascript
vue项目添加多页面配置的步骤详解
2019/05/22 Javascript
浅析webpack-bundle-analyzer在vue-cli3中的使用
2019/10/23 Javascript
jquery检测上传文件大小示例
2020/04/26 jQuery
python实现从ftp服务器下载文件的方法
2015/04/30 Python
Python实现简单拆分PDF文件的方法
2015/07/30 Python
Python黑帽编程 3.4 跨越VLAN详解
2016/09/28 Python
Python 40行代码实现人脸识别功能
2017/04/02 Python
Python装饰器原理与用法分析
2018/04/30 Python
Python中三元表达式的几种写法介绍
2019/03/04 Python
Django中的FBV和CBV用法详解
2019/09/15 Python
如何分离django中的媒体、静态文件和网页
2019/11/12 Python
HTML5+lufylegend实现游戏中的卷轴
2016/02/29 HTML / CSS
可持续未来的时尚基础:Alternative Apparel
2019/05/06 全球购物
Unineed中文官网:高端护肤美妆与时尚配饰,英国直邮
2020/07/23 全球购物
店长岗位职责
2013/11/21 职场文书
求职简历自荐信
2014/06/18 职场文书