python字符串编码识别模块chardet简单应用


Posted in Python onJune 15, 2015

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

Python 相关文章推荐
Python操作列表的常用方法分享
Feb 13 Python
Python中请使用isinstance()判断变量类型
Aug 25 Python
给Python的Django框架下搭建的BLOG添加RSS功能的教程
Apr 08 Python
利用python程序帮大家清理windows垃圾
Jan 15 Python
Pycharm编辑器技巧之自动导入模块详解
Jul 18 Python
Python中列表list以及list与数组array的相互转换实现方法
Sep 22 Python
python中类的属性和方法介绍
Nov 27 Python
python+opencv 读取文件夹下的所有图像并批量保存ROI的方法
Jan 10 Python
pandas去除重复列的实现方法
Jan 29 Python
Python地图绘制实操详解
Mar 04 Python
Python用Try语句捕获异常的实例方法
Jun 26 Python
Python decorator拦截器代码实例解析
Apr 04 Python
Python字符串格式化
Jun 15 #Python
Java中重定向输出流实现用文件记录程序日志
Jun 12 #Python
Python2中的raw_input() 与 input()
Jun 12 #Python
Windows下实现Python2和Python3两个版共存的方法
Jun 12 #Python
Python3中的2to3转换工具使用示例
Jun 12 #Python
Python中unittest模块做UT(单元测试)使用实例
Jun 12 #Python
搞笑的程序猿:看看你是哪种Python程序员
Jun 12 #Python
You might like
PHP中遇到BOM、编码导致json_decode函数无法解析问题
2014/07/02 PHP
WordPress中缩略图的使用以及相关技巧
2015/11/24 PHP
phpStudy配置多站点多域名方法及遇到的403错误解决方法
2017/10/19 PHP
修改js Calendar日历控件 兼容IE9/谷歌/火狐
2013/01/04 Javascript
jquery删除指定的html标签并保留标签内文本内容的方法
2014/04/02 Javascript
JavaScript打印网页指定区域的例子
2014/05/03 Javascript
Jquery+Ajax+PHP+MySQL实现分类列表管理(下)
2015/10/28 Javascript
jQuery实现元素的插入
2017/02/27 Javascript
关于HTTP传输中gzip压缩的秘密探索分析
2018/01/12 Javascript
js实现鼠标单击Tab表单切换效果
2018/05/16 Javascript
vue实现点击当前标签高亮效果【推荐】
2018/06/22 Javascript
详解微信小程序之一键复制到剪切板
2019/04/24 Javascript
vue中动态select的使用方法示例
2019/10/28 Javascript
在antd Table中插入可编辑的单元格实例
2020/10/28 Javascript
Vue SPA 首屏优化方案
2021/02/26 Vue.js
[31:29]完美世界DOTA2联赛PWL S3 INK ICE vs Magma 第一场 12.20
2020/12/23 DOTA
python 文件和路径操作函数小结
2009/11/23 Python
python内置函数:lambda、map、filter简单介绍
2017/11/16 Python
python3.6 +tkinter GUI编程 实现界面化的文本处理工具(推荐)
2017/12/20 Python
对Python中内置异常层次结构详解
2018/10/18 Python
Python之time模块的时间戳,时间字符串格式化与转换方法(13位时间戳)
2019/08/12 Python
pytorch ImageFolder的覆写实例
2020/02/20 Python
python爬虫中采集中遇到的问题整理
2020/11/27 Python
用CSS3和table标签实现一个圆形轨迹的动画的示例代码
2019/01/17 HTML / CSS
详解通过变换矩阵实现canvas的缩放功能
2019/01/14 HTML / CSS
俄罗斯极限运动网上商店:Board Shop №1
2020/12/18 全球购物
党员思想汇报范文
2013/12/30 职场文书
员工考核评语大全
2014/04/26 职场文书
个人维稳承诺书
2015/05/04 职场文书
公司文体活动总结
2015/05/07 职场文书
承诺书应该怎么写?
2019/09/10 职场文书
七年级作文之游记
2019/12/11 职场文书
总结一些Java常用的加密算法
2021/06/11 Java/Android
MySQL限制查询和数据排序介绍
2022/03/25 MySQL
pandas时间序列之pd.to_datetime()的实现
2022/06/16 Python
virtualenv隔离Python环境的问题解析
2022/06/21 Python