python字符串编码识别模块chardet简单应用


Posted in Python onJune 15, 2015

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

Python 相关文章推荐
Python爬虫常用库的安装及其环境配置
Sep 19 Python
python requests post多层字典的方法
Dec 27 Python
在自动化中用python实现键盘操作的方法详解
Jul 19 Python
布隆过滤器的概述及Python实现方法
Dec 08 Python
Python使用urllib模块对URL网址中的中文编码与解码实例详解
Feb 18 Python
Django 拼接两个queryset 或是两个不可以相加的对象实例
Mar 28 Python
如何利用python之wxpy模块玩转微信
Aug 17 Python
Python基于pillow库实现生成图片水印
Sep 14 Python
python BeautifulSoup库的安装与使用
Dec 17 Python
Python3利用openpyxl读写Excel文件的方法实例
Feb 03 Python
Python天气语音播报小助手
Sep 25 Python
python基础之错误和异常处理
Oct 24 Python
Python字符串格式化
Jun 15 #Python
Java中重定向输出流实现用文件记录程序日志
Jun 12 #Python
Python2中的raw_input() 与 input()
Jun 12 #Python
Windows下实现Python2和Python3两个版共存的方法
Jun 12 #Python
Python3中的2to3转换工具使用示例
Jun 12 #Python
Python中unittest模块做UT(单元测试)使用实例
Jun 12 #Python
搞笑的程序猿:看看你是哪种Python程序员
Jun 12 #Python
You might like
PHP高级OOP技术演示
2009/08/27 PHP
PHP中获取文件扩展名的N种方法小结
2012/02/27 PHP
使用ThinkPHP生成缩略图及显示
2017/04/27 PHP
静态的动态续篇之来点XML
2006/08/15 Javascript
汉化英文版的Dreamweaver CS5并自动提示jquery
2010/11/25 Javascript
让人印象深刻的10个jQuery手风琴效果应用
2012/05/08 Javascript
无缝滚动改进版支持上下左右滚动(封装成函数)
2012/12/04 Javascript
IE关闭时判断及AJAX注销案例学习
2013/02/18 Javascript
基于jquery的9行js轻松实现tab控件示例
2013/10/12 Javascript
node.js中的fs.readlinkSync方法使用说明
2014/12/17 Javascript
jQuery简单实现title提示效果示例
2016/08/01 Javascript
微信小程序 安全包括(框架、功能模块、账户使用)详解
2017/01/16 Javascript
Vue.js之slot深度复制详解
2017/03/10 Javascript
js实现彩色条纹滚动条效果
2017/03/15 Javascript
详解在WebStorm中添加Vue.js单文件组件的高亮及语法支持
2017/10/21 Javascript
Vue2.5 结合 Element UI 之 Table 和 Pagination 组件实现分页功能
2018/01/26 Javascript
Javascript格式化并高亮xml字符串的方法及注意事项
2018/08/13 Javascript
async/await优雅的错误处理方法总结
2019/01/30 Javascript
微信小程序 如何获取网络状态
2019/07/26 Javascript
JS call()及apply()方法使用实例汇总
2020/07/11 Javascript
带你使用webpack快速构建web项目的方法
2020/11/12 Javascript
利用Python中的mock库对Python代码进行模拟测试
2015/04/16 Python
python使用htmllib分析网页内容的方法
2015/05/08 Python
简单讲解Python中的字符串与字符串的输入输出
2016/03/13 Python
Python守护进程和脚本单例运行详解
2017/01/06 Python
python 利用栈和队列模拟递归的过程
2018/05/29 Python
python实现狄克斯特拉算法
2019/01/17 Python
python分数表示方式和写法
2019/06/26 Python
解决Pytorch 训练与测试时爆显存(out of memory)的问题
2019/08/20 Python
django配置app中的静态文件步骤
2020/03/27 Python
Pytorch框架实现mnist手写库识别(与tensorflow对比)
2020/07/20 Python
python利用opencv保存、播放视频
2020/11/02 Python
项目合作协议书
2014/04/16 职场文书
爱心捐助倡议书
2014/05/19 职场文书
给医院的感谢信
2015/01/21 职场文书
师范生见习自我总结
2015/06/23 职场文书