python字符串编码识别模块chardet简单应用


Posted in Python onJune 15, 2015

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

Python 相关文章推荐
ssh批量登录并执行命令的python实现代码
May 25 Python
python求素数示例分享
Feb 16 Python
python 回调函数和回调方法的实现分析
Mar 23 Python
Python中with及contextlib的用法详解
Jun 08 Python
python中urlparse模块介绍与使用示例
Nov 19 Python
python pandas dataframe 按列或者按行合并的方法
Apr 12 Python
解决win64 Python下安装PIL出错问题(图解)
Sep 03 Python
原来我一直安装 Python 库的姿势都不对呀
Nov 11 Python
python爬虫要用到的库总结
Jul 28 Python
python爬虫筛选工作实例讲解
Nov 23 Python
python urllib库的使用详解
Apr 13 Python
Python打包exe时各种异常处理方案总结
May 18 Python
Python字符串格式化
Jun 15 #Python
Java中重定向输出流实现用文件记录程序日志
Jun 12 #Python
Python2中的raw_input() 与 input()
Jun 12 #Python
Windows下实现Python2和Python3两个版共存的方法
Jun 12 #Python
Python3中的2to3转换工具使用示例
Jun 12 #Python
Python中unittest模块做UT(单元测试)使用实例
Jun 12 #Python
搞笑的程序猿:看看你是哪种Python程序员
Jun 12 #Python
You might like
php 接口类与抽象类的实际作用
2009/11/26 PHP
PHP实现在线阅读PDF文件的方法
2015/06/23 PHP
PHP数字金额转换成中文大写显示
2019/01/05 PHP
php生成随机数/生成随机字符串的方法小结【5种方法】
2020/05/27 PHP
javascript 兼容鼠标滚轮事件
2009/04/07 Javascript
jquery幻灯片插件bxslider样式改进实例
2014/10/15 Javascript
JavaScript实现网页截图功能
2014/10/16 Javascript
EasyUI实现下拉框多选功能
2017/11/07 Javascript
浅谈Vue SSR 的 Cookies 问题
2017/11/20 Javascript
使用Angular CLI生成路由的方法
2018/03/24 Javascript
a标签调用js的方法总结
2019/09/05 Javascript
AngularJS动态生成select下拉框的方法实例
2019/11/17 Javascript
flexible.js实现移动端rem适配方案
2020/04/07 Javascript
[01:02:07]Liquid vs Newbee 2019国际邀请赛小组赛 BO2 第一场 8.15
2019/08/16 DOTA
[01:10:27]DOTA2-DPC中国联赛正赛 SAG vs XG BO3 第二场 3月5日
2021/03/11 DOTA
python重试装饰器示例
2014/02/11 Python
Python求两个list的差集、交集与并集的方法
2014/11/01 Python
Python Learning 列表的更多操作及示例代码
2018/08/22 Python
Python实现的调用C语言函数功能简单实例
2019/03/13 Python
Flask框架学习笔记之模板操作实例详解
2019/08/15 Python
Python 多线程搜索txt文件的内容,并写入搜到的内容(Lock)方法
2019/08/23 Python
python返回数组的索引实例
2019/11/28 Python
Python文本处理简单易懂方法解析
2019/12/19 Python
使用python处理题库表格并转化为word形式的实现
2020/04/14 Python
Python文件操作及内置函数flush原理解析
2020/10/13 Python
20行代码教你用python给证件照换底色的方法示例
2021/02/05 Python
List, Set, Map是否继承自Collection接口?
2016/05/16 面试题
int和Integer有什么区别
2013/05/25 面试题
党员个人思想汇报
2013/12/28 职场文书
护理不良事件检讨书
2014/02/06 职场文书
夜不归宿检讨书
2014/02/25 职场文书
青年教师个人总结
2015/02/11 职场文书
pytorch Dropout过拟合的操作
2021/05/27 Python
zabbix监控mysql的实例方法
2021/06/02 MySQL
MySQL 如何设计统计数据表
2021/06/15 MySQL
PHP实现两种排课方式
2021/06/26 PHP