python字符串编码识别模块chardet简单应用


Posted in Python onJune 15, 2015

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

Python 相关文章推荐
python分布式环境下的限流器的示例
Oct 26 Python
利用python将xml文件解析成html文件的实现方法
Dec 22 Python
jupyter notebook引用from pyecharts.charts import Bar运行报错
Apr 23 Python
Python并发之多进程的方法实例代码
Aug 15 Python
Python+OpenCV采集本地摄像头的视频
Apr 25 Python
python爬虫租房信息在地图上显示的方法
May 13 Python
Python Tkinter 简单登录界面的实现
Jun 14 Python
python的pytest框架之命令行参数详解(上)
Jun 27 Python
python matplotlib库直方图绘制详解
Aug 10 Python
Python3.7安装keras和TensorFlow的教程图解
Jun 18 Python
python 异步async库的使用说明
May 04 Python
Python抓包并解析json爬虫的完整实例代码
Nov 03 Python
Python字符串格式化
Jun 15 #Python
Java中重定向输出流实现用文件记录程序日志
Jun 12 #Python
Python2中的raw_input() 与 input()
Jun 12 #Python
Windows下实现Python2和Python3两个版共存的方法
Jun 12 #Python
Python3中的2to3转换工具使用示例
Jun 12 #Python
Python中unittest模块做UT(单元测试)使用实例
Jun 12 #Python
搞笑的程序猿:看看你是哪种Python程序员
Jun 12 #Python
You might like
通用PHP动态生成静态HTML网页的代码
2010/03/04 PHP
基于php冒泡排序算法的深入理解
2013/06/09 PHP
ie 处理 gif动画 的onload 事件的一个 bug
2007/04/12 Javascript
js 对小数加法精度处理示例说明
2013/12/27 Javascript
浅谈JavaScript中指针和地址
2015/07/26 Javascript
JS+CSS实现鼠标滑过时动态翻滚的导航条效果
2015/09/24 Javascript
Nodejs初级阶段之express
2015/11/23 NodeJs
SpringMVC restful 注解之@RequestBody进行json与object转换
2015/12/10 Javascript
前端框架Vue.js中Directive知识详解
2016/09/12 Javascript
关于iframe跨域POST提交的方法示例
2017/01/15 Javascript
angular+ionic返回上一页并刷新页面
2017/08/08 Javascript
详解webpack + vue + node 打造单页面(入门篇)
2017/09/23 Javascript
JS实现字符串去重及数组去重的方法示例
2018/04/21 Javascript
在JavaScript中如何访问暂未存在的嵌套对象
2019/06/18 Javascript
Vuex实现购物车小功能
2020/08/17 Javascript
微信小程序基于ColorUI构建皮皮虾短视频去水印组件
2020/11/04 Javascript
JavaScript中的几种继承方法示例
2020/12/06 Javascript
[46:47]2014 DOTA2国际邀请赛中国区预选赛 DT VS HGT
2014/05/22 DOTA
netbeans7安装python插件的方法图解
2013/12/24 Python
解决Python print 输出文本显示 gbk 编码错误问题
2018/07/13 Python
利用python和百度地图API实现数据地图标注的方法
2019/05/13 Python
python 通过视频url获取视频的宽高方式
2019/12/10 Python
利用PyCharm操作Github(仓库新建、更新,代码回滚)
2019/12/18 Python
ansible动态Inventory主机清单配置遇到的坑
2020/01/19 Python
用CSS3实现无限循环的无缝滚动的示例代码
2017/11/01 HTML / CSS
Canvas环形饼图与手势控制的实现代码
2019/11/08 HTML / CSS
H&M旗下高端女装品牌:& Other Stories
2018/05/07 全球购物
西班牙著名的珠宝首饰品牌:P D PAOLA
2018/09/15 全球购物
DNA测试:Orig3n
2019/03/01 全球购物
HSRP的含义以及如何工作
2014/09/10 面试题
国家励志奖学金获奖感言
2014/01/09 职场文书
小学教师培训感言
2014/02/11 职场文书
旅游文化节策划方案
2014/06/06 职场文书
Django中的JWT身份验证的实现
2021/05/07 Python
Mysql中有关Datetime和Timestamp的使用总结
2021/12/06 MySQL
Java中API的使用方法详情
2022/04/06 Java/Android