判断网页编码的方法python版


Posted in Python onAugust 12, 2016

在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能。我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取。
但是在抓取过程中会遇到编码的问题,那今天我们来看一下如何判断网页的编码:
网上很多网页的编码格式都不一样,大体上是GBK,GB2312,UTF-8等。
我们在获取网页的的数据后,先要对网页的编码进行判断,才能把抓取的内容的编码统一转换为我们能够处理的编码,避免乱码问题的出现。

下面介绍两种判断网页编码的方法:

总结:第二个方法很准确,在网页编码分析的时候用python模块分析内容是最准确的,而使用分析meta头信息的方法是不太准确的。

方法一:使用urllib模块的getparam方法    

import urllib
#autor:pythontab.com
fopen1 = urllib.urlopen('http://www.baidu.com').info()
print fopen1.getparam('charset')# baidu

方法二:使用chardet模块    

#如果你的python没有安装chardet模块,你需要首先安装一下chardet判断编码的模块哦 
#author:pythontab.com
import chardet 
import urllib
#先获取网页内容
data1 = urllib.urlopen('http://www.baidu.com').read()
#用chardet进行内容分析
chardit1 = chardet.detect(data1)
 
print chardit1['encoding'] # baidu

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 判断一个进程是否存在
Apr 09 Python
python生成指定长度的随机数密码
Jan 23 Python
python的继承知识点总结
Dec 10 Python
Python 实现向word(docx)中输出
Feb 13 Python
Python编程快速上手——正则表达式查找功能案例分析
Feb 28 Python
python3.7+selenium模拟淘宝登录功能的实现
May 26 Python
在pycharm中debug 实时查看数据操作(交互式)
Jun 09 Python
django rest framework 自定义返回方式
Jul 12 Python
Python将list元素转存为CSV文件的实现
Nov 16 Python
使用Python爬取小姐姐图片(beautifulsoup法)
Feb 11 Python
python图像处理 PIL Image操作实例
Apr 09 Python
Python使用MapReduce进行简单的销售统计
Apr 22 Python
Python利用IPython提高开发效率
Aug 10 #Python
详解python如何调用C/C++底层库与互相传值
Aug 10 #Python
浅析python中的分片与截断序列
Aug 09 #Python
总结python爬虫抓站的实用技巧
Aug 09 #Python
教你用Type Hint提高Python程序开发效率
Aug 08 #Python
Python如何实现文本转语音
Aug 08 #Python
Python脚本处理空格的方法
Aug 08 #Python
You might like
smarty循环嵌套用法示例分析
2016/07/19 PHP
PHP的PDO事务与自动提交
2019/01/24 PHP
Javascript 遍历对象中的子对象
2009/07/03 Javascript
Web前端设计模式  制作漂亮的弹出层
2010/10/29 Javascript
jquery live()重复绑定的解决方法介绍
2014/01/03 Javascript
jQuery 无限级菜单的简单实例
2014/02/21 Javascript
构造函数+原型模式构造js自定义对象(最通用)
2014/05/12 Javascript
jquery选择器简述
2015/08/31 Javascript
JavaScript中数组去除重复的三种方法
2016/04/22 Javascript
JS调用Android、Ios原生控件
2017/01/06 Javascript
客户端(vue框架)与服务器(koa框架)通信及服务器跨域配置详解
2017/08/26 Javascript
JavaScript动态加载重复绑定问题
2018/04/01 Javascript
深入了解js原型模式
2019/05/30 Javascript
node读写Excel操作实例分析
2019/11/06 Javascript
基于Vue+ElementUI的省市区地址选择通用组件
2019/11/20 Javascript
《javascript设计模式》学习笔记三:Javascript面向对象程序设计单例模式原理与实现方法分析
2020/04/07 Javascript
实例探究Python以并发方式编写高性能端口扫描器的方法
2016/06/14 Python
速记Python布尔值
2017/11/09 Python
总结Python图形用户界面和游戏开发知识点
2019/05/22 Python
TensorFlow通过文件名/文件夹名获取标签,并加入队列的实现
2020/02/17 Python
python之生成多层json结构的实现
2020/02/27 Python
pyecharts动态轨迹图的实现示例
2020/04/17 Python
django使用JWT保存用户登录信息
2020/04/22 Python
python实现猜单词游戏
2020/05/22 Python
python Timer 类使用介绍
2020/12/28 Python
英国信箱在线鲜花速递公司:Bloom & Wild
2019/03/10 全球购物
什么是跨站脚本攻击
2014/12/11 面试题
设计部经理的岗位职责
2013/11/16 职场文书
2014高考励志标语
2014/06/05 职场文书
管理工程专业求职信
2014/08/10 职场文书
含预算的公司户外活动方案
2014/08/16 职场文书
党员四风自我剖析材料思想汇报
2014/09/13 职场文书
成本会计岗位职责
2015/02/03 职场文书
运动会通讯稿600字
2015/07/20 职场文书
Python面试不修改数组找出重复的数字
2022/05/20 Python
Win11右下角图标点了没反应怎么办?Win11点击右下角图标无反应解决方法汇总
2022/07/07 数码科技