判断网页编码的方法python版


Posted in Python onAugust 12, 2016

在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能。我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取。
但是在抓取过程中会遇到编码的问题,那今天我们来看一下如何判断网页的编码:
网上很多网页的编码格式都不一样,大体上是GBK,GB2312,UTF-8等。
我们在获取网页的的数据后,先要对网页的编码进行判断,才能把抓取的内容的编码统一转换为我们能够处理的编码,避免乱码问题的出现。

下面介绍两种判断网页编码的方法:

总结:第二个方法很准确,在网页编码分析的时候用python模块分析内容是最准确的,而使用分析meta头信息的方法是不太准确的。

方法一:使用urllib模块的getparam方法    

import urllib
#autor:pythontab.com
fopen1 = urllib.urlopen('http://www.baidu.com').info()
print fopen1.getparam('charset')# baidu

方法二:使用chardet模块    

#如果你的python没有安装chardet模块,你需要首先安装一下chardet判断编码的模块哦 
#author:pythontab.com
import chardet 
import urllib
#先获取网页内容
data1 = urllib.urlopen('http://www.baidu.com').read()
#用chardet进行内容分析
chardit1 = chardet.detect(data1)
 
print chardit1['encoding'] # baidu

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python数据结构之二叉树的遍历实例
Apr 29 Python
python里大整数相乘相关技巧指南
Sep 12 Python
Python脚本实现代码行数统计代码分享
Mar 10 Python
python友情链接检查方法
Jul 08 Python
python用10行代码实现对黄色图片的检测功能
Aug 10 Python
详解Python的Django框架中manage命令的使用与扩展
Apr 11 Python
Python中struct模块对字节流/二进制流的操作教程
Jan 21 Python
Python 专题三 字符串的基础知识
Mar 19 Python
Python3实现的回文数判断及罗马数字转整数算法示例
Mar 27 Python
Python单元和文档测试实例详解
Apr 11 Python
python3中使用__slots__限定实例属性操作分析
Feb 14 Python
jupyter lab文件导出/下载方式
Apr 22 Python
Python利用IPython提高开发效率
Aug 10 #Python
详解python如何调用C/C++底层库与互相传值
Aug 10 #Python
浅析python中的分片与截断序列
Aug 09 #Python
总结python爬虫抓站的实用技巧
Aug 09 #Python
教你用Type Hint提高Python程序开发效率
Aug 08 #Python
Python如何实现文本转语音
Aug 08 #Python
Python脚本处理空格的方法
Aug 08 #Python
You might like
php 8小时时间差的解决方法小结
2009/12/22 PHP
Drupal 添加模块出现莫名其妙的错误的解决方法(往往出现在模块较多时)
2011/04/18 PHP
PHP小教程之实现链表
2014/06/09 PHP
WordPress中对访客评论功能的一些优化方法
2015/11/24 PHP
Yii实现简单分页的方法
2016/04/29 PHP
Yii2语言国际化自动配置详解
2018/08/22 PHP
Aster vs Newbee BO5 第一场2.19
2021/03/10 DOTA
Mootools 1.2教程 事件处理
2009/09/15 Javascript
html数组字符串拼接的最快方法
2009/09/16 Javascript
JavaScript 利用Cookie记录用户登录信息
2009/12/08 Javascript
jquery遍历select元素(实例讲解)
2013/12/31 Javascript
用jquery修复在iframe下的页面锚点失效问题
2014/08/22 Javascript
Js中使用hasOwnProperty方法检索ajax响应对象的例子
2014/12/08 Javascript
javascript实现一个数值加法函数
2015/06/26 Javascript
JavaScript子窗口调用父窗口变量和函数的方法
2015/10/09 Javascript
JS使用单链表统计英语单词出现次数
2016/06/16 Javascript
基于Vue.js实现简单搜索框
2020/03/26 Javascript
Angular2库初探
2017/03/01 Javascript
vue2 中如何实现动态表单增删改查实例
2017/06/09 Javascript
网页爬虫之cookie自动获取及过期自动更新的实现方法
2018/03/06 Javascript
简单实现vue中的依赖收集与响应的方法
2019/02/18 Javascript
详解vue 2.6 中 slot 的新用法
2019/07/09 Javascript
vue3.0中的双向数据绑定方法及优缺点
2019/08/01 Javascript
详解在Vue.js编写更好的v-for循环的6种技巧
2020/04/14 Javascript
让python同时兼容python2和python3的8个技巧分享
2014/07/11 Python
详解Python中的array数组模块相关使用
2016/07/05 Python
详解如何在Apache中运行Python WSGI应用
2019/01/02 Python
Django项目使用CircleCI的方法示例
2019/07/14 Python
Django2 连接MySQL及model测试实例分析
2019/12/10 Python
python GUI库图形界面开发之PyQt5控件数据拖曳Drag与Drop详细使用方法与实例
2020/02/27 Python
python实现简单的购物程序代码实例
2020/03/03 Python
物流创业计划书
2014/02/01 职场文书
个人委托书范本
2014/04/02 职场文书
交警个人先进事迹材料
2014/05/11 职场文书
公务员年度考核个人总结
2015/02/12 职场文书
2015年暑期实践报告范文
2015/07/13 职场文书