Python正则表达式匹配HTML页面编码


Posted in Python onApril 08, 2015

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'
Python 相关文章推荐
Python内置函数的用法实例教程
Sep 08 Python
python将ip地址转换成整数的方法
Mar 17 Python
python统计文本文件内单词数量的方法
May 30 Python
使用rst2pdf实现将sphinx生成PDF
Jun 07 Python
python中import学习备忘笔记
Jan 24 Python
一篇文章读懂Python赋值与拷贝
Apr 19 Python
《与孩子一起学编程》python自测题
May 27 Python
python 实现分页显示从es中获取的数据方法
Dec 26 Python
在python里协程使用同步锁Lock的实例
Feb 19 Python
python多线程分块读取文件
Aug 29 Python
python 解决print数组/矩阵无法完整输出的问题
Feb 19 Python
解决python中显示图片的plt.imshow plt.show()内存泄漏问题
Apr 24 Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
Python中实现对Timestamp和Datetime及UTC时间之间的转换
Apr 08 #Python
python模块之StringIO使用示例
Apr 08 #Python
Python StringIO模块实现在内存缓冲区中读写数据
Apr 08 #Python
Python实现的简单文件传输服务器和客户端
Apr 08 #Python
You might like
ThinkPHP关联模型操作实例分析
2012/09/23 PHP
php跨域cookie共享使用方法
2014/02/20 PHP
yiic命令时提示“php.exe”不是内部或外部命令的解决方法
2014/12/18 PHP
PHP使用JSON和将json还原成数组
2015/02/12 PHP
Windows平台实现PHP连接SQL Server2008的方法
2017/07/26 PHP
php7 新增功能实例总结
2020/05/25 PHP
js电信网通双线自动选择技巧
2008/11/18 Javascript
JavaScript 动态生成方法的例子
2009/07/22 Javascript
jQuery 表单验证扩展代码(一)
2010/10/11 Javascript
在VS2008中使用jQuery智能感应的方法
2010/12/30 Javascript
javascript操作css属性
2013/12/30 Javascript
node.js中的fs.readdirSync方法使用说明
2014/12/17 Javascript
JavaScript的原型继承详解
2015/02/15 Javascript
jQuery使用fadein方法实现渐出效果实例
2015/03/27 Javascript
JQuery中Text方法用法实例分析
2015/05/18 Javascript
浅谈JavaScript的Polymer框架中的事件绑定
2015/07/29 Javascript
javascript实现全角转半角的方法
2016/01/23 Javascript
jQuery操作动态生成的内容的方法
2016/05/28 Javascript
jQuery无刷新上传之uploadify简单代码
2017/01/17 Javascript
Vue文件配置全局变量的实例
2018/09/06 Javascript
angularJs复选框checkbox选中进行ng-show显示隐藏的方法
2018/10/08 Javascript
js module大战
2019/04/19 Javascript
win10下Python3.6安装、配置以及pip安装包教程
2017/10/01 Python
python绘制铅球的运行轨迹代码分享
2017/11/14 Python
Python3离线安装Requests模块问题
2019/10/13 Python
加拿大领先的冒险和户外零售商:Atmosphere
2017/12/19 全球购物
爱尔兰旅游网站:ebookers.ie
2020/01/24 全球购物
小学教育毕业生自荐信
2013/11/18 职场文书
外企办公室竞聘演讲稿
2013/12/29 职场文书
一年级学生评语
2014/04/23 职场文书
后备干部培训方案
2014/05/22 职场文书
机械设计专业大学生职业生涯规划书范文
2014/09/13 职场文书
Python合并多张图片成PDF
2021/06/09 Python
MIME类型中application/xml与text/xml的区别介绍
2022/01/18 HTML / CSS
Python集合set()使用的方法详解
2022/03/18 Python
Android开发实现极为简单的QQ登录页面
2022/04/24 Java/Android