Python正则表达式匹配HTML页面编码


Posted in Python onApril 08, 2015

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'
Python 相关文章推荐
跟老齐学Python之不要红头文件(2)
Sep 28 Python
Python标准库之sqlite3使用实例
Nov 25 Python
python统计文本字符串里单词出现频率的方法
May 26 Python
Python统计日志中每个IP出现次数的方法
Jul 06 Python
numpy自动生成数组详解
Dec 15 Python
Python推导式简单示例【列表推导式、字典推导式与集合推导式】
Dec 04 Python
Django 中间键和上下文处理器的使用
Mar 17 Python
详解Python对JSON中的特殊类型进行Encoder
Jul 15 Python
Python中的list与tuple集合区别解析
Oct 12 Python
Python unittest 自动识别并执行测试用例方式
Mar 09 Python
一篇文章搞懂python的转义字符及用法
Sep 03 Python
python产生模拟数据faker库的使用详解
Nov 04 Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
Python中实现对Timestamp和Datetime及UTC时间之间的转换
Apr 08 #Python
python模块之StringIO使用示例
Apr 08 #Python
Python StringIO模块实现在内存缓冲区中读写数据
Apr 08 #Python
Python实现的简单文件传输服务器和客户端
Apr 08 #Python
You might like
火影忍者:这才是千手柱间和扉间的真正死因,角都就比较搞笑了!
2020/03/10 日漫
PHP概述.
2006/10/09 PHP
php处理json时中文问题的解决方法
2011/04/12 PHP
在windows平台上构建自己的PHP实现方法(仅适用于php5.2)
2013/07/05 PHP
php数组合并array_merge()函数使用注意事项
2014/06/19 PHP
php使用explode()函数将字符串拆分成数组的方法
2015/02/17 PHP
项目中应用Redis+Php的场景
2016/05/22 PHP
如何利用PHP实现上传图片功能详解
2020/09/24 PHP
判断页面是关闭还是刷新的js代码
2007/01/28 Javascript
javascript新建标签,判断键盘输入,以及判断焦点(示例代码)
2013/11/25 Javascript
关闭浏览器输入框自动补齐 兼容IE,FF,Chrome等主流浏览器
2014/02/11 Javascript
JQuery通过AJAX从后台获取信息显示在表格上并支持行选中
2015/09/15 Javascript
JS全局变量和局部变量最新解析
2016/06/24 Javascript
原生js获取iframe中dom元素--父子页面相互获取对方dom元素的方法
2016/08/05 Javascript
浅谈js在html中的加载执行顺序,多个jquery ready执行顺序
2016/11/26 Javascript
jQuery实现手势解锁密码特效
2017/08/14 jQuery
解决layui动态加载复选框无法选中的问题
2019/09/20 Javascript
JavaScript数组及常见操作方法小结
2019/11/13 Javascript
jQuery实现购物车全功能
2021/01/11 jQuery
python获取局域网占带宽最大3个ip的方法
2015/07/09 Python
利用Python实现颜色色值转换的小工具
2016/10/27 Python
Python 用Redis简单实现分布式爬虫的方法
2017/11/23 Python
pandas按若干个列的组合条件筛选数据的方法
2018/04/11 Python
win10系统Anaconda和Pycharm的Tensorflow2.0之CPU和GPU版本安装教程
2019/12/03 Python
快速解决Django关闭Debug模式无法加载media图片与static静态文件
2020/04/07 Python
如何卸载python插件
2020/07/08 Python
python 基于opencv实现高斯平滑
2020/12/18 Python
应届毕业生的个人自我鉴定
2013/10/24 职场文书
公司财务总监岗位职责
2013/12/14 职场文书
表彰先进的通报
2014/01/31 职场文书
二年级学生评语大全
2014/04/23 职场文书
2014年基建工作总结
2014/12/12 职场文书
介绍信格式样本
2015/05/05 职场文书
公司仓库管理制度
2015/08/04 职场文书
读完《骆驼祥子》的观后感!
2019/07/05 职场文书
Win11应用商店打开闪退怎么解决? win11应用商店打不开的多种解决办法
2022/04/05 数码科技