Python正则表达式匹配HTML页面编码


Posted in Python onApril 08, 2015

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'
Python 相关文章推荐
pycharm 使用心得(一)安装和首次使用
Jun 05 Python
Python多进程同步Lock、Semaphore、Event实例
Nov 21 Python
Python面向对象编程基础解析(二)
Oct 26 Python
python 删除非空文件夹的实例
Apr 26 Python
解决python "No module named pip" 的问题
Oct 13 Python
解决python中无法自动补全代码的问题
Dec 04 Python
Python图像处理之gif动态图的解析与合成操作详解
Dec 30 Python
python中数组和矩阵乘法及使用总结(推荐)
May 18 Python
在Python中append以及extend返回None的例子
Jul 20 Python
Python爬虫学习之获取指定网页源码
Jul 30 Python
如何用Matplotlib 画三维图的示例代码
Jul 28 Python
python 决策树算法的实现
Oct 09 Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
Python中实现对Timestamp和Datetime及UTC时间之间的转换
Apr 08 #Python
python模块之StringIO使用示例
Apr 08 #Python
Python StringIO模块实现在内存缓冲区中读写数据
Apr 08 #Python
Python实现的简单文件传输服务器和客户端
Apr 08 #Python
You might like
Apache2 httpd.conf 中文版
2006/11/17 PHP
php通过COM类调用组件的实现代码
2012/01/11 PHP
JavaScript 学习小结(适合新手参考)
2009/07/30 Javascript
取得窗口大小 兼容所有浏览器的js代码
2011/08/09 Javascript
js函数的延迟加载实现代码
2012/10/11 Javascript
javascript的函数作用域
2014/11/12 Javascript
有关jquery与DOM节点操作方法和属性记录
2016/04/15 Javascript
用headjs来管理和加载js 提高网站加载速度
2016/11/29 Javascript
jquery 标签 隔若干行加空白或者加虚线的方法
2016/12/07 Javascript
ajax异步请求详解
2017/01/06 Javascript
微信小程序中使用自定义图标(阿里icon)的方法
2018/08/20 Javascript
微信公众号平台接口开发 菜单管理的实现
2019/08/14 Javascript
jQuery实现form表单基于ajax无刷新提交方法实例代码
2019/11/04 jQuery
Vue实现Layui的集成方法步骤
2020/04/10 Javascript
浅谈JavaScript节流和防抖函数
2020/08/25 Javascript
[02:09]DOTA2辉夜杯 EHOME夺冠举杯现场
2015/12/28 DOTA
python监控网站运行异常并发送邮件的方法
2015/03/13 Python
搞笑的程序猿:看看你是哪种Python程序员
2015/06/12 Python
详解duck typing鸭子类型程序设计与Python的实现示例
2016/06/03 Python
Python PyQt5实现的简易计算器功能示例
2017/08/23 Python
基于anaconda下强大的conda命令介绍
2018/06/11 Python
Python将文本去空格并保存到txt文件中的实例
2018/07/24 Python
pandas把所有大于0的数设置为1的方法
2019/01/26 Python
Python for循环通过序列索引迭代过程解析
2020/02/07 Python
Python HTMLTestRunner如何下载生成报告
2020/09/04 Python
css3.0 图形构成实例练习二
2013/03/19 HTML / CSS
css3实现简单的白云飘动背景特效
2020/10/28 HTML / CSS
使用CSS3制作版头动画效果
2020/12/24 HTML / CSS
VELTRA台湾:世界自由行专家
2017/08/15 全球购物
英国最受欢迎的价格比较网站之一:MoneySuperMarket
2018/12/19 全球购物
weblogic面试题
2016/03/07 面试题
党课培训主持词
2014/04/01 职场文书
《果园机器人》教学反思
2014/04/13 职场文书
协议书范本
2014/04/23 职场文书
法学专业求职信范文
2015/03/19 职场文书
保护动物的宣传语
2015/07/13 职场文书