Python正则表达式匹配HTML页面编码


Posted in Python onApril 08, 2015

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'
Python 相关文章推荐
Python实现把utf-8格式的文件转换成gbk格式的文件
Jan 22 Python
通过Python来使用七牛云存储的方法详解
Aug 07 Python
Python中实现switch功能实例解析
Jan 11 Python
python如何修改装饰器中参数
Mar 20 Python
Python带动态参数功能的sqlite工具类
May 26 Python
python 列表降维的实例讲解
Jun 28 Python
使用Python实现一个栈判断括号是否平衡
Aug 23 Python
Python之NumPy(axis=0 与axis=1)区分详解
May 27 Python
Python matplotlib以日期为x轴作图代码实例
Nov 22 Python
parser.add_argument中的action使用
Apr 20 Python
pandas的resample重采样的使用
Apr 24 Python
python db类用法说明
Jul 07 Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
Python中实现对Timestamp和Datetime及UTC时间之间的转换
Apr 08 #Python
python模块之StringIO使用示例
Apr 08 #Python
Python StringIO模块实现在内存缓冲区中读写数据
Apr 08 #Python
Python实现的简单文件传输服务器和客户端
Apr 08 #Python
You might like
PHP人民币金额数字转中文大写的函数代码
2013/02/27 PHP
php微信公众平台交互与接口详解
2016/11/28 PHP
自制PHP框架之路由与控制器
2017/05/07 PHP
jquery eval解析JSON中的注意点介绍
2013/08/23 Javascript
js跑步算法的实现代码
2013/12/04 Javascript
JS实现控制表格行文本对齐的方法
2015/03/30 Javascript
JQuery显示隐藏页面元素的方法总结
2015/04/16 Javascript
javascript中alert()与console.log()的区别
2015/08/26 Javascript
js强制把网址设为默认首页
2015/09/29 Javascript
深入探秘jquery瀑布流的实现
2016/01/30 Javascript
文本框只能输入数字的实现方法(兼容IE火狐)
2016/06/25 Javascript
微信小程序 页面跳转传参详解
2016/10/28 Javascript
使用Javascript判断浏览器终端设备(PC、IOS(iphone)、Android)
2017/01/04 Javascript
jQuery插件HighCharts绘制2D圆环图效果示例【附demo源码下载】
2017/03/09 Javascript
JS得到当前时间的方法示例
2017/03/24 Javascript
Angular.js中下拉框实现渲染html的方法
2017/06/18 Javascript
详解React开发必不可少的eslint配置
2018/02/05 Javascript
vue-infinite-loading2.0 中文文档详解
2018/04/08 Javascript
iview Upload组件多个文件上传的示例代码
2018/09/30 Javascript
小试SVG之新手小白入门教程
2019/01/08 Javascript
详解小程序设置缓存并且不覆盖原有数据
2019/04/15 Javascript
Vue项目前后端联调(使用proxyTable实现跨域方式)
2020/07/18 Javascript
微信小程序实现点击导航条切换页面
2020/11/19 Javascript
[01:33]一分钟玩转DOTA2第三弹:DOTA2&DotA快捷操作大对比
2014/06/04 DOTA
[02:30]联想杯DOTA2完美世界全国高校联赛—北京站现场
2015/11/16 DOTA
Python SQLite3数据库操作类分享
2014/06/10 Python
Python深入学习之上下文管理器
2014/08/31 Python
python利用urllib实现爬取京东网站商品图片的爬虫实例
2017/08/24 Python
人脸识别经典算法一 特征脸方法(Eigenface)
2018/03/13 Python
python pycurl验证basic和digest认证的方法
2018/05/02 Python
Python图像处理库PIL的ImageDraw模块介绍详解
2020/02/26 Python
vue常用指令代码实例总结
2020/03/16 Python
门卫岗位职责
2013/11/15 职场文书
查环查孕证明
2014/01/10 职场文书
离婚协议书应该怎么写
2014/10/12 职场文书
python数字图像处理数据类型及颜色空间转换
2022/06/28 Python