Python正则表达式匹配HTML页面编码


Posted in Python onApril 08, 2015

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'
Python 相关文章推荐
Python中编写ORM框架的入门指引
Apr 29 Python
Python多线程实现同步的四种方式
May 02 Python
Python实现获取磁盘剩余空间的2种方法
Jun 07 Python
Python OpenCV处理图像之滤镜和图像运算
Jul 10 Python
python爬虫超时的处理的实例
Dec 19 Python
使用python批量化音乐文件格式转换的实例
Jan 09 Python
python实现剪切功能
Jan 23 Python
详解使用python绘制混淆矩阵(confusion_matrix)
Jul 14 Python
python在OpenCV里实现投影变换效果
Aug 30 Python
python lambda表达式(匿名函数)写法解析
Sep 16 Python
python -v 报错问题的解决方法
Sep 15 Python
python实现学生信息管理系统(面向对象)
Jun 05 Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
Python中实现对Timestamp和Datetime及UTC时间之间的转换
Apr 08 #Python
python模块之StringIO使用示例
Apr 08 #Python
Python StringIO模块实现在内存缓冲区中读写数据
Apr 08 #Python
Python实现的简单文件传输服务器和客户端
Apr 08 #Python
You might like
PHP安装攻略:常见问题解答(一)
2006/10/09 PHP
简单的方法让你的后台登录更加安全(php中加session验证)
2012/08/22 PHP
使用php判断浏览器的类型和语言的函数代码
2013/02/28 PHP
PHP小技巧之函数重载
2014/06/02 PHP
[原创]php简单隔行变色功能实现代码
2016/07/09 PHP
php中二分法查找算法实例分析
2016/09/22 PHP
JavaScript 基础知识 被自己遗忘的
2009/10/15 Javascript
javascript prototype原型操作笔记
2009/12/07 Javascript
jQeury淡入淡出需要注意的问题
2010/09/08 Javascript
JavaScript中的Primitive对象封装介绍
2014/12/31 Javascript
JavaScript DOM事件(笔记)
2015/04/08 Javascript
PageSwitch插件实现100种不同图片切换效果
2015/07/28 Javascript
jquery自定义表格样式
2015/11/23 Javascript
不能不知道的10个angularjs英文学习网站
2016/03/23 Javascript
原生js实现回复评论功能
2017/01/18 Javascript
vue视图不更新情况详解
2019/05/16 Javascript
javascript合并两个数组最简单的实现方法
2019/09/14 Javascript
微信小程序点击顶部导航栏切换样式代码实例
2019/11/12 Javascript
微信小程序利用云函数获取手机号码
2019/12/17 Javascript
js实现盒子拖拽动画效果
2020/08/09 Javascript
一个检测OpenSSL心脏出血漏洞的Python脚本分享
2014/04/10 Python
Python基于twisted实现简单的web服务器
2014/09/29 Python
分析python动态规划的递归、非递归实现
2018/03/04 Python
Python 元类实例解析
2018/04/04 Python
基于python的socket实现单机五子棋到双人对战
2020/03/24 Python
postman传递当前时间戳实例详解
2019/09/14 Python
python argparse模块通过后台传递参数实例
2020/04/20 Python
Opencv图像处理:如何判断图片里某个颜色值占的比例
2020/06/03 Python
全球精选男装和家居用品:Article
2020/04/13 全球购物
成教自我鉴定
2013/10/27 职场文书
春季防火方案
2014/05/10 职场文书
2015年小学中秋节活动总结
2015/03/23 职场文书
2015年党总支工作总结
2015/05/25 职场文书
创业者如何撰写出一份打动投资人的商业计划书?
2019/07/02 职场文书
分享7个 Python 实战项目练习
2022/03/03 Python
MutationObserver在页面水印实现起到的作用详解
2022/07/07 Javascript