Python正则表达式匹配HTML页面编码


Posted in Python onApril 08, 2015

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'
Python 相关文章推荐
探索Python3.4中新引入的asyncio模块
Apr 08 Python
在Django框架中编写Contact表单的教程
Jul 17 Python
浅析AST抽象语法树及Python代码实现
Jun 06 Python
Python使用Tkinter实现机器人走迷宫
Jan 22 Python
Python两个字典键同值相加的几种方法
Mar 05 Python
python分布式编程实现过程解析
Nov 08 Python
Django关于admin的使用技巧和知识点
Feb 10 Python
python设置环境变量的作用整理
Feb 17 Python
python利用opencv实现SIFT特征提取与匹配
Mar 05 Python
Python 去除字符串中指定字符串
Mar 05 Python
Python手拉手教你爬取贝壳房源数据的实战教程
May 21 Python
Python中requests库的用法详解
Jun 05 Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
Python中实现对Timestamp和Datetime及UTC时间之间的转换
Apr 08 #Python
python模块之StringIO使用示例
Apr 08 #Python
Python StringIO模块实现在内存缓冲区中读写数据
Apr 08 #Python
Python实现的简单文件传输服务器和客户端
Apr 08 #Python
You might like
深入理解PHP原理之异常机制
2010/08/21 PHP
php正则过滤html标签、空格、换行符的代码(附说明)
2010/10/25 PHP
php模拟post提交数据的方法
2015/02/12 PHP
AJAX的使用方法详解
2017/04/29 PHP
ThinkPHP5框架中使用JWT的方法示例
2020/06/03 PHP
JavaScript Timer实现代码
2010/02/17 Javascript
getElementByIdx_x js自定义getElementById函数
2012/01/24 Javascript
js控制容器隐藏出现防止样式变化的两种方法
2014/04/25 Javascript
jquery 重写 ajax提交并判断权限后 使用load方法报错解决方法
2016/01/19 Javascript
Javascript将数字转化成为货币格式字符串
2016/06/22 Javascript
分享javascript、jquery实用代码段
2016/10/20 Javascript
微信小程序 定义全局数据、函数复用、模版等详细介绍
2016/10/27 Javascript
js中new一个对象的过程
2017/02/20 Javascript
javascript 判断一个对象为数组的方法
2017/05/03 Javascript
Nodejs实现多房间简易聊天室功能
2017/06/20 NodeJs
分享19个JavaScript 有用的简写写法
2017/07/07 Javascript
bootstrap switch开关组件使用方法详解
2017/08/22 Javascript
解析Json字符串的三种方法日常常用
2018/05/02 Javascript
在小程序Canvas中使用measureText的方法示例
2018/10/19 Javascript
JS数据类型STRING使用实例解析
2019/12/18 Javascript
[57:16]2014 DOTA2华西杯精英邀请赛 5 25 LGD VS VG第二场
2014/05/26 DOTA
[42:35]2018DOTA2亚洲邀请赛3月30日 小组赛A组 VG VS OpTic
2018/03/31 DOTA
python读取json文件并将数据插入到mongodb的方法
2015/03/23 Python
TensorFlow搭建神经网络最佳实践
2018/03/09 Python
Python测试模块doctest使用解析
2019/08/10 Python
python求加权平均值的实例(附纯python写法)
2019/08/22 Python
jupyter notebook指定启动目录的方法
2021/03/02 Python
犹他州最古老的体育用品公司:Al’s
2020/12/18 全球购物
Penhaligon’s英国官网:成立于1870年的英国香水制造商
2021/02/18 全球购物
新闻学专业个人求职信写作
2014/02/04 职场文书
销售代理协议书
2014/09/30 职场文书
村主任“四风”问题个人整改措施
2014/10/04 职场文书
毕业横幅标语
2014/10/08 职场文书
办公室主任个人对照检查材料思想汇报
2014/10/11 职场文书
《亲亲我的妈妈》观后感(3篇)
2019/09/26 职场文书
Apache POI的基本使用详解
2021/11/07 Servers