Python正则表达式匹配HTML页面编码


Posted in Python onApril 08, 2015

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'
Python 相关文章推荐
python 解析html之BeautifulSoup
Jul 07 Python
在Django框架中运行Python应用全攻略
Jul 17 Python
python实现n个数中选出m个数的方法
Nov 13 Python
解决python测试opencv时imread导致的错误问题
Jan 26 Python
详解Python的三种可变参数
May 08 Python
Python使用lambda表达式对字典排序操作示例
Jul 25 Python
Python解析命令行读取参数之argparse模块
Jul 26 Python
python利用tkinter实现屏保
Jul 30 Python
解决Jupyter Notebook开始菜单栏Anaconda下消失的问题
Apr 13 Python
使用Python项目生成所有依赖包的清单方式
Jul 13 Python
Win10下配置tensorflow-gpu的详细教程(无VS2015/2017)
Jul 14 Python
Python集合的基础操作
Nov 01 Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
Python中实现对Timestamp和Datetime及UTC时间之间的转换
Apr 08 #Python
python模块之StringIO使用示例
Apr 08 #Python
Python StringIO模块实现在内存缓冲区中读写数据
Apr 08 #Python
Python实现的简单文件传输服务器和客户端
Apr 08 #Python
You might like
关于PHP递归算法和应用方法介绍
2013/04/15 PHP
php中addslashes函数与sql防注入
2014/11/17 PHP
php判断手机浏览还是web浏览,并执行相应的动作简单实例
2016/07/28 PHP
Laravel框架实现model层的增删改查(CURD)操作示例
2018/05/12 PHP
PHP date_default_timezone_set()设置时区操作实例分析
2020/05/16 PHP
jqGrid日期格式的判断示例代码(开始日期与结束日期)
2013/11/08 Javascript
js限制input标签中只能输入中文
2015/06/26 Javascript
jQuery对checkbox 复选框的全选全不选反选的操作
2016/08/09 Javascript
js模态对话框使用方法详解
2017/02/16 Javascript
jquery仿ps颜色拾取功能
2017/03/08 Javascript
Javascript实现base64的加密解密方法示例
2017/06/27 Javascript
Vue之Watcher源码解析(1)
2017/07/19 Javascript
Vue实现PopupWindow组件详解
2018/04/28 Javascript
JavaScript循环遍历你会用哪些之小结篇
2018/09/28 Javascript
vue双向绑定及观察者模式详解
2019/03/19 Javascript
vue将后台数据时间戳转换成日期格式
2019/07/31 Javascript
使用zrender.js绘制体温单效果
2019/10/31 Javascript
[04:23]DOTA2上海特锦赛小组赛第一日 TOP10精彩集锦
2016/02/27 DOTA
python获取豆瓣电影简介代码分享
2014/01/16 Python
利用python代码写的12306订票代码
2015/12/20 Python
深入浅析Python中join 和 split详解(推荐)
2016/06/30 Python
python 实现红包随机生成算法的简单实例
2017/01/04 Python
Python_LDA实现方法详解
2017/10/25 Python
详解Python 4.0 预计推出的新功能
2019/07/26 Python
python每天定时运行某程序代码
2019/08/16 Python
使用 django orm 写 exists 条件过滤实例
2020/05/20 Python
Python基于locals返回作用域字典
2020/10/17 Python
举例讲解Python装饰器
2020/12/24 Python
HTML5声音录制/播放功能的实现代码
2018/05/03 HTML / CSS
html svg生成环形进度条的实现方法
2019/09/23 HTML / CSS
wedgwood加拿大官网:1759年成立的英国国宝级陶瓷餐具品牌
2018/07/17 全球购物
管事部库房保管员岗位职责
2014/02/21 职场文书
技校毕业生自荐信
2014/06/03 职场文书
党的群众路线教育实践活动个人对照检查材料(四风)
2014/11/05 职场文书
户外活动总结
2015/02/04 职场文书
springboot+zookeeper实现分布式锁
2022/03/21 Java/Android