Python正则表达式匹配HTML页面编码


Posted in Python onApril 08, 2015

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'
Python 相关文章推荐
python中split方法用法分析
Apr 17 Python
Python+OpenCV感兴趣区域ROI提取方法
Jan 10 Python
python安装scipy的方法步骤
Jun 26 Python
python读取tif图片时保留其16bit的编码格式实例
Jan 13 Python
python使用html2text库实现从HTML转markdown的方法详解
Feb 21 Python
Pandas时间序列基础详解(转换,索引,切片)
Feb 26 Python
pycharm如何实现跨目录调用文件
Feb 28 Python
python tkinter之 复选、文本、下拉的实现
Mar 04 Python
解决Jupyter notebook更换主题工具栏被隐藏及添加目录生成插件问题
Apr 20 Python
pycharm 2020 1.1的安装流程
Sep 29 Python
Python turtle实现贪吃蛇游戏
Jun 18 Python
Flask使用SQLAlchemy实现持久化数据
Jul 16 Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
Python中实现对Timestamp和Datetime及UTC时间之间的转换
Apr 08 #Python
python模块之StringIO使用示例
Apr 08 #Python
Python StringIO模块实现在内存缓冲区中读写数据
Apr 08 #Python
Python实现的简单文件传输服务器和客户端
Apr 08 #Python
You might like
php下通过伪造http头破解防盗链的代码
2010/07/03 PHP
destoon文章模块调用企业会员资料的方法
2014/08/22 PHP
ThinkPHP中RBAC类的四种用法分析
2014/11/24 PHP
PHP类相关知识点实例总结
2016/09/28 PHP
Thinkphp极验滑动验证码实现步骤解析
2020/11/24 PHP
jQuery Tools tooltip使用说明
2012/07/14 Javascript
jQuery点击tr实现checkbox选中的方法
2013/03/19 Javascript
jQuery选择器全面总结
2014/01/06 Javascript
js获取url中的参数且参数为中文时通过js解码
2014/03/19 Javascript
javascript原生和jquery库实现iframe自适应高度和宽度
2014/07/18 Javascript
jQuery中die()方法用法实例
2015/01/19 Javascript
JavaScript实现点击自动选择TextArea文本的方法
2015/07/02 Javascript
jQuery实现Meizu魅族官方网站的导航菜单效果
2015/09/14 Javascript
jQuery实现图片上传和裁剪插件Croppie
2015/11/29 Javascript
搞定immutable.js详细说明
2016/05/02 Javascript
JavaScript遍历求解数独问题的主要思路小结
2016/06/12 Javascript
javascript回到顶部特效
2016/07/30 Javascript
jQuery表格(Table)基本操作实例分析
2017/03/10 Javascript
ES6新特性之数组、Math和扩展操作符用法示例
2017/04/01 Javascript
python检测lvs real server状态
2014/01/22 Python
python实现逆波兰计算表达式实例详解
2015/05/06 Python
Python+Opencv识别两张相似图片
2020/03/23 Python
python区分不同数据类型的方法
2019/10/14 Python
修改Pandas的行或列的名字(重命名)
2019/12/18 Python
torch 中各种图像格式转换的实现方法
2019/12/26 Python
Python基于字典实现switch case函数调用
2020/07/22 Python
python 对象真假值的实例(哪些视为False)
2020/12/11 Python
利用Python实现自动扫雷小脚本
2020/12/17 Python
快速一键生成Python爬虫请求头
2021/03/04 Python
HTML页面中添加Canvas标签示例
2015/01/01 HTML / CSS
用C语言实现文件读写操作
2013/10/27 面试题
jQuery treeview树形结构应用
2021/03/24 jQuery
工程力学专业自荐信范文
2014/03/17 职场文书
《卖木雕的少年》教学反思
2014/04/11 职场文书
颐和园导游词
2015/01/30 职场文书
新闻稿格式范文
2015/07/18 职场文书