Python正则表达式匹配HTML页面编码


Posted in Python onApril 08, 2015

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'
Python 相关文章推荐
打印出python 当前全局变量和入口参数的所有属性
Jul 01 Python
利用Python实现图书超期提醒
Aug 02 Python
Python常见格式化字符串方法小结【百分号与format方法】
Sep 18 Python
python扫描proxy并获取可用代理ip的实例
Aug 07 Python
Python简单实现网页内容抓取功能示例
Jun 07 Python
Flask框架Jinjia模板常用语法总结
Jul 19 Python
Python实现基于SVM的分类器的方法
Jul 19 Python
python3多线程知识点总结
Sep 26 Python
简单了解Python变量作用域正确使用方法
Jun 12 Python
python中常见错误及解决方法
Jun 21 Python
关于django python manage.py startapp 应用名出错异常原因解析
Dec 15 Python
python基础入门之字典和集合
Jun 13 Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
Python中实现对Timestamp和Datetime及UTC时间之间的转换
Apr 08 #Python
python模块之StringIO使用示例
Apr 08 #Python
Python StringIO模块实现在内存缓冲区中读写数据
Apr 08 #Python
Python实现的简单文件传输服务器和客户端
Apr 08 #Python
You might like
PHP检测移动设备类mobile detection使用实例
2014/04/14 PHP
PHP7下协程的实现方法详解
2017/12/17 PHP
JavaScript效率调优经验
2009/06/04 Javascript
js利用与或运算符优先级实现if else条件判断表达式
2010/04/15 Javascript
AJAX 网页保留浏览器前进后退等功能
2011/02/12 Javascript
JQUERY实现左侧TIPS滑进滑出效果示例
2013/06/27 Javascript
js之事件冒泡和事件捕获详细介绍
2013/10/28 Javascript
html文件中jquery与velocity变量中的$冲突的解决方法
2013/11/01 Javascript
jQuery获得内容和属性示例代码
2014/01/16 Javascript
jQuery中live()方法用法实例
2015/01/19 Javascript
Bootstrap每天必学之表格
2015/11/23 Javascript
理解javascript中try...catch...finally
2015/12/25 Javascript
一系列Bootstrap导航条使用方法分享
2016/04/29 Javascript
基于Bootstrap的后台管理面板 Bootstrap Metro Dashboard
2016/06/17 Javascript
微信小程序 POST请求(网络请求)详解及实例代码
2016/11/16 Javascript
利用canvas中toDataURL()将图片转为dataURL(base64)的方法详解
2017/11/20 Javascript
Javascript实现运算符重载详解
2018/04/07 Javascript
Webstorm2016使用技巧(SVN插件使用)
2018/10/29 Javascript
JS实现的全选、全不选及反选功能【案例】
2019/02/19 Javascript
Vuex实现数据增加和删除功能
2019/11/11 Javascript
Python中数字以及算数运算符的相关使用
2015/10/12 Python
Python sqlite3事务处理方法实例分析
2017/06/19 Python
python抽取指定url页面的title方法
2018/05/11 Python
详解Python self 参数
2019/08/30 Python
浅谈PyTorch中in-place operation的含义
2020/06/27 Python
深入浅析css3 中display box使用方法
2015/11/25 HTML / CSS
中邮全球便购:中国邮政速递物流
2017/03/04 全球购物
英国标准协会商店:BSI Shop
2019/02/25 全球购物
Vans澳大利亚官网:购买鞋子、服装及配件
2019/09/05 全球购物
幼师专业求职推荐信
2013/11/08 职场文书
销售工作岗位职责
2013/12/24 职场文书
财务担保书范文
2014/04/02 职场文书
十佳好少年事迹材料
2014/08/21 职场文书
大学学习委员竞选稿
2015/11/20 职场文书
请学会珍惜眼前,因为人生没有下辈子!
2019/11/12 职场文书
利用Python+OpenCV三步去除水印
2021/05/28 Python