Python正则表达式匹配HTML页面编码


Posted in Python onApril 08, 2015

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'
Python 相关文章推荐
使用python搭建Django应用程序步骤及版本冲突问题解决
Nov 19 Python
举例讲解Django中数据模型访问外键值的方法
Jul 21 Python
Python实现注册登录系统
Aug 08 Python
在scrapy中使用phantomJS实现异步爬取的方法
Dec 17 Python
pytorch中的卷积和池化计算方式详解
Jan 03 Python
使用pytorch完成kaggle猫狗图像识别方式
Jan 10 Python
python新手学习使用库
Jun 11 Python
keras实现图像预处理并生成一个generator的案例
Jun 17 Python
深入了解Python 方法之类方法 &amp; 静态方法
Aug 17 Python
Python 连接 MySQL 的几种方法
Sep 09 Python
Python3 + Appium + 安卓模拟器实现APP自动化测试并生成测试报告
Jan 27 Python
linux系统下pip升级报错的解决方法
Jan 31 Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
Python中实现对Timestamp和Datetime及UTC时间之间的转换
Apr 08 #Python
python模块之StringIO使用示例
Apr 08 #Python
Python StringIO模块实现在内存缓冲区中读写数据
Apr 08 #Python
Python实现的简单文件传输服务器和客户端
Apr 08 #Python
You might like
Banner程序
2006/10/09 PHP
VSCode+PHPstudy配置PHP开发环境的步骤详解
2020/08/20 PHP
Ajax,UTF-8还是GB2312 eval 还是execScript
2008/11/13 Javascript
ASP.NET jQuery 实例1(在TextBox里面创建一个默认提示)
2012/01/13 Javascript
Js中的onblur和onfocus事件应用介绍
2013/08/27 Javascript
jQuery对html元素取值与赋值的方法
2013/11/20 Javascript
解决jquery插件冲突的问题
2014/01/23 Javascript
jQuery+ajax中getJSON() 用法实例
2014/12/22 Javascript
Jquery轮播效果实现过程解析
2016/03/30 Javascript
jQuery Mobile页面返回不需要重新get
2016/04/26 Javascript
关于动态执行代码(js的Eval)实例详解
2016/08/15 Javascript
JavaScript中Number对象的toFixed() 方法详解
2016/09/02 Javascript
jQuery判断是否存在滚动条的简单方法
2016/09/17 Javascript
JS删除数组里的某个元素方法
2018/02/03 Javascript
Vue 页面状态保持页面间数据传输的一种方法(推荐)
2018/11/01 Javascript
angular 用Observable实现异步调用的方法
2018/12/27 Javascript
浅谈JS和jQuery的区别
2019/03/27 jQuery
vue根据条件不同显示不同按钮的操作
2020/08/04 Javascript
[47:20]DAC2018 4.4 淘汰赛 Optic vs Mineski 第一场
2018/04/05 DOTA
[59:42]Secret vs Alliacne 2019国际邀请赛小组赛 BO2 第一场 8.15
2019/08/17 DOTA
[00:43]魔廷新尊——痛苦女王至宝捆绑包
2020/06/12 DOTA
python的urllib模块显示下载进度示例
2014/01/17 Python
Python操作配置文件ini的三种方法讲解
2019/02/22 Python
python解压TAR文件至指定文件夹的实例
2019/06/10 Python
python 使用socket传输图片视频等文件的实现方式
2019/08/07 Python
HTML5 Canvas基本线条绘制的实例教程
2016/03/17 HTML / CSS
美国鞋类购物网站:Shiekh Shoes
2016/08/21 全球购物
在线购买廉价折扣书籍和小说:BookOutlet.com
2018/02/19 全球购物
开办大学饮食联盟创业计划书
2014/01/29 职场文书
毕业生大学生活自我总结
2014/01/31 职场文书
总裁助理岗位职责
2014/02/17 职场文书
《红军不怕远征难》教学反思
2014/04/14 职场文书
和解协议书
2014/04/16 职场文书
python树莓派通过队列实现进程交互的程序分析
2021/07/04 Python
详解Android中的TimePickerView(时间选择器)的用法
2022/04/30 Java/Android
多线程Spring通过@Scheduled实现定时任务
2022/05/25 Java/Android