Python正则表达式匹配HTML页面编码


Posted in Python onApril 08, 2015

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'
Python 相关文章推荐
Python实现类继承实例
Jul 04 Python
Python写的Socks5协议代理服务器
Aug 06 Python
python中尾递归用法实例详解
Apr 28 Python
在Python中处理字符串之isdecimal()方法的使用
May 20 Python
python机器学习之决策树分类详解
Dec 20 Python
python中的常量和变量代码详解
Jul 25 Python
对python 生成拼接xml报文的示例详解
Dec 28 Python
Python两个字典键同值相加的几种方法
Mar 05 Python
Python使用统计函数绘制简单图形实例代码
May 15 Python
tensorflow生成多个tfrecord文件实例
Feb 17 Python
浅析Python 条件控制语句
Jul 15 Python
Pytorch中Softmax和LogSoftmax的使用详解
Jun 05 Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
Python中实现对Timestamp和Datetime及UTC时间之间的转换
Apr 08 #Python
python模块之StringIO使用示例
Apr 08 #Python
Python StringIO模块实现在内存缓冲区中读写数据
Apr 08 #Python
Python实现的简单文件传输服务器和客户端
Apr 08 #Python
You might like
东芝TOSHIBA RP-F11电路分析
2021/03/02 无线电
php使用sql server验证连接数据库的方法
2014/12/25 PHP
PHP微信开发之文本自动回复
2016/06/23 PHP
php使用curl模拟浏览器表单上传文件或者图片的方法
2018/11/10 PHP
toString()一个会自动调用的方法
2010/02/08 Javascript
javascript对talbe进行动态添加、删除、验证实现代码
2012/03/29 Javascript
JavaScript 判断浏览器是否支持SVG的代码
2013/03/21 Javascript
javascript变量作用域使用中常见错误总结
2013/03/26 Javascript
Jquery实现图片左右自动滚动示例
2013/09/25 Javascript
实现动画效果核心方式的js代码
2013/09/27 Javascript
javascript对象的使用和属性操作示例详解
2014/03/02 Javascript
Javascript基础之数组的使用
2016/05/13 Javascript
AngularJS基础 ng-copy 指令实例代码
2016/08/01 Javascript
js实现HashTable(哈希表)的实例分析
2016/11/21 Javascript
js-FCC算法-No repeats please字符串的全排列(详解)
2017/05/02 Javascript
React Native AsyncStorage本地存储工具类
2017/10/24 Javascript
Vue利用canvas实现移动端手写板的方法
2018/05/03 Javascript
Vue中父子组件通讯之todolist组件功能开发
2018/05/21 Javascript
微信小程序自定义组件的实现方法及自定义组件与页面间的数据传递问题
2018/10/09 Javascript
vue实现微信分享功能
2018/11/28 Javascript
vue 详情跳转至列表页实现列表页缓存
2019/03/27 Javascript
微信小程序合法域名配置方法
2019/05/06 Javascript
vue 路由缓存 路由嵌套 路由守卫 监听物理返回操作
2020/08/06 Javascript
python日期时间转为字符串或者格式化输出的实例
2018/05/29 Python
浅谈Python2、Python3相对路径、绝对路径导入方法
2018/06/22 Python
django从请求到响应的过程深入讲解
2018/08/01 Python
Python3 翻转二叉树的实现
2019/09/30 Python
Python vtk读取并显示dicom文件示例
2020/01/13 Python
通过python-pptx模块操作ppt文件的方法
2020/12/26 Python
Canvas环形饼图与手势控制的实现代码
2019/11/08 HTML / CSS
电子信息专业学生自荐信
2013/11/09 职场文书
教师节促销方案
2014/03/22 职场文书
平安工地汇报材料
2014/08/19 职场文书
nginx网站服务如何配置防盗链(推荐)
2021/03/31 Servers
MySql分区类型及创建分区的方法
2022/04/13 MySQL
Android学习之BottomSheetDialog组件的使用
2022/06/21 Java/Android