编程 Python

Python正则表达式匹配HTML页面编码

Posted in Python onApril 08, 2015

html页面一般都会指定一个编码，如何获取到是处理html页面的第一步，因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个：

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'

- Author -

junjie

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用python搭建Django应用程序步骤及版本冲突问题解决

Nov 19 Python

举例讲解Django中数据模型访问外键值的方法

Jul 21 Python

Python实现注册登录系统

Aug 08 Python

在scrapy中使用phantomJS实现异步爬取的方法

Dec 17 Python

pytorch中的卷积和池化计算方式详解

Jan 03 Python

使用pytorch完成kaggle猫狗图像识别方式

Jan 10 Python

python新手学习使用库

Jun 11 Python

keras实现图像预处理并生成一个generator的案例

Jun 17 Python

深入了解Python 方法之类方法 & 静态方法

Aug 17 Python

Python 连接 MySQL 的几种方法

Sep 09 Python

Python3 + Appium + 安卓模拟器实现APP自动化测试并生成测试报告

Jan 27 Python

linux系统下pip升级报错的解决方法

Jan 31 Python

在Python中关于中文编码问题的处理建议

Apr 08 #Python

Python脚本实现格式化css文件

Apr 08 #Python

Python实现获取操作系统版本信息方法

Apr 08 #Python

Python中实现对Timestamp和Datetime及UTC时间之间的转换

Apr 08 #Python

python模块之StringIO使用示例

Apr 08 #Python

Python StringIO模块实现在内存缓冲区中读写数据

Apr 08 #Python

Python实现的简单文件传输服务器和客户端

Apr 08 #Python

You might like

Banner程序

2006/10/09 PHP

VSCode+PHPstudy配置PHP开发环境的步骤详解

2020/08/20 PHP

Ajax，UTF-8还是GB2312 eval 还是execScript

2008/11/13 Javascript

ASP.NET jQuery 实例1(在TextBox里面创建一个默认提示)

2012/01/13 Javascript

Js中的onblur和onfocus事件应用介绍

2013/08/27 Javascript

jQuery对html元素取值与赋值的方法

2013/11/20 Javascript

解决jquery插件冲突的问题

2014/01/23 Javascript

jQuery+ajax中getJSON() 用法实例

2014/12/22 Javascript

Jquery轮播效果实现过程解析

2016/03/30 Javascript

jQuery Mobile页面返回不需要重新get

2016/04/26 Javascript

关于动态执行代码(js的Eval)实例详解

2016/08/15 Javascript

JavaScript中Number对象的toFixed() 方法详解

2016/09/02 Javascript

jQuery判断是否存在滚动条的简单方法

2016/09/17 Javascript

JS删除数组里的某个元素方法

2018/02/03 Javascript

Vue 页面状态保持页面间数据传输的一种方法(推荐)

2018/11/01 Javascript

angular 用Observable实现异步调用的方法

2018/12/27 Javascript

浅谈JS和jQuery的区别

2019/03/27 jQuery

vue根据条件不同显示不同按钮的操作

2020/08/04 Javascript

[47:20]DAC2018 4.4 淘汰赛 Optic vs Mineski 第一场

2018/04/05 DOTA

[59:42]Secret vs Alliacne 2019国际邀请赛小组赛 BO2 第一场 8.15

2019/08/17 DOTA

[00:43]魔廷新尊——痛苦女王至宝捆绑包

2020/06/12 DOTA

python的urllib模块显示下载进度示例

2014/01/17 Python

Python操作配置文件ini的三种方法讲解

2019/02/22 Python

python解压TAR文件至指定文件夹的实例

2019/06/10 Python

python 使用socket传输图片视频等文件的实现方式

2019/08/07 Python

HTML5 Canvas基本线条绘制的实例教程

2016/03/17 HTML / CSS

美国鞋类购物网站：Shiekh Shoes

2016/08/21 全球购物

在线购买廉价折扣书籍和小说：BookOutlet.com

2018/02/19 全球购物

开办大学饮食联盟创业计划书

2014/01/29 职场文书

毕业生大学生活自我总结

2014/01/31 职场文书

总裁助理岗位职责

2014/02/17 职场文书

《红军不怕远征难》教学反思

2014/04/14 职场文书

和解协议书

2014/04/16 职场文书

python树莓派通过队列实现进程交互的程序分析

2021/07/04 Python

详解Android中的TimePickerView(时间选择器)的用法

2022/04/30 Java/Android

多线程Spring通过@Scheduled实现定时任务

2022/05/25 Java/Android