PHP 修复未正常关闭的HTML标签实现代码(支持嵌套和就近闭合)


Posted in PHP onJune 07, 2012

fixHtmlTag
version 0.2
这个版本解决了上次遗留的问题,即就近闭合和嵌套闭合问题。具体可以看代码的注释。

<?php /** 
* fixHtmlTag 
* 
* HTML标签修复函数,此函数可以修复未正确闭合的 HTML 标签 
* 
* 由于不确定性因素太多,暂时提供两种模式“嵌套闭合模式”和 
* “就近闭合模式”,应该够用了。 
* 
* 这两种模式是我为了解释清楚此函数的实现而创造的两个名词, 
* 只需明白什么意思就行。 
* 1,嵌套闭合模式,NEST,为默认的闭合方式。即 "<body><div>你好" 
* 这样的 html 代码会被修改为 "<body><div>你好</div></body>" 
* 2,就近闭合模式,CLOSE,这种模式会将形如 "<p>你好<p>为什么没有 
* 闭合呢" 的代码修改为 "<p>你好</p><p>为什么没有闭合呢</p>" 
* 
* 在嵌套闭合模式(默认,无需特殊传参)下,可以传入需要就近闭合的 
* 标签名,通过这种方式将类似 "<body><p>你好</p><p>我也好" 转换为 
* "<body><p>你好</p><p>我也好</p></body>"的形式。 
* 传参时索引需要按照如下方式写,不需要修改的设置可以省略 
* 
* $param = array( 
* 'html' => '', //必填 
* 'options' => array( 
* 'tagArray' => array(); 
* 'type' => 'NEST', 
* 'length' => null, 
* 'lowerTag' => TRUE, 
* 'XHtmlFix' => TRUE, 
* ) 
* ); 
* fixHtmlTag($param); 
* 
* 上面索引对应的值含义如下 
* string $html 需要修改的 html 代码 
* array $tagArray 当为嵌套模式时,需要就近闭合的标签数组 
* string $type 模式名,目前支持 NEST 和 CLOSE 两种模式,如果设置为 CLOSE,将会忽略参数 $tagArray 的设置,而全部就近闭合所有标签 
* ini $length 如果希望截断一定长度,可以在此赋值,此长度指的是字符串长度 
* bool $lowerTag 是否将代码中的标签全部转换为小写,默认为 TRUE 
* bool $XHtmlFix 是否处理不符合 XHTML 规范的标签,即将 <br> 转换为 <br /> 
* 
* @author IT不倒翁 <itbudaoweng@gmail.com> 
* @version 0.2 
* @link http://yungbo.com IT不倒翁 
* @link http://enenba.com/?post=19 某某 
* @param array $param 数组参数,需要赋予特定的索引 
* @return string $result 经过处理后的 html 代码 
* @since 2012-04-14 
*/ 
function fixHtmlTag($param = array()) { 
//参数的默认值 
$html = ''; 
$tagArray = array(); 
$type = 'NEST'; 
$length = null; 
$lowerTag = TRUE; 
$XHtmlFix = TRUE; 
//首先获取一维数组,即 $html 和 $options (如果提供了参数) 
extract($param); 
//如果存在 options,提取相关变量 
if (isset($options)) { 
extract($options); 
} 
$result = ''; //最终要返回的 html 代码 
$tagStack = array(); //标签栈,用 array_push() 和 array_pop() 模拟实现 
$contents = array(); //用来存放 html 标签 
$len = 0; //字符串的初始长度 
//设置闭合标记 $isClosed,默认为 TRUE, 如果需要就近闭合,成功匹配开始标签后其值为 false,成功闭合后为 true 
$isClosed = true; 
//将要处理的标签全部转为小写 
$tagArray = array_map('strtolower', $tagArray); 
//“合法”的单闭合标签 
$singleTagArray = array( 
'<meta', 
'<link', 
'<base', 
'<br', 
'<hr', 
'<input', 
'<img' 
); 
//校验匹配模式 $type,默认为 NEST 模式 
$type = strtoupper($type); 
if (!in_array($type, array('NEST', 'CLOSE'))) { 
$type = 'NEST'; 
} 
//以一对 < 和 > 为分隔符,将原 html 标签和标签内的字符串放到数组中 
$contents = preg_split("/(<[^>]+?>)/si", $html, -1, PREG_SPLIT_NO_EMPTY | PREG_SPLIT_DELIM_CAPTURE); 
foreach ($contents as $tag) { 
if ('' == trim($tag)) { 
$result .= $tag; 
continue; 
} 
//匹配标准的单闭合标签,如<br /> 
if (preg_match("/<(\w+)[^\/>]*?\/>/si", $tag)) { 
$result .= $tag; 
continue; 
} 
//匹配开始标签,如果是单标签则出栈 
else if (preg_match("/<(\w+)[^\/>]*?>/si", $tag, $match)) { 
//如果上一个标签没有闭合,并且上一个标签属于就近闭合类型 
//则闭合之,上一个标签出栈 
//如果标签未闭合 
if (false === $isClosed) { 
//就近闭合模式,直接就近闭合所有的标签 
if ('CLOSE' == $type) { 
$result .= '</' . end($tagStack) . '>'; 
array_pop($tagStack); 
} 
//默认的嵌套模式,就近闭合参数提供的标签 
else { 
if (in_array(end($tagStack), $tagArray)) { 
$result .= '</' . end($tagStack) . '>'; 
array_pop($tagStack); 
} 
} 
} 
//如果参数 $lowerTag 为 TRUE 则将标签名转为小写 
$matchLower = $lowerTag == TRUE ? strtolower($match[1]) : $match[1]; 
$tag = str_replace('<' . $match[1], '<' . $matchLower, $tag); 
//开始新的标签组合 
$result .= $tag; 
array_push($tagStack, $matchLower); 
//如果属于约定的的单标签,则闭合之并出栈 
foreach ($singleTagArray as $singleTag) { 
if (stripos($tag, $singleTag) !== false) { 
if ($XHtmlFix == TRUE) { 
$tag = str_replace('>', ' />', $tag); 
} 
array_pop($tagStack); 
} 
} 
//就近闭合模式,状态变为未闭合 
if ('CLOSE' == $type) { 
$isClosed = false; 
} 
//默认的嵌套模式,如果标签位于提供的 $tagArray 里,状态改为未闭合 
else { 
if (in_array($matchLower, $tagArray)) { 
$isClosed = false; 
} 
} 
unset($matchLower); 
} 
//匹配闭合标签,如果合适则出栈 
else if (preg_match("/<\/(\w+)[^\/>]*?>/si", $tag, $match)) { 
//如果参数 $lowerTag 为 TRUE 则将标签名转为小写 
$matchLower = $lowerTag == TRUE ? strtolower($match[1]) : $match[1]; 
if (end($tagStack) == $matchLower) { 
$isClosed = true; //匹配完成,标签闭合 
$tag = str_replace('</' . $match[1], '</' . $matchLower, $tag); 
$result .= $tag; 
array_pop($tagStack); 
} 
unset($matchLower); 
} 
//匹配注释,直接连接 $result 
else if (preg_match("/<!--.*?-->/si", $tag)) { 
$result .= $tag; 
} 
//将字符串放入 $result ,顺便做下截断操作 
else { 
if (is_null($length) || $len + mb_strlen($tag) < $length) { 
$result .= $tag; 
$len += mb_strlen($tag); 
} else { 
$str = mb_substr($tag, 0, $length - $len + 1); 
$result .= $str; 
break; 
} 
} 
} 
//如果还有将栈内的未闭合的标签连接到 $result 
while (!empty($tagStack)) { 
$result .= '</' . array_pop($tagStack) . '>'; 
} 
return $result; 
}
PHP 相关文章推荐
WML,Apache,和 PHP 的介绍
Oct 09 PHP
php学习之简单计算器实现代码
Jun 09 PHP
php环境配置之CGI、FastCGI、PHP-CGI、PHP-FPM、Spawn-FCGI比较?
Oct 17 PHP
一个PHP的QRcode类与大家分享
Nov 13 PHP
利用PHP+JS实现搜索自动提示(实例)
Jun 09 PHP
php的ddos攻击解决方法
Jan 08 PHP
smarty内置函数{loteral}、{ldelim}和{rdelim}用法实例
Jan 22 PHP
php猴子选大王问题解决方法
May 12 PHP
Laravel 5.3 学习笔记之 配置
Aug 28 PHP
php封装的单文件(图片)上传类完整实例
Oct 18 PHP
修改yii2.0用户登录使用的user表为其它的表实现方法(推荐)
Aug 01 PHP
PHP设计模式之工厂模式实例总结
Sep 01 PHP
PHP 文本文章分页代码 按标记或长度(不涉及数据库)
Jun 07 #PHP
PHP 查找字符串常用函数介绍
Jun 07 #PHP
php中通过curl smtp发送邮件
Jun 05 #PHP
Smarty的配置与高级缓存技术分享
Jun 05 #PHP
PHP Parse Error: syntax error, unexpected $end 错误的解决办法
Jun 05 #PHP
php中json_decode()和json_encode()的使用方法
Jun 04 #PHP
php安全之直接用$获取值而不$_GET 字符转义
Jun 03 #PHP
You might like
PHP积分兑换接口实例
2015/02/09 PHP
Yii2超好用的日期和时间组件(值得收藏)
2016/05/05 PHP
PHP微信分享开发详解
2017/01/14 PHP
javascritp实现input输入框相关限制用法
2007/06/29 Javascript
使用IE6看老赵的博客 jQuery初探
2010/01/17 Javascript
热点新闻滚动特效的js代码
2013/08/17 Javascript
js关于字符长度限制的问题示例探讨
2014/01/24 Javascript
JavaScript类属性的访问方式详解
2014/02/11 Javascript
简介JavaScript中Boolean.toSource()方法的使用
2015/06/05 Javascript
JavaScript实现简单评论功能
2017/08/17 Javascript
vuex 多模块时 模块内部的mutation和action的调用方式
2020/07/24 Javascript
[57:12]完美世界DOTA2联赛循环赛 Inki vs Matador BO2第一场 10.31
2020/11/02 DOTA
Python3基础之输入和输出实例分析
2014/08/18 Python
Python中subprocess的简单使用示例
2015/07/28 Python
Windows下搭建python开发环境详细步骤
2020/07/20 Python
Django 如何获取前端发送的头文件详解(推荐)
2017/08/15 Python
python的dataframe和matrix的互换方法
2018/04/11 Python
儿童python练习实例
2018/05/27 Python
Python 经典面试题 21 道【不可错过】
2018/09/21 Python
python实现定时压缩指定文件夹发送邮件
2020/12/22 Python
PyQt5实现从主窗口打开子窗口的方法
2019/06/19 Python
Docker部署Python爬虫项目的方法步骤
2020/01/19 Python
python 中的[:-1]和[::-1]的具体使用
2020/02/13 Python
Python matplotlib读取excel数据并用for循环画多个子图subplot操作
2020/07/14 Python
韩国流行时尚女装网站:Dintchina(中文)
2018/07/19 全球购物
BudgetAir印度:预订航班、酒店和汽车租赁
2019/07/07 全球购物
英国玛莎百货澳大利亚:Marks & Spencer Australia
2019/08/30 全球购物
英国户外服装、鞋类和设备的领先零售商:Millets
2020/10/12 全球购物
会计学自我鉴定
2014/02/06 职场文书
职业生涯规划书范文
2014/03/10 职场文书
工程项目建议书范文
2014/03/12 职场文书
应届大专生求职信
2014/06/26 职场文书
纺织工程专业推荐信
2014/09/08 职场文书
职场中的你,辞职信写对了吗?
2019/06/26 职场文书
Linux、ubuntu系统下查看显卡型号、显卡信息详解
2022/04/07 Servers
golang语言指针操作
2022/04/14 Golang