php实现html标签闭合检测与修复方法


Posted in PHP onJuly 09, 2015

本文实例讲述了php实现html标签闭合检测与修复方法。分享给大家供大家参考。具体如下:

html标签闭合检测与修复,说的有点大 , 并没有考虑的很完整,没有使用正则表达式, 适用于html文件中只有开始标签没有结束标签, 是有结束标签没有开始标签的情况。标签闭合的位置需要根据需求调整

<?php
$str = '
<div data="<li></li>">
  <img src="http://www.baidu.com/123123.png"/>
  <div2>
    <a>content</a>
  </div2>
    <ul>
      <li>
      </li>
    </ul>
    <p>
    content full
    </p>
    this is content</test1>
    this is content</test2>
    <test4 data="liujinjing"> This is cont
    <li></li>
    <test3 data="liujinjing"> This is content
<div3>
</div3>
</div4>
</div>
</div>
<div6 style="width:90px; "> this is content';
$str_len = strlen($str);
//记录起始标签
$pre_data = array();
//记录起始标签位置
$pre_pos = array();
$last_data = array();
$error_data = array();
$error_pos = array();
$i = 0;
//标记为 < 开始
$start_flag = false;
while( $i < $str_len ) {
  if($str[$i]=="<" && $str[$i+1]!='/' && $str[$i+1]!='!') {
    $i++;
    $_tmp_str = '';
    //标记为 < 开始
    $start_flag = true;
    //标记空白
    $space_flag = false;
    while($str[$i]!=">" && $str[$i]!="'" && $str[$i]!='"' && $str[$i] !='/' && $i<$str_len){
      if($str[$i]==' ') {
        $space_flag = true;
      }
      if(!$space_flag) {
        $_tmp_str .= $str[$i];  
      }
      $i++;
    }
    $pre_data[] = $_tmp_str;
    $pre_pos[] = $i;
  } else if ($str[$i]=="<" && $str[$i+1]=='/') {
    $i += 2;
    $_tmp_str = '';
    while($str[$i]!=">" && $i<$str_len){
      $_tmp_str .= $str[$i];
      $i++;
    }
    $last_data[] = $_tmp_str;
    //查看开始标签的上一个值
    if(count($pre_data)>0) {
      $last_pre_node = getLastNode($pre_data, 1);
      if($last_pre_node == $_tmp_str) {
        //配对上, 删除对应位置的值
        array_pop($pre_data);
        array_pop($pre_pos);
        array_pop($last_data);
      } else {
      //没有配对上, 有两种情况
        //情况一: 只有闭合标签, 没有开始标签
        //情况二:只有开始标签, 没有闭合标签
        array_pop($last_data);
        $error_data[] = $_tmp_str;
        $error_pos[] = $i;
      }
    } else {
        array_pop($last_data);
        $error_data[] = $_tmp_str;
        $error_pos[] = $i;      
    }
  }else if ($str[$i]=="<" && $str[$i+1]=="!") {
    $i++;
    while($i<$str_len) {
      if($str[$i]=="-" && $str[$i+1]=="-" && $str[$i+2]==">") {
        $i++;
        break;
      } else {
        $i++;
      }
    }
    $i++;
  }else if($str[$i]=='/' && $str[$i+1]=='>') {
    //跳过自动单个闭合标签
    if($start_flag) {
      array_pop($pre_data);
      array_pop($pre_pos);
      $i+=2;
    }
  }else if($str[$i]=="/" && $str[$i+1]=="*"){
    $i++;
    while($i<$str_len) {
      if($str[$i]=="*" && $str[$i+1]=="/") {
        $i++;
        break;
      } else {
        $i++;
    }
    $i++;
  }
  }else if($str[$i]=="'"){
    $i++;
    while($str[$i]!="'" && $i<$str_len) {
      $i++;
    }
    $i++;
  } else if($str[$i]=='"'){
    $i++;
    while($str[$i]!='"' && $i<$str_len ) {
      $i++;
    }
    $i++;
  } else {
    $i++;
  }
}
//确定起始标签的位置
function confirm_pre_pos($str, $pre_pos){
  $str_len = strlen($str);
  $j=$pre_pos;
  while($j < $str_len) {
    if($str[$j] == '"') {
      $j++;
      while ($j<$str_len) {
        if($str[$j]=='"') {
          $j++;
          break;
        }
        $j++;
      }
    }
    else if($str[$j] == "'") {
      $j++;
      while ($j<$str_len) {
        if($str[$j]=="'") {
          $j++;
          break;
        }
        $j++;
      }
    }
    else if($str[$j]==">") {
      $j++;
      while ($j<$str_len) {
        if($str[$j]=="<") {
          //退回到原有内容位置
          $j--;
          break;
        }
        $j++;
      }
      break;
    } 
    else {
      $j++;
    }
  }
  return $j;
}
//确定起始标签的位置
function confirm_err_pos($str, $err_pos){
  $j=$err_pos;
  $j--;
  while($j > 0) {
    if($str[$j] == '"') {
      $j--;
      while ($j<$str_len) {
        if($str[$j]=='"') {
          $j--;
          break;
        }
        $j--;
      }
    }
    else if($str[$j] == "'") {
      $j--;
      while ($j<$str_len) {
        if($str[$j]=="'") {
          $j--;
          break;
        }
        $j--;
      }
    }
    else if($str[$j]==">") {
      $j++;
      break;
    } 
    else {
      $j--;
    }
  }
  return $j;
}
//获取数组的倒数第num个值
function getLastNode(array $arr, $num){
  $len = count($arr);
  if($len > $num) {
    return $arr[$len-$num];
  } else {
    return $arr[0];
  }
}
//整理数据, 主要是向后看, 进一步进行检查
function sort_data(&$pre_data, &$pre_pos, &$error_data, &$error_pos){
  $rem_key_array = array();
  $rem_i_array = array();
  //获取需要删除的值
  foreach($error_data as $key=>$value){
    $count = count($pre_data);
    for($i=($count-1) ; $i>=0; $i--) {
      if($pre_data[$i] == $value && !in_array($i, $rem_i_array)) {
        $rem_key_array[] = $key;
        $rem_i_array[] = $i;
        break;
      }
    }
  }
  //删除起始标签相应的值
  foreach($rem_key_array as $_item) {
    unset($error_pos[$_item]);
    unset($error_data[$_item]);
  }
  //删除结束标签相应的值
  foreach($rem_i_array as $_item) {
    unset($pre_data[$_item]);
    unset($pre_pos[$_item]);
  }
}
//整理数据, 闭合标签
function modify_data($str, $pre_data, $pre_pos, $error_data, $error_pos){
  $move_log = array();
  //只有闭合标签的数据
  foreach ($error_data as $key => $value) {
    // code...
    $_tmp_move_count = 0;
    foreach ($move_log as $pos_key => $move_value) {
      // code...
      if($error_pos[$key]>=$pos_key) {
        $_tmp_move_count += $move_value;
      }
    }
    $data = insert_data($str, $value, $error_pos[$key]+$_tmp_move_count, false);
    $str = $data['str'];
    $move_log[$data['pos']] = $data['move_count'];
  }
  //只有起始标签的数据
  foreach ($pre_data as $key => $value) {
    // code...
    $_tmp_move_count = 0;
    foreach ($move_log as $pos_key => $move_value) {
      // code...
      if($pre_pos[$key]>=$pos_key) {
        $_tmp_move_count += $move_value;
      }
    }
    $data = insert_data($str, $value, $pre_pos[$key]+$_tmp_move_count, true);
    $str = $data['str'];
    $move_log[$data['pos']] = $data['move_count'];
  }
  return $str;
}
//插入数据, $type 表示插入数据的方式
function insert_data($str, $insert_data, $pos, $type) {
  $len = strlen($str);
  //起始标签类型
  if($type==true) {
    $move_count = strlen($insert_data)+3;
    $pos = confirm_pre_pos($str, $pos);
    $pre_str = substr($str, 0, $pos);
    $end_str = substr($str, $pos);
    $mid_str = "</" . $insert_data . ">";
  //闭合标签类型
  } else {
    $pos = confirm_err_pos($str, $pos);
    $move_count = strlen($insert_data) + 2;
    $pre_str = substr($str, 0, $pos);
    $end_str = substr($str, $pos);
    $mid_str = "<" . $insert_data . ">";
  }
  $str = $pre_str.$mid_str.$end_str;
  return array('str'=>$str, 'pos'=>$pos, 'move_count'=>$move_count);
}
sort_data($pre_data, $pre_pos, $error_data, $error_pos);
$new_str = modify_data($str, $pre_data, $pre_pos, $error_data, $error_pos);
echo $new_str;
// print_r($pre_data);
// print_r($pre_pos);
// print_r($error_data);
// print_r($error_pos);
// echo strlen($str);
// foreach($pre_pos as $value){
//   $value = confirm_pre_pos($str, $value);
//   for($i=$value-5; $i<=$value; $i++) {
//     echo $str[$i];
//   }
//   echo "\n";
// }
// foreach($error_pos as $value){
//   for($i=$value-5; $i<=$value; $i++) {
//     echo $str[$i];
//   }
//   echo "\n";
// }
?>

希望本文所述对大家的php程序设计有所帮助。

PHP 相关文章推荐
PHP 读取和修改大文件的某行内容的代码
Oct 30 PHP
php 将字符串按大写字母分隔成字符串数组
Apr 30 PHP
PHP获取搜索引擎关键字来源的函数(支持百度和谷歌等搜索引擎)
Oct 03 PHP
PHP删除HTMl标签的三种解决方法
Jun 30 PHP
PHP 如何利用phpexcel导入数据库
Aug 24 PHP
Thinkphp中的volist标签用法简介
Jun 18 PHP
PHP实现下载断点续传的方法
Nov 12 PHP
四种php中webservice实现的简单架构方法及实例
Feb 03 PHP
PHP入门教程之面向对象基本概念实例分析
Sep 11 PHP
thinkPHP框架对接支付宝即时到账接口回调操作示例
Nov 14 PHP
php表单文件iframe异步上传实例讲解
Jul 26 PHP
Laravel Eloquent ORM 实现查询表中指定的字段
Oct 17 PHP
php可扩展的验证类实例(可对邮件、手机号、URL等验证)
Jul 09 #PHP
php类常量用法实例分析
Jul 09 #PHP
php求一个网段开始与结束IP地址的方法
Jul 09 #PHP
PHP实现全角字符转为半角方法汇总
Jul 09 #PHP
php将金额数字转化为中文大写
Jul 09 #PHP
php实现的简易扫雷游戏实例
Jul 09 #PHP
php链表用法实例分析
Jul 09 #PHP
You might like
PHP在特殊字符前加斜杠的实现代码
2011/07/17 PHP
PHP中的常见魔术方法功能作用及用法实例
2015/07/01 PHP
php实现点击可刷新验证码
2015/11/07 PHP
CI框架的安全性分析
2016/05/18 PHP
php+jQuery递归调用POST循环请求示例
2016/10/14 PHP
php字符串过滤strip_tags()函数用法实例分析
2019/06/24 PHP
javascript 点击整页变灰的效果(可做退出效果)。
2008/01/09 Javascript
基于JQuery的Select选择框的华丽变身
2011/08/23 Javascript
JS设置获取cookies的方法
2014/01/26 Javascript
JavaScript制作简单分页插件
2016/09/11 Javascript
AngularJS使用ng-inlude指令加载页面失败的原因与解决方法
2017/01/19 Javascript
jQuery选择器之基本过滤选择器用法实例分析
2019/02/19 jQuery
Vue keepAlive 数据缓存工具实现返回上一个页面浏览的位置
2019/05/10 Javascript
Electron 调用命令行(cmd)
2019/09/23 Javascript
vue多个元素的样式选择器问题
2019/11/29 Javascript
python获取本机外网ip的方法
2015/04/15 Python
Python图像灰度变换及图像数组操作
2016/01/27 Python
TensorFlow实现随机训练和批量训练的方法
2018/04/28 Python
python斐波那契数列的计算方法
2018/09/27 Python
python xpath获取页面注释的方法
2019/01/14 Python
pymongo中聚合查询的使用方法
2019/03/22 Python
将python运行结果保存至本地文件中的示例讲解
2019/07/11 Python
Django将默认的SQLite更换为MySQL的实现
2019/11/18 Python
python将数组n等分的实例
2019/12/02 Python
HTML5实现页面切换激活的PageVisibility API使用初探
2016/05/13 HTML / CSS
The North Face意大利官网:服装、背包和鞋子
2020/06/17 全球购物
致全体运动员广播稿
2014/02/01 职场文书
淘宝好评语大全
2014/05/05 职场文书
作文评语怎么写
2014/12/25 职场文书
Nginx反向代理配置的全过程记录
2021/06/22 Servers
Golang的继承模拟实例
2021/06/30 Golang
MySQL窗口函数的具体使用
2021/11/17 MySQL
一次线上mongo慢查询问题排查处理记录
2022/03/18 MongoDB
「月刊Action」2022年5月号封面公开
2022/03/21 日漫
Java中Quartz高可用定时任务快速入门
2022/04/03 Java/Android
Java 定时任务技术趋势简介
2022/05/04 Java/Android