比较discuz和ecshop的截取字符串函数php版


Posted in PHP onSeptember 03, 2012

下面先给出两个版本函数的源代码以及简单测试,最后我会给出一个实用性更强的字符串截取函数。需要注意的是:这里讨论的字符串截取问题都是针对UTF-8编码的中文字符串。
discuz版本

/** 
* [discuz] 基于PHP没有安装 mb_substr 等扩展截取字符串,如果截取中文字则按2个字符计算 
* @param $string 要截取的字符串 
* @param $length 要截取的字符数 
* @param $dot 替换截掉部分的结尾字符串 
* @return 返回截取后的字符串 
*/ 
function cutstr($string, $length, $dot = '...') { 
// 如果字符串小于要截取的长度则直接返回 
// 此处使用strlen获取字符串长度有很大的弊病,比如对字符串“新年快乐”要截取4个中文字符, 
// 那么必须知道这4个中文字符的字节数,否则返回的字符串可能会是“新年快乐...” 
if (strlen($string) <= $length) { 
return $string; 
} 
// 转换原字符串中htmlspecialchars 
$pre = chr(1); 
$end = chr(1); 
$string = str_replace ( array ('&', '"', '<', '>' ), array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), $string ); 
$strcut = ''; // 初始化返回值 
// 如果是utf-8编码(这个判断有点不全,有可能是utf8) 
if (strtolower ( CHARSET ) == 'utf-8') { 
// 初始连续循环指针$n,最后一个字位数$tn,截取的字符数$noc 
$n = $tn = $noc = 0; 
while ( $n < strlen ( $string ) ) { 
$t = ord ( $string [$n] ); 
if ($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) { 
// 如果是英语半角符号等,$n指针后移1位,$tn最后字是1位 
$tn = 1; 
$n++; 
$noc++; 
} elseif (194 <= $t && $t <= 223) { 
// 如果是二字节字符$n指针后移2位,$tn最后字是2位 
$tn = 2; 
$n += 2; 
$noc += 2; 
} elseif (224 <= $t && $t <= 239) { 
// 如果是三字节(可以理解为中字词),$n后移3位,$tn最后字是3位 
$tn = 3; 
$n += 3; 
$noc += 2; 
} elseif (240 <= $t && $t <= 247) { 
$tn = 4; 
$n += 4; 
$noc += 2; 
} elseif (248 <= $t && $t <= 251) { 
$tn = 5; 
$n += 5; 
$noc += 2; 
} elseif ($t == 252 || $t == 253) { 
$tn = 6; 
$n += 6; 
$noc += 2; 
} else { 
$n++; 
} 
// 超过了要取的数就跳出连续循环 
if ($noc >= $length) { 
break; 
} 
} 
// 这个地方是把最后一个字去掉,以备加$dot 
if ($noc > $length) { 
$n -= $tn; 
} 
$strcut = substr ( $string, 0, $n ); 
} else { 
// 并非utf-8编码的全角就后移2位 
for ($i = 0; $i < $length; $i ++) { 
$strcut .= ord ( $string [$i] ) > 127 ? $string [$i] . $string [++ $i] : $string [$i]; 
} 
} 
// 再还原最初的htmlspecialchars 
$strcut = str_replace( array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), array ('&', '"', '<', '>' ), $strcut ); 
$pos = strrpos ( $strcut, chr ( 1 ) ); 
if ($pos !== false) { 
$strcut = substr ( $strcut, 0, $pos ); 
} 
return $strcut . $dot; // 最后把截取加上$dot输出 
}

discuz版本的最大缺陷在于使用 strlen 获取原始字符串的长度,并用来和传入的要截取长度参数(字节数)进行比较,由于UTF-8的中文字符的字节数是不固定的,所以就会面临这样的窘境:如果要截取4个中文字符应该指定多大的截取长度呢?8字节还是12字节呢?。。。这是无法预计的,也正是因为这个问题discuz的cutstr实际是有bug的,通过下面的测试结果能看出:
$str1 = "欲穷千里目"; 
echo my_cutstr($str1, 10, "...")."\n"; // 输出:欲穷千里目... [这是一个bug,想想是什么原因导致?] 
echo my_cutstr($str1, 15, "...")."\n"; // 输出:欲穷千里目

导致上述bug的原因在与cutstr函数在截取字符的时候是将一个中文字按2个字符算,那么5个中文字就是10字符,而原始字符串的长度是15字节,所以cutstr认为“成功地”从15字符的串上截取了10个字符,然后加上了“尾巴”。要解决这个bug只要在判断一下返回的子串是否和原始串相同,如果相同就不加“尾巴”。
ecshop版
/** 
* [ecshop] 基于PHP的 mb_substr,iconv_substr 这两个扩展来截取字符串,中文字符都是按1个字符长度计算; 
* 该函数仅适用于utf-8编码的中文字符串。 
* 
* @param $str 原始字符串 
* @param $length 截取的字符数 
* @param $append 替换截掉部分的结尾字符串 
* @return 返回截取后的字符串 
*/ 
function sub_str($str, $length = 0, $append = '...') { 
$str = trim($str); 
$strlength = strlen($str); 
if ($length == 0 || $length >= $strlength) { 
return $str; 
} elseif ($length < 0) { 
$length = $strlength + $length; 
if ($length < 0) { 
$length = $strlength; 
} 
} 
if ( function_exists('mb_substr') ) { 
$newstr = mb_substr($str, 0, $length, 'utf-8'); 
} elseif ( function_exists('iconv_substr') ) { 
$newstr = iconv_substr($str, 0, $length, 'utf-8'); 
} else { 
//$newstr = trim_right(substr($str, 0, $length)); 
$newstr = substr($str, 0, $length); 
} 
if ($append && $str != $newstr) { 
$newstr .= $append; 
} 
return $newstr; 
}

ecshop版的特点和缺点都在于将中文字符算作一个字符,如果原始字符串中不含中文,比如:abcd1234,如果本意是要截取4个中文字符或者8个英文字符,那么使用ecshop的版本就得不到期望的结果,返回值的是:abcd。下面是简单的测试结果:
$str1 = "白日依山尽,黄河入海流"; 
echo $str1."\n"; 
echo my_sub_str($str1, 4, "...")."\n"; // 输出:白日依山... 
$str2 = "白1日2依3山4"; 
echo $str2."\n"; 
echo my_sub_str($str2, 4, "...")."\n"; // 输出:白1日2...

优化版
截取中文字符串的大部分应用场景是“原始字符串可以是中文、英文、数字混杂的,中文字按2个字符算,英文数字按1个字符算”,针对这个需求下面给出一个实现版本:
/** 
* 字符串截取,中文字符按2个字符计算,同时支持GBK和UTF-8编码 
* @param $string 要截取的字符串 
* @param $length 要截取的字符数 
* @param $append 添加到子串后的尾巴 
* @return 返回截取后的字符串 
*/ 
function substring($string, $length, $append = false) { 
if ( $length <= 0 ) { 
return ''; 
} 
// 检测原始字符串是否为UTF-8编码 
$is_utf8 = false; 
$str1 = @iconv("UTF-8", "GBK", $string); 
$str2 = @iconv("GBK", "UTF-8", $str1); 
if ( $string == $str2 ) { 
$is_utf8 = true; 
// 如果是UTF-8编码,则使用GBK编码的 
$string = $str1; 
} 
$newstr = ''; 
for ($i = 0; $i < $length; $i ++) { 
$newstr .= ord ($string[$i]) > 127 ? $string[$i] . $string[++$i] : $string[$i]; 
} 
if ( $is_utf8 ) { 
$newstr = @iconv("GBK", "UTF-8", $newstr); 
} 
if ($append && $newstr != $string) { 
$newstr .= $append; 
} 
return $newstr; 
}

测试结果见下(GBK和UTF-8的结果一致):
$str1 = "白日依山尽,黄河入海流"; 
echo substring($str1, 4, "...")."\n"; // 输出:白日... 
echo substring($str1, 5, "...")."\n"; // 输出:白日依... 
$str2 = "12白34日56依78山"; 
echo substring($str2, 4, "...")."\n"; // 输出:12白... 
echo substring($str2, 5, "...")."\n"; // 输出:12白3...

作者:edwardlost' blog
PHP 相关文章推荐
PHP 显示客户端IP与服务器IP的代码
Oct 12 PHP
深入array multisort排序原理的详解
Jun 18 PHP
php比较两个绝对时间的大小
Jan 31 PHP
常见php数据文件缓存类汇总
Dec 05 PHP
浅谈php冒泡排序
Dec 30 PHP
PHP中使用正则表达式提取中文实现笔记
Jan 20 PHP
PHP实现无限分类的实现方法
Nov 14 PHP
使用Codeigniter重写insert的方法(推荐)
Mar 23 PHP
php安全配置记录和常见错误梳理(总结)
Mar 28 PHP
php nginx 实时输出的简单实现方法
Jan 21 PHP
php微信公众号开发之图片回复
Oct 20 PHP
PHP使用Session实现上传进度功能详解
Aug 06 PHP
Windows下部署Apache+PHP+MySQL运行环境实战
Aug 31 #PHP
关于UEditor编辑器远程图片上传失败的解决办法
Aug 31 #PHP
php数组一对一替换实现代码
Aug 31 #PHP
PHP 利用AJAX获取网页并输出的实现代码(Zjmainstay)
Aug 31 #PHP
PHP的简易冒泡法代码分享
Aug 28 #PHP
php 解决旧系统 查出所有数据分页的类
Aug 27 #PHP
PHP实现手机归属地查询API接口实现代码
Aug 27 #PHP
You might like
DOTA2【瓜皮时刻】Vol.91 RTZ山史最惨“矿难”
2021/03/05 DOTA
使用php+Ajax实现唯一校验实现代码[简单应用]
2011/11/29 PHP
PHP图片上传代码
2013/11/04 PHP
php实现压缩多个CSS与JS文件的方法
2014/11/11 PHP
PHP获取文件相对路径的方法
2015/02/26 PHP
浅析PHP反序列化中过滤函数使用不当导致的对象注入问题
2020/02/15 PHP
js截取小数点后几位的写法
2013/11/14 Javascript
JS实现的仿淘宝交易倒计时效果
2015/11/27 Javascript
原生js实现网页顶部自动下拉/收缩广告效果
2017/01/20 Javascript
从零开始做一个pagination分页组件
2017/03/15 Javascript
详解在vue-cli项目中安装node-sass
2017/06/21 Javascript
bootstrap multiselect下拉列表功能
2017/08/22 Javascript
js仿微信抢红包功能
2020/09/25 Javascript
vue获取input输入值的问题解决办法
2017/10/17 Javascript
JS中图片压缩的方法小结
2017/11/14 Javascript
JS同步、异步、延迟加载的方法
2018/05/05 Javascript
nodejs前端模板引擎swig入门详解
2018/05/15 NodeJs
解决vue-cli单页面手机应用input点击手机端虚拟键盘弹出盖住input问题
2018/08/25 Javascript
jQuery 函数实例分析【函数声明、函数表达式、匿名函数等】
2020/05/19 jQuery
[47:21]Liquid vs TNC Supermajor 胜者组 BO3 第一场 6.4
2018/06/05 DOTA
Python 中 Virtualenv 和 pip 的简单用法详解
2017/08/18 Python
python 3.0 模拟用户登录功能并实现三次错误锁定
2017/11/01 Python
python实现百度语音识别api
2018/04/10 Python
matplotlib subplots 调整子图间矩的实例
2018/05/25 Python
pycharm下查看python的变量类型和变量内容的方法
2018/06/26 Python
python实现简单名片管理系统
2018/11/30 Python
Python和Java的语法对比分析语法简洁上python的确完美胜出
2019/05/10 Python
CSS3之2D与3D变换的实现方法
2019/01/28 HTML / CSS
《夏夜多美》教学反思
2014/02/17 职场文书
企业仓管员岗位职责
2014/06/15 职场文书
司法局群众路线教育实践活动整改措施思想汇报
2014/10/13 职场文书
2015关于重阳节的演讲稿
2015/03/20 职场文书
冬季作息时间调整通知
2015/04/24 职场文书
2015年基层党建工作总结
2015/05/14 职场文书
教你使用VS Code的MySQL扩展管理数据库的方法
2022/01/22 MySQL
PyTorch中的torch.cat简单介绍
2022/03/17 Python