比较discuz和ecshop的截取字符串函数php版


Posted in PHP onSeptember 03, 2012

下面先给出两个版本函数的源代码以及简单测试,最后我会给出一个实用性更强的字符串截取函数。需要注意的是:这里讨论的字符串截取问题都是针对UTF-8编码的中文字符串。
discuz版本

/** 
* [discuz] 基于PHP没有安装 mb_substr 等扩展截取字符串,如果截取中文字则按2个字符计算 
* @param $string 要截取的字符串 
* @param $length 要截取的字符数 
* @param $dot 替换截掉部分的结尾字符串 
* @return 返回截取后的字符串 
*/ 
function cutstr($string, $length, $dot = '...') { 
// 如果字符串小于要截取的长度则直接返回 
// 此处使用strlen获取字符串长度有很大的弊病,比如对字符串“新年快乐”要截取4个中文字符, 
// 那么必须知道这4个中文字符的字节数,否则返回的字符串可能会是“新年快乐...” 
if (strlen($string) <= $length) { 
return $string; 
} 
// 转换原字符串中htmlspecialchars 
$pre = chr(1); 
$end = chr(1); 
$string = str_replace ( array ('&', '"', '<', '>' ), array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), $string ); 
$strcut = ''; // 初始化返回值 
// 如果是utf-8编码(这个判断有点不全,有可能是utf8) 
if (strtolower ( CHARSET ) == 'utf-8') { 
// 初始连续循环指针$n,最后一个字位数$tn,截取的字符数$noc 
$n = $tn = $noc = 0; 
while ( $n < strlen ( $string ) ) { 
$t = ord ( $string [$n] ); 
if ($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) { 
// 如果是英语半角符号等,$n指针后移1位,$tn最后字是1位 
$tn = 1; 
$n++; 
$noc++; 
} elseif (194 <= $t && $t <= 223) { 
// 如果是二字节字符$n指针后移2位,$tn最后字是2位 
$tn = 2; 
$n += 2; 
$noc += 2; 
} elseif (224 <= $t && $t <= 239) { 
// 如果是三字节(可以理解为中字词),$n后移3位,$tn最后字是3位 
$tn = 3; 
$n += 3; 
$noc += 2; 
} elseif (240 <= $t && $t <= 247) { 
$tn = 4; 
$n += 4; 
$noc += 2; 
} elseif (248 <= $t && $t <= 251) { 
$tn = 5; 
$n += 5; 
$noc += 2; 
} elseif ($t == 252 || $t == 253) { 
$tn = 6; 
$n += 6; 
$noc += 2; 
} else { 
$n++; 
} 
// 超过了要取的数就跳出连续循环 
if ($noc >= $length) { 
break; 
} 
} 
// 这个地方是把最后一个字去掉,以备加$dot 
if ($noc > $length) { 
$n -= $tn; 
} 
$strcut = substr ( $string, 0, $n ); 
} else { 
// 并非utf-8编码的全角就后移2位 
for ($i = 0; $i < $length; $i ++) { 
$strcut .= ord ( $string [$i] ) > 127 ? $string [$i] . $string [++ $i] : $string [$i]; 
} 
} 
// 再还原最初的htmlspecialchars 
$strcut = str_replace( array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), array ('&', '"', '<', '>' ), $strcut ); 
$pos = strrpos ( $strcut, chr ( 1 ) ); 
if ($pos !== false) { 
$strcut = substr ( $strcut, 0, $pos ); 
} 
return $strcut . $dot; // 最后把截取加上$dot输出 
}

discuz版本的最大缺陷在于使用 strlen 获取原始字符串的长度,并用来和传入的要截取长度参数(字节数)进行比较,由于UTF-8的中文字符的字节数是不固定的,所以就会面临这样的窘境:如果要截取4个中文字符应该指定多大的截取长度呢?8字节还是12字节呢?。。。这是无法预计的,也正是因为这个问题discuz的cutstr实际是有bug的,通过下面的测试结果能看出:
$str1 = "欲穷千里目"; 
echo my_cutstr($str1, 10, "...")."\n"; // 输出:欲穷千里目... [这是一个bug,想想是什么原因导致?] 
echo my_cutstr($str1, 15, "...")."\n"; // 输出:欲穷千里目

导致上述bug的原因在与cutstr函数在截取字符的时候是将一个中文字按2个字符算,那么5个中文字就是10字符,而原始字符串的长度是15字节,所以cutstr认为“成功地”从15字符的串上截取了10个字符,然后加上了“尾巴”。要解决这个bug只要在判断一下返回的子串是否和原始串相同,如果相同就不加“尾巴”。
ecshop版
/** 
* [ecshop] 基于PHP的 mb_substr,iconv_substr 这两个扩展来截取字符串,中文字符都是按1个字符长度计算; 
* 该函数仅适用于utf-8编码的中文字符串。 
* 
* @param $str 原始字符串 
* @param $length 截取的字符数 
* @param $append 替换截掉部分的结尾字符串 
* @return 返回截取后的字符串 
*/ 
function sub_str($str, $length = 0, $append = '...') { 
$str = trim($str); 
$strlength = strlen($str); 
if ($length == 0 || $length >= $strlength) { 
return $str; 
} elseif ($length < 0) { 
$length = $strlength + $length; 
if ($length < 0) { 
$length = $strlength; 
} 
} 
if ( function_exists('mb_substr') ) { 
$newstr = mb_substr($str, 0, $length, 'utf-8'); 
} elseif ( function_exists('iconv_substr') ) { 
$newstr = iconv_substr($str, 0, $length, 'utf-8'); 
} else { 
//$newstr = trim_right(substr($str, 0, $length)); 
$newstr = substr($str, 0, $length); 
} 
if ($append && $str != $newstr) { 
$newstr .= $append; 
} 
return $newstr; 
}

ecshop版的特点和缺点都在于将中文字符算作一个字符,如果原始字符串中不含中文,比如:abcd1234,如果本意是要截取4个中文字符或者8个英文字符,那么使用ecshop的版本就得不到期望的结果,返回值的是:abcd。下面是简单的测试结果:
$str1 = "白日依山尽,黄河入海流"; 
echo $str1."\n"; 
echo my_sub_str($str1, 4, "...")."\n"; // 输出:白日依山... 
$str2 = "白1日2依3山4"; 
echo $str2."\n"; 
echo my_sub_str($str2, 4, "...")."\n"; // 输出:白1日2...

优化版
截取中文字符串的大部分应用场景是“原始字符串可以是中文、英文、数字混杂的,中文字按2个字符算,英文数字按1个字符算”,针对这个需求下面给出一个实现版本:
/** 
* 字符串截取,中文字符按2个字符计算,同时支持GBK和UTF-8编码 
* @param $string 要截取的字符串 
* @param $length 要截取的字符数 
* @param $append 添加到子串后的尾巴 
* @return 返回截取后的字符串 
*/ 
function substring($string, $length, $append = false) { 
if ( $length <= 0 ) { 
return ''; 
} 
// 检测原始字符串是否为UTF-8编码 
$is_utf8 = false; 
$str1 = @iconv("UTF-8", "GBK", $string); 
$str2 = @iconv("GBK", "UTF-8", $str1); 
if ( $string == $str2 ) { 
$is_utf8 = true; 
// 如果是UTF-8编码,则使用GBK编码的 
$string = $str1; 
} 
$newstr = ''; 
for ($i = 0; $i < $length; $i ++) { 
$newstr .= ord ($string[$i]) > 127 ? $string[$i] . $string[++$i] : $string[$i]; 
} 
if ( $is_utf8 ) { 
$newstr = @iconv("GBK", "UTF-8", $newstr); 
} 
if ($append && $newstr != $string) { 
$newstr .= $append; 
} 
return $newstr; 
}

测试结果见下(GBK和UTF-8的结果一致):
$str1 = "白日依山尽,黄河入海流"; 
echo substring($str1, 4, "...")."\n"; // 输出:白日... 
echo substring($str1, 5, "...")."\n"; // 输出:白日依... 
$str2 = "12白34日56依78山"; 
echo substring($str2, 4, "...")."\n"; // 输出:12白... 
echo substring($str2, 5, "...")."\n"; // 输出:12白3...

作者:edwardlost' blog
PHP 相关文章推荐
MySql中正则表达式的使用方法描述
Jul 30 PHP
php中unlink()、mkdir()、rmdir()等方法的使用介绍
Dec 21 PHP
win7下memCache的安装过程(具体操作步骤)
Jun 28 PHP
PHP实现微信公众平台音乐点播
Mar 20 PHP
phpmyadmin打开很慢的解决方法
Apr 21 PHP
PHP的Yii框架使用中的一些错误解决方法与建议
Aug 21 PHP
详解PHP的Yii框架中组件行为的属性注入和方法注入
Mar 18 PHP
配置Nginx+PHP的正确思路与过程
May 10 PHP
php使用变量动态创建类的对象用法示例
Feb 06 PHP
PHP异常处理定义与使用方法分析
Jul 25 PHP
php-app开发接口加密详解
Apr 18 PHP
laravel框架语言包拓展实现方法分析
Nov 22 PHP
Windows下部署Apache+PHP+MySQL运行环境实战
Aug 31 #PHP
关于UEditor编辑器远程图片上传失败的解决办法
Aug 31 #PHP
php数组一对一替换实现代码
Aug 31 #PHP
PHP 利用AJAX获取网页并输出的实现代码(Zjmainstay)
Aug 31 #PHP
PHP的简易冒泡法代码分享
Aug 28 #PHP
php 解决旧系统 查出所有数据分页的类
Aug 27 #PHP
PHP实现手机归属地查询API接口实现代码
Aug 27 #PHP
You might like
给初学PHP的5个入手程序
2006/11/23 PHP
php 删除无限级目录与文件代码共享
2008/11/22 PHP
如何在symfony中导出为CSV文件中的数据
2011/10/06 PHP
PHP定时执行任务的3种方法详解
2015/12/21 PHP
注释PHP和html混合代码的小技巧(分享)
2016/11/03 PHP
php表单习惯用的正则表达式
2017/10/11 PHP
jQuery EasyUI API 中文文档 - Tabs标签页/选项卡
2011/10/01 Javascript
JQuery制作的放大效果的popup对话框(未添加任何jquery plugin)分享
2013/04/28 Javascript
window.location的重写及判断location是否被重写
2014/09/04 Javascript
浅谈vue实现数据监听的函数 Object.defineProperty
2017/06/08 Javascript
Vue computed计算属性的使用方法
2017/07/14 Javascript
JS实现浏览上传文件的代码
2017/08/23 Javascript
Angular实现的敏感文字自动过滤与提示功能示例
2017/12/29 Javascript
vue组件实现进度条效果
2018/06/06 Javascript
Vue-cli 移动端布局和动画使用详解
2020/08/10 Javascript
vue 解决provide和inject响应的问题
2020/11/12 Javascript
[26:21]浴火之凤-TI4世界冠军Newbee战队纪录片
2014/08/07 DOTA
[03:12]TI9战队档案 - Virtus Pro
2019/08/20 DOTA
[52:06]完美世界DOTA2联赛决赛日 Inki vs LBZS 第一场 11.08
2020/11/10 DOTA
Python的Flask框架及Nginx实现静态文件访问限制功能
2016/06/27 Python
Python Web框架之Django框架Model基础详解
2019/08/16 Python
如何在Django中使用聚合的实现示例
2020/03/23 Python
Python 实现图片转字符画的示例(静态图片,gif皆可)
2020/11/05 Python
python实现计算图形面积
2021/02/22 Python
韩国三星旗下的一家超市连锁店:Home Plus
2016/07/30 全球购物
NFL墨西哥官方商店:Tienda NFL
2017/11/28 全球购物
酒店行政人事部经理职务说明书
2014/02/26 职场文书
员工试用期考核自我鉴定
2014/04/13 职场文书
法定代表人身份证明书(含说明)
2014/10/02 职场文书
2016廉洁从业学习心得体会
2016/01/19 职场文书
利用Python网络爬虫爬取各大音乐评论的代码
2021/04/13 Python
Python虚拟环境virtualenv是如何使用的
2021/06/20 Python
MySQL 主从复制数据不一致的解决方法
2022/03/18 MySQL
angular4实现带搜索的下拉框
2022/03/25 Javascript
以下牛机,你有几个
2022/04/05 无线电
redis protocol通信协议及使用详解
2022/07/15 Redis