编程 PHP

比较discuz和ecshop的截取字符串函数php版

Posted in PHP onSeptember 03, 2012

下面先给出两个版本函数的源代码以及简单测试，最后我会给出一个实用性更强的字符串截取函数。需要注意的是：这里讨论的字符串截取问题都是针对UTF-8编码的中文字符串。
discuz版本

/** 
* [discuz] 基于PHP没有安装 mb_substr 等扩展截取字符串，如果截取中文字则按2个字符计算 
* @param $string 要截取的字符串 
* @param $length 要截取的字符数 
* @param $dot 替换截掉部分的结尾字符串 
* @return 返回截取后的字符串 
*/ 
function cutstr($string, $length, $dot = '...') { 
// 如果字符串小于要截取的长度则直接返回 
// 此处使用strlen获取字符串长度有很大的弊病，比如对字符串“新年快乐”要截取4个中文字符， 
// 那么必须知道这4个中文字符的字节数，否则返回的字符串可能会是“新年快乐...” 
if (strlen($string) <= $length) { 
return $string; 
} 
// 转换原字符串中htmlspecialchars 
$pre = chr(1); 
$end = chr(1); 
$string = str_replace ( array ('&', '"', '<', '>' ), array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), $string ); 
$strcut = ''; // 初始化返回值 
// 如果是utf-8编码(这个判断有点不全,有可能是utf8) 
if (strtolower ( CHARSET ) == 'utf-8') { 
// 初始连续循环指针$n,最后一个字位数$tn,截取的字符数$noc 
$n = $tn = $noc = 0; 
while ( $n < strlen ( $string ) ) { 
$t = ord ( $string [$n] ); 
if ($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) { 
// 如果是英语半角符号等,$n指针后移1位,$tn最后字是1位 
$tn = 1; 
$n++; 
$noc++; 
} elseif (194 <= $t && $t <= 223) { 
// 如果是二字节字符$n指针后移2位,$tn最后字是2位 
$tn = 2; 
$n += 2; 
$noc += 2; 
} elseif (224 <= $t && $t <= 239) { 
// 如果是三字节(可以理解为中字词),$n后移3位,$tn最后字是3位 
$tn = 3; 
$n += 3; 
$noc += 2; 
} elseif (240 <= $t && $t <= 247) { 
$tn = 4; 
$n += 4; 
$noc += 2; 
} elseif (248 <= $t && $t <= 251) { 
$tn = 5; 
$n += 5; 
$noc += 2; 
} elseif ($t == 252 || $t == 253) { 
$tn = 6; 
$n += 6; 
$noc += 2; 
} else { 
$n++; 
} 
// 超过了要取的数就跳出连续循环 
if ($noc >= $length) { 
break; 
} 
} 
// 这个地方是把最后一个字去掉,以备加$dot 
if ($noc > $length) { 
$n -= $tn; 
} 
$strcut = substr ( $string, 0, $n ); 
} else { 
// 并非utf-8编码的全角就后移2位 
for ($i = 0; $i < $length; $i ++) { 
$strcut .= ord ( $string [$i] ) > 127 ? $string [$i] . $string [++ $i] : $string [$i]; 
} 
} 
// 再还原最初的htmlspecialchars 
$strcut = str_replace( array ($pre . '&' . $end, $pre . '"' . $end, $pre . '<' . $end, $pre . '>' . $end ), array ('&', '"', '<', '>' ), $strcut ); 
$pos = strrpos ( $strcut, chr ( 1 ) ); 
if ($pos !== false) { 
$strcut = substr ( $strcut, 0, $pos ); 
} 
return $strcut . $dot; // 最后把截取加上$dot输出 
}

discuz版本的最大缺陷在于使用 strlen 获取原始字符串的长度，并用来和传入的要截取长度参数（字节数）进行比较，由于UTF-8的中文字符的字节数是不固定的，所以就会面临这样的窘境：如果要截取4个中文字符应该指定多大的截取长度呢？8字节还是12字节呢？。。。这是无法预计的，也正是因为这个问题discuz的cutstr实际是有bug的，通过下面的测试结果能看出：

$str1 = "欲穷千里目"; 
echo my_cutstr($str1, 10, "...")."\n"; // 输出：欲穷千里目... [这是一个bug，想想是什么原因导致？] 
echo my_cutstr($str1, 15, "...")."\n"; // 输出：欲穷千里目

导致上述bug的原因在与cutstr函数在截取字符的时候是将一个中文字按2个字符算，那么5个中文字就是10字符，而原始字符串的长度是15字节，所以cutstr认为“成功地”从15字符的串上截取了10个字符，然后加上了“尾巴”。要解决这个bug只要在判断一下返回的子串是否和原始串相同，如果相同就不加“尾巴”。
ecshop版

/** 
* [ecshop] 基于PHP的 mb_substr，iconv_substr 这两个扩展来截取字符串，中文字符都是按1个字符长度计算； 
* 该函数仅适用于utf-8编码的中文字符串。 
* 
* @param $str 原始字符串 
* @param $length 截取的字符数 
* @param $append 替换截掉部分的结尾字符串 
* @return 返回截取后的字符串 
*/ 
function sub_str($str, $length = 0, $append = '...') { 
$str = trim($str); 
$strlength = strlen($str); 
if ($length == 0 || $length >= $strlength) { 
return $str; 
} elseif ($length < 0) { 
$length = $strlength + $length; 
if ($length < 0) { 
$length = $strlength; 
} 
} 
if ( function_exists('mb_substr') ) { 
$newstr = mb_substr($str, 0, $length, 'utf-8'); 
} elseif ( function_exists('iconv_substr') ) { 
$newstr = iconv_substr($str, 0, $length, 'utf-8'); 
} else { 
//$newstr = trim_right(substr($str, 0, $length)); 
$newstr = substr($str, 0, $length); 
} 
if ($append && $str != $newstr) { 
$newstr .= $append; 
} 
return $newstr; 
}

ecshop版的特点和缺点都在于将中文字符算作一个字符，如果原始字符串中不含中文，比如：abcd1234，如果本意是要截取4个中文字符或者8个英文字符，那么使用ecshop的版本就得不到期望的结果，返回值的是：abcd。下面是简单的测试结果：

$str1 = "白日依山尽，黄河入海流"; 
echo $str1."\n"; 
echo my_sub_str($str1, 4, "...")."\n"; // 输出：白日依山... 
$str2 = "白1日2依3山4"; 
echo $str2."\n"; 
echo my_sub_str($str2, 4, "...")."\n"; // 输出：白1日2...

优化版
截取中文字符串的大部分应用场景是“原始字符串可以是中文、英文、数字混杂的，中文字按2个字符算，英文数字按1个字符算”，针对这个需求下面给出一个实现版本：

/** 
* 字符串截取，中文字符按2个字符计算，同时支持GBK和UTF-8编码 
* @param $string 要截取的字符串 
* @param $length 要截取的字符数 
* @param $append 添加到子串后的尾巴 
* @return 返回截取后的字符串 
*/ 
function substring($string, $length, $append = false) { 
if ( $length <= 0 ) { 
return ''; 
} 
// 检测原始字符串是否为UTF-8编码 
$is_utf8 = false; 
$str1 = @iconv("UTF-8", "GBK", $string); 
$str2 = @iconv("GBK", "UTF-8", $str1); 
if ( $string == $str2 ) { 
$is_utf8 = true; 
// 如果是UTF-8编码，则使用GBK编码的 
$string = $str1; 
} 
$newstr = ''; 
for ($i = 0; $i < $length; $i ++) { 
$newstr .= ord ($string[$i]) > 127 ? $string[$i] . $string[++$i] : $string[$i]; 
} 
if ( $is_utf8 ) { 
$newstr = @iconv("GBK", "UTF-8", $newstr); 
} 
if ($append && $newstr != $string) { 
$newstr .= $append; 
} 
return $newstr; 
}

测试结果见下（GBK和UTF-8的结果一致）:

$str1 = "白日依山尽，黄河入海流"; 
echo substring($str1, 4, "...")."\n"; // 输出：白日... 
echo substring($str1, 5, "...")."\n"; // 输出：白日依... 
$str2 = "12白34日56依78山"; 
echo substring($str2, 4, "...")."\n"; // 输出：12白... 
echo substring($str2, 5, "...")."\n"; // 输出：12白3...

作者：edwardlost' blog

比较discuz和ecshop的截取字符串函数php版

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

PHP 相关文章推荐

PHP 显示客户端IP与服务器IP的代码

Oct 12 PHP

深入array multisort排序原理的详解

Jun 18 PHP

php比较两个绝对时间的大小

Jan 31 PHP

常见php数据文件缓存类汇总

Dec 05 PHP

浅谈php冒泡排序

Dec 30 PHP

PHP中使用正则表达式提取中文实现笔记

Jan 20 PHP

PHP实现无限分类的实现方法

Nov 14 PHP

使用Codeigniter重写insert的方法(推荐)

Mar 23 PHP

php安全配置记录和常见错误梳理(总结)

Mar 28 PHP

php nginx 实时输出的简单实现方法

Jan 21 PHP

php微信公众号开发之图片回复

Oct 20 PHP

PHP使用Session实现上传进度功能详解

Aug 06 PHP

Windows下部署Apache+PHP+MySQL运行环境实战

Aug 31 #PHP

关于UEditor编辑器远程图片上传失败的解决办法

Aug 31 #PHP

php数组一对一替换实现代码

Aug 31 #PHP

PHP 利用AJAX获取网页并输出的实现代码(Zjmainstay)

Aug 31 #PHP

PHP的简易冒泡法代码分享

Aug 28 #PHP

php 解决旧系统查出所有数据分页的类

Aug 27 #PHP

PHP实现手机归属地查询API接口实现代码

Aug 27 #PHP

You might like

DOTA2【瓜皮时刻】Vol.91 RTZ山史最惨“矿难”

2021/03/05 DOTA

使用php+Ajax实现唯一校验实现代码[简单应用]

2011/11/29 PHP

PHP图片上传代码

2013/11/04 PHP

php实现压缩多个CSS与JS文件的方法

2014/11/11 PHP

PHP获取文件相对路径的方法

2015/02/26 PHP

浅析PHP反序列化中过滤函数使用不当导致的对象注入问题

2020/02/15 PHP

js截取小数点后几位的写法

2013/11/14 Javascript

JS实现的仿淘宝交易倒计时效果

2015/11/27 Javascript

原生js实现网页顶部自动下拉/收缩广告效果

2017/01/20 Javascript

从零开始做一个pagination分页组件

2017/03/15 Javascript

详解在vue-cli项目中安装node-sass

2017/06/21 Javascript

bootstrap multiselect下拉列表功能

2017/08/22 Javascript

js仿微信抢红包功能

2020/09/25 Javascript

vue获取input输入值的问题解决办法

2017/10/17 Javascript

JS中图片压缩的方法小结

2017/11/14 Javascript

JS同步、异步、延迟加载的方法

2018/05/05 Javascript

nodejs前端模板引擎swig入门详解

2018/05/15 NodeJs

解决vue-cli单页面手机应用input点击手机端虚拟键盘弹出盖住input问题

2018/08/25 Javascript

jQuery 函数实例分析【函数声明、函数表达式、匿名函数等】

2020/05/19 jQuery

[47:21]Liquid vs TNC Supermajor 胜者组 BO3 第一场 6.4

2018/06/05 DOTA

Python 中 Virtualenv 和 pip 的简单用法详解

2017/08/18 Python

python 3.0 模拟用户登录功能并实现三次错误锁定

2017/11/01 Python

python实现百度语音识别api

2018/04/10 Python

matplotlib subplots 调整子图间矩的实例

2018/05/25 Python

pycharm下查看python的变量类型和变量内容的方法

2018/06/26 Python

python实现简单名片管理系统

2018/11/30 Python

Python和Java的语法对比分析语法简洁上python的确完美胜出

2019/05/10 Python

CSS3之2D与3D变换的实现方法

2019/01/28 HTML / CSS

《夏夜多美》教学反思

2014/02/17 职场文书

企业仓管员岗位职责

2014/06/15 职场文书

司法局群众路线教育实践活动整改措施思想汇报

2014/10/13 职场文书

2015关于重阳节的演讲稿

2015/03/20 职场文书

冬季作息时间调整通知

2015/04/24 职场文书

2015年基层党建工作总结

2015/05/14 职场文书

教你使用VS Code的MySQL扩展管理数据库的方法

2022/01/22 MySQL

PyTorch中的torch.cat简单介绍

2022/03/17 Python