GD输出汉字的函数的分析


Posted in PHP onOctober 09, 2006

    很早以前找到一个把GB码转化为UTF-8的函数,配合一个GB到UNICODE的对照表(gb2312.txt),用于在GD中输出汉字。后来发现在欲输出的内容中含有西文字符时,会出现混乱。后来找到了修改后的代码,解决了问题。现将两个函数做一对比分析如下。

首先,这是一个UNICODE到UTF-8编码转换的函数,这一部分修改前后没有变化:
function u2utf8($c)
{
for($i=0;$i<count($c);$i++)
$str="";
if ($c < 0x80) {
$str.=$c;
}
else if ($c < 0x800) {
$str.=(0xC0 | $c>>6);
$str.=(0x80 | $c & 0x3F);
}
else if ($c < 0x10000) {
$str.=(0xE0 | $c>>12);
$str.=(0x80 | $c>>6 & 0x3F);
$str.=(0x80 | $c & 0x3F);
}
else if ($c < 0x200000) {
$str.=(0xF0 | $c>>18);
$str.=(0x80 | $c>>12 & 0x3F);
$str.=(0x80 | $c>>6 & 0x3F);
$str.=(0x80 | $c & 0x3F);
}
return $str;
}

这里完全是按照UTF-8编码的规则,通过判断字符属于不同的UNICODE编码段范围,进行不同的移位和位与操作,以转化为UTF-8编码。关于该规则可参考http://www.utf8.org/上的说明。

这是修改前的GB转化为UTF-8编码的函数,其中调用了上面的u2utf8函数。
function gb2utf8($gb)     /* Program writen by sadly www.phpx.com  */
{
if(!trim($gb))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))>127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
$utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
}
else
{
$gb=substr($gb,1,strlen($gb));
$utf8.=u2utf8(substr($gb,0,1));
}
}

$ret="";
for($i=0;$i<strlen($utf8);$i+=3)
$ret.=chr(substr($utf8,$i,3));

return $ret;
}
函数中while循环部分,把汉字逐个按照“对照表”转化为UNICODE,再通过u2utf8函数转化为UTF-8。但从中可以看出,while循环结束后,又用一个for循环,把每三个字节合成了一个UTF-8字符(见http://www.utf8.org/上的规则说明,每个汉字的UTF-8编码为三字节),没有考虑到其中的西文字符(西文字符的UTF-8编码为一字节)。所以,如果欲输出的内容中不论是开始时出现西文字符,或是汉字当中穿插西文字符,转化为UTF-8后,都会被按照“每三个字节截取”的方式截开,导致乱码。

以下是修改后的函数:
function gb2utf8($gb)    /* Program writen by sadly   modified by agun */
{
if(!trim($gb))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);

$ret="";
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))>127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
$utf8=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
for($i=0;$i<strlen($utf8);$i+=3)
$ret.=chr(substr($utf8,$i,3));
}
else
{
$ret.=substr($gb,0,1);
$gb=substr($gb,1,strlen($gb));
}
}
return $ret;
}

修改后的函数将 GB转化为UNICODE、UNICODE转化为UTF-8、几个字节合成一个UTF-8字符,这三个步骤在一个循环里完成,尤其是几个字节合成一个UTF-8字符这一步骤,放在判断了字符属于西文还是属于汉字的条件分支里,据此决定截取一个字节还是三个字节。于是结果正确了!

PHP 相关文章推荐
如何做到多笔资料的同步
Oct 09 PHP
我用php+mysql写的留言本
Oct 09 PHP
模板引擎正则表达式调试小技巧
Jul 20 PHP
destoon实现调用热门关键字的方法
Jul 15 PHP
PHP使用CURL_MULTI实现多线程采集的例子
Jul 29 PHP
PHP中使用break跳出多重循环代码实例
Jan 21 PHP
初识ThinkPHP控制器
Apr 07 PHP
PHP实现的自定义图像居中裁剪函数示例【测试可用】
Aug 11 PHP
基于PHP-FPM进程池探秘
Oct 17 PHP
PHP实现发送微博消息功能完整示例
Dec 04 PHP
php libevent 功能与使用方法详解
Mar 04 PHP
ThinkPHP5.1验证码功能实现的示例代码
Jun 08 PHP
类的另类用法--数据的封装
Oct 09 #PHP
最小化数据传输――在客户端存储数据
Oct 09 #PHP
网站加速 PHP 缓冲的免费实现方法
Oct 09 #PHP
Windows下PHP的任意文件执行漏洞
Oct 09 #PHP
通过对服务器端特性的配置加强php的安全
Oct 09 #PHP
用Zend Encode编写开发PHP程序
Oct 09 #PHP
在php中使用sockets:从新闻组中获取文章
Oct 09 #PHP
You might like
攻克CakePHP系列二 表单数据显示
2008/10/22 PHP
PHP中register_globals参数为OFF和ON的区别(register_globals 使用详解)
2012/02/05 PHP
ThinkPHP中使用Ueditor富文本编辑器
2015/09/02 PHP
PHP实现文件上传下载实例
2016/10/18 PHP
Laravel中七个非常有用但很少人知道的Carbon方法
2017/09/21 PHP
PHP 访问数据库配置通用方法(json)
2018/05/20 PHP
PHP按一定比例压缩图片的方法
2018/10/12 PHP
基于原生JS实现图片裁剪
2016/08/01 Javascript
JavaScript将base64图片转换成formData并通过AJAX提交的实现方法
2016/10/24 Javascript
JS中用childNodes获取子元素换行会产生一个子元素
2016/12/08 Javascript
利用types增强vscode中js代码提示功能详解
2017/07/07 Javascript
vue-cli中的webpack配置详解
2017/09/25 Javascript
element-ui的回调函数Events的用法详解
2018/10/16 Javascript
JavaScript判断对象和数组的两种方法
2019/05/31 Javascript
使用RxJS更优雅地进行定时请求详析
2019/06/02 Javascript
axios如何利用promise无痛刷新token的实现方法
2019/08/27 Javascript
VUEX-action可以修改state吗
2019/11/19 Javascript
js将URL网址转为16进制加密与解密函数
2020/03/04 Javascript
原生JavaScript实现换肤
2021/02/19 Javascript
[03:24]2014DOTA2国际邀请赛 神秘商店生意火爆
2014/07/18 DOTA
[56:29]Secret vs Optic 2018国际邀请赛小组赛BO2 第一场 8.18
2018/08/19 DOTA
pycharm 使用心得(二)设置字体大小
2014/06/05 Python
Python对数据库操作
2016/03/28 Python
python监控文件或目录变化
2016/06/07 Python
python将print输出的信息保留到日志文件中
2019/09/27 Python
使用Rasterio读取栅格数据的实例讲解
2019/11/26 Python
如何用Python 实现全连接神经网络(Multi-layer Perceptron)
2020/10/15 Python
德国珠宝和配件商店:Styleserver
2021/02/23 全球购物
通信专业个人自我鉴定
2013/10/21 职场文书
夜不归宿检讨书
2014/02/25 职场文书
供用电专业求职信
2014/07/07 职场文书
关于艺术节的开幕致辞
2016/03/04 职场文书
apache基于端口创建虚拟主机的示例
2021/04/24 Servers
MySQL下使用Inplace和Online方式创建索引的教程
2021/05/26 MySQL
多线程Spring通过@Scheduled实现定时任务
2022/05/25 Java/Android
CSS 实现角标效果的完整代码
2022/06/28 HTML / CSS