GD输出汉字的函数的分析


Posted in PHP onOctober 09, 2006

    很早以前找到一个把GB码转化为UTF-8的函数,配合一个GB到UNICODE的对照表(gb2312.txt),用于在GD中输出汉字。后来发现在欲输出的内容中含有西文字符时,会出现混乱。后来找到了修改后的代码,解决了问题。现将两个函数做一对比分析如下。

首先,这是一个UNICODE到UTF-8编码转换的函数,这一部分修改前后没有变化:
function u2utf8($c)
{
for($i=0;$i<count($c);$i++)
$str="";
if ($c < 0x80) {
$str.=$c;
}
else if ($c < 0x800) {
$str.=(0xC0 | $c>>6);
$str.=(0x80 | $c & 0x3F);
}
else if ($c < 0x10000) {
$str.=(0xE0 | $c>>12);
$str.=(0x80 | $c>>6 & 0x3F);
$str.=(0x80 | $c & 0x3F);
}
else if ($c < 0x200000) {
$str.=(0xF0 | $c>>18);
$str.=(0x80 | $c>>12 & 0x3F);
$str.=(0x80 | $c>>6 & 0x3F);
$str.=(0x80 | $c & 0x3F);
}
return $str;
}

这里完全是按照UTF-8编码的规则,通过判断字符属于不同的UNICODE编码段范围,进行不同的移位和位与操作,以转化为UTF-8编码。关于该规则可参考http://www.utf8.org/上的说明。

这是修改前的GB转化为UTF-8编码的函数,其中调用了上面的u2utf8函数。
function gb2utf8($gb)     /* Program writen by sadly www.phpx.com  */
{
if(!trim($gb))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))>127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
$utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
}
else
{
$gb=substr($gb,1,strlen($gb));
$utf8.=u2utf8(substr($gb,0,1));
}
}

$ret="";
for($i=0;$i<strlen($utf8);$i+=3)
$ret.=chr(substr($utf8,$i,3));

return $ret;
}
函数中while循环部分,把汉字逐个按照“对照表”转化为UNICODE,再通过u2utf8函数转化为UTF-8。但从中可以看出,while循环结束后,又用一个for循环,把每三个字节合成了一个UTF-8字符(见http://www.utf8.org/上的规则说明,每个汉字的UTF-8编码为三字节),没有考虑到其中的西文字符(西文字符的UTF-8编码为一字节)。所以,如果欲输出的内容中不论是开始时出现西文字符,或是汉字当中穿插西文字符,转化为UTF-8后,都会被按照“每三个字节截取”的方式截开,导致乱码。

以下是修改后的函数:
function gb2utf8($gb)    /* Program writen by sadly   modified by agun */
{
if(!trim($gb))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);

$ret="";
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))>127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
$utf8=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
for($i=0;$i<strlen($utf8);$i+=3)
$ret.=chr(substr($utf8,$i,3));
}
else
{
$ret.=substr($gb,0,1);
$gb=substr($gb,1,strlen($gb));
}
}
return $ret;
}

修改后的函数将 GB转化为UNICODE、UNICODE转化为UTF-8、几个字节合成一个UTF-8字符,这三个步骤在一个循环里完成,尤其是几个字节合成一个UTF-8字符这一步骤,放在判断了字符属于西文还是属于汉字的条件分支里,据此决定截取一个字节还是三个字节。于是结果正确了!

PHP 相关文章推荐
php 获得汉字拼音首字母的函数
Aug 01 PHP
php中Smarty模板初体验
Aug 08 PHP
色色整理的PHP面试题集锦
Mar 08 PHP
PHP服务器页面间跳转实现方法
Aug 02 PHP
编写php应用程序实现摘要式身份验证的方法详解
Jun 08 PHP
解析php中var_dump,var_export,print_r三个函数的区别
Jun 21 PHP
php实现在服务器上创建目录的方法
Mar 16 PHP
PHP session 会话处理函数
Jun 06 PHP
PHP微信模板消息操作示例
Jun 29 PHP
PHP+Redis开发的书签案例实战详解
Jul 09 PHP
Laravel 集成微信用户登录和绑定的实现
Dec 27 PHP
TP3.2.3框架文件上传操作实例详解
Jan 23 PHP
类的另类用法--数据的封装
Oct 09 #PHP
最小化数据传输――在客户端存储数据
Oct 09 #PHP
网站加速 PHP 缓冲的免费实现方法
Oct 09 #PHP
Windows下PHP的任意文件执行漏洞
Oct 09 #PHP
通过对服务器端特性的配置加强php的安全
Oct 09 #PHP
用Zend Encode编写开发PHP程序
Oct 09 #PHP
在php中使用sockets:从新闻组中获取文章
Oct 09 #PHP
You might like
如何使用PHP往windows中添加用户
2006/12/06 PHP
php+mysql 实现身份验证代码
2010/03/24 PHP
PHP用反撇号执行外部命令
2015/04/14 PHP
php中10个不同等级压缩优化图片操作示例
2016/11/14 PHP
老生常谈PHP 文件写入和读取(必看篇)
2017/05/22 PHP
Nginx下ThinkPHP5的配置方法详解
2017/08/01 PHP
PHP使用Redis实现Session共享的实现示例
2019/05/12 PHP
北京奥运官方网站幻灯切换效果flash版打包下载
2008/01/30 Javascript
jQuery1.3.2 升级到jQuery1.4.4需要修改的地方
2011/01/06 Javascript
基于jQuery实现的百度导航li拖放排列效果,即时更新数据库
2012/07/31 Javascript
如何解决Jquery库及其他库之间的$命名冲突
2013/09/15 Javascript
js获得网页背景色和字体色的方法
2014/03/21 Javascript
Javascript实现颜色rgb与16进制转换的方法
2015/04/18 Javascript
javascript实现可键盘控制的抽奖系统
2016/03/10 Javascript
概述VUE2.0不可忽视的很多变化
2016/09/25 Javascript
JavaScript中Object基础内部方法图
2018/02/05 Javascript
[02:53]DOTA2英雄昆卡基础教程
2013/11/25 DOTA
[35:43]2018DOTA2亚洲邀请赛 4.1 小组赛B组 paiN vs Effect
2018/04/03 DOTA
python单线程实现多个定时器示例
2014/03/30 Python
python使用Apriori算法进行关联性解析
2017/12/21 Python
Python爬虫通过替换http request header来欺骗浏览器实现登录功能
2018/01/07 Python
PyQt5打开文件对话框QFileDialog实例代码
2018/02/07 Python
pyqt5 实现 下拉菜单 + 打开文件的示例代码
2019/06/20 Python
python网络爬虫 CrawlSpider使用详解
2019/09/27 Python
Python爬虫之Selenium下拉框处理的实现
2020/12/04 Python
中专生求职自荐信范文
2013/12/22 职场文书
最新奶茶店创业计划书
2014/01/25 职场文书
学生自我评价范文
2014/02/02 职场文书
运动会邀请函范文
2014/02/06 职场文书
教学评估实施方案
2014/03/16 职场文书
教师党员公开承诺事项
2014/05/28 职场文书
经济信息系毕业生自荐信
2014/06/02 职场文书
年度考核表个人总结
2015/03/06 职场文书
总结Pyinstaller打包的高级用法
2021/06/28 Python
Pygame Rect区域位置的使用(图文)
2021/11/17 Python
企业开发CSS命名BEM代码规范实践
2022/02/12 HTML / CSS