php字符编码转换之gb2312转为utf8


Posted in PHP onOctober 28, 2013

 在php中字符编码转换我们一般会用到iconv与mb_convert_encoding进行操作,但是mb_convert_encoding在转换性能上比iconv要差很多哦。
string iconv ( string in_charset, string out_charset, string str ) 注意:第二个参数,除了可以指定要转化到的编码以外,还可以增加两个后缀://TRANSLIT 和 //IGNORE,其中 //TRANSLIT 会自动将不能直接转化的字符变成一个或多个近似的字符,//IGNORE 会忽略掉不能转化的字符,而默认效果是从第一个非法字符截断。
Returns the converted string or FALSE on failure.
string mb_convert_encoding ( string str, string to_encoding [, mixed from_encoding] )
需要先enable mbstring 扩展库,在 php.ini里将; extension=php_mbstring.dll 前面的 ; 去掉
mb_convert_encoding 可以指定多种输入编码,它会根据内容自动识别,但是执行效率比iconv差太多;

使用:
发现iconv在转换字符”—”到gb2312时会出错,如果没有ignore参数,所有该字符后面的字符串都无法被保存。不管怎么样,这个”—”都无法转换成功,无法输出。 另外mb_convert_encoding没有这个bug.
一般情况下用 iconv,只有当遇到无法确定原编码是何种编码,或者iconv转化后无法正常显示时才用mb_convert_encoding 函数.

/** 
*自动判断把gbk或gb2312编码的字符串转为utf8 
*能自动判断输入字符串的编码类,如果本身是utf-8就不用转换,否则就转换为utf-8的字符串 
*支持的字符编码类型是:utf-8,gbk,gb2312 
*@$str:string 字符串 
*/ 
function yang_gbk2utf8($str){ 
    $charset = mb_detect_encoding()($str,array('UTF-8','GBK','GB2312')); 
    $charset = strtolower($charset); 
    if('cp936' == $charset){ 
        $charset='GBK'; 
    } 
    if("utf-8" != $charset){ 
        $str = iconv($charset,"UTF-8//IGNORE",$str); 
    } 
    return $str; 
}

下面我接着看在转换字符编码的一些问题
用mb_detect_encoding($str);函数,使用该函数必须打开php的extension=php_mbstring.dll扩展
<?php
$str="测试ing";
$cha=mb_detect_encoding($str);
$s = iconv($cha,"UTF-8",$str);
var_dump($s);
?>

结果返回:
string(0) “”
真是奇怪,为什么会这样。
<?php
$str="测试ing";
$cha=mb_detect_encoding($str);
$s = iconv("GB2312","UTF-8",$str);
var_dump($s);
?>

返回结果正确。发现该函数mb_detect_encoding($str);判断还是不准确。不知是什么原因。
函数string mb_convert_encoding ( string $str , string $to_encoding [, mixed $from_encoding ] )
可以转换为指定编码的字符串,我写了例子
<pre lang="php" line="1">
<?php
$a="我很好";
echo mb_convert_encoding ($a,'UTF-8');
?>

可结果是:
??潞?潞?
现在的问题就是我如果把不同的字符串编码形式统一转换为utf-8,如果事先知道改变吗可以用iconv,但如果不知道该编码该怎么办呢?
问题3:iconv问题,如果转换的字符串,第一个字节的编码大于一定的数会返回空.
如:
<?php
$str=chr(254)."测试ing".chr(254);
$s = iconv("GB2312","UTF-8",$str);
var_dump($s);
?>

返回
string(0) “”

mb_convert_encoding的用法见官方:

http://cn.php.net/manual/en/function.mb-convert-encoding.php

PHP中的另外一个函数iconv也是用来转换字符串编码的,与上函数功能相似。

下面还有一些详细的例子:
iconv — Convert string to requested character encoding
(PHP 4 >= 4.0.5, PHP 5)
mb_convert_encoding — Convert character encoding
(PHP 4 >= 4.0.6, PHP 5)
用法:
string mb_convert_encoding ( string str, string to_encoding [, mixed from_encoding] )
需要先enable mbstring 扩展库,在 php.ini里将; extension=php_mbstring.dll 前面的 ; 去掉
mb_convert_encoding 可以指定多种输入编码,它会根据内容自动识别,但是执行效率比iconv差太多;
string iconv ( string in_charset, string out_charset, string str )
注意:第二个参数,除了可以指定要转化到的编码以外,还可以增加两个后缀://TRANSLIT 和 //IGNORE,其中 //TRANSLIT 会自动将不能直接转化的字符变成一个或多个近似的字符,//IGNORE 会忽略掉不能转化的字符,而默认效果是从第一个非法字符截断。
Returns the converted string or FALSE on failure.
使用:
发现iconv在转换字符”—”到gb2312时会出错,如果没有ignore参数,所有该字符后面的字符串都无法被保存。不管怎么样,这个”—”都无法转换成功,无法输出。 另外mb_convert_encoding没有这个bug.
一般情况下用 iconv,只有当遇到无法确定原编码是何种编码,或者iconv转化后无法正常显示时才用mb_convert_encoding 函数.
from_encoding is specified by character code name before conversion. it can be array or string ? comma separated enumerated list. If it is not specified, the internal encoding will be used.
/* Auto detect encoding from JIS, eucjp-win, sjis-win, then convert str to UCS-2LE */
$str = mb_convert_encoding($str, “UCS-2LE”, “JIS, eucjp-win, sjis-win”);
/* “auto” is expanded to “ASCII,JIS,UTF-8,EUC-JP,SJIS” */
$str = mb_convert_encoding($str, “EUC-JP”, “auto”);
例子:

<?php  
 $content = iconv("GBK", "UTF-8", $content);  
 $content = mb_convert_encoding($content, "UTF-8", "GBK");  
?>

这个可以根据输入输出的字符编码进行转换
<?php
function phpcharset($data, $to) {
 if(is_array($data)) {
  foreach($data as $key => $val) {
   $data[$key] = phpcharset($val, $to);
  }
 } else {
  $encode_array = array('ASCII', 'UTF-8', 'GBK', 'GB2312', 'BIG5');
  $encoded = mb_detect_encoding($data, $encode_array);
  $to = strtoupper($to);
  if($encoded != $to) {
   $data = mb_convert_encoding($data, $to, $encoded);
  }
 }
 return $data;
}
?>
PHP 相关文章推荐
PHP 数组教程 定义数组
Oct 23 PHP
php 团购折扣计算公式
Nov 24 PHP
PHP中去除换行解决办法小结(PHP_EOL)
Nov 27 PHP
PHP中判断变量为空的几种方法分享
Aug 26 PHP
destoon二次开发常用数据库操作
Jun 21 PHP
PHP图像处理之使用imagecolorallocate()函数设置颜色例子
Nov 19 PHP
php替换字符串中间字符为省略号的方法
May 04 PHP
php实现的http请求封装示例
Nov 08 PHP
php unicode编码和字符串互转的方法
Aug 12 PHP
PHP框架Laravel中实现supervisor执行异步进程的方法
Jun 07 PHP
php脚本守护进程原理与实现方法详解
Jul 20 PHP
thinkPHP5框架中widget的功能与用法详解
Jun 11 PHP
使用PHP curl模拟浏览器抓取网站信息
Oct 28 #PHP
php header功能的使用
Oct 28 #PHP
简单实用的.net DataTable导出Execl
Oct 28 #PHP
php json与xml序列化/反序列化
Oct 28 #PHP
php中的boolean(布尔)类型详解
Oct 28 #PHP
php中的比较运算符详解
Oct 28 #PHP
php float不四舍五入截取浮点型字符串方法总结
Oct 28 #PHP
You might like
我的论坛源代码(一)
2006/10/09 PHP
PHP print类函数使用总结
2010/06/25 PHP
php IP转换整形(ip2long)的详解
2013/06/06 PHP
基于xcache的配置与使用详解
2013/06/18 PHP
PHP制作3D扇形统计图以及对图片进行缩放操作实例
2014/10/23 PHP
php实现在服务器端调整图片大小的方法
2015/06/16 PHP
编写PHP脚本清除WordPress头部冗余代码的方法讲解
2016/03/01 PHP
ThinkPHP中类的构造函数_construct()与_initialize()的区别详解
2017/03/13 PHP
一个小型js框架myJSFrame附API使用帮助
2008/06/28 Javascript
jquery tools 系列 scrollable(2)
2009/09/06 Javascript
JavaScript对象、属性、事件手册集合方便查询
2010/07/04 Javascript
css样式标签和js语法属性区别
2013/11/06 Javascript
判断js的Array和Object的实现方法
2016/08/29 Javascript
Ajax使用原生态JS验证用户名是否存在
2020/05/26 Javascript
自定义require函数让浏览器按需加载Js文件
2016/11/24 Javascript
微信小程序 支付后台java实现实例
2017/05/09 Javascript
Vue中的字符串模板的使用
2018/05/17 Javascript
Nodejs封装类似express框架的路由实例详解
2020/01/05 NodeJs
Node.js API详解之 net模块实例分析
2020/05/18 Javascript
跟老齐学Python之正规地说一句话
2014/09/28 Python
python使用两种发邮件的方式smtp和outlook示例
2017/06/02 Python
python实现八大排序算法(1)
2017/09/14 Python
Python3远程监控程序的实现方法
2019/07/15 Python
linux下python中文乱码解决方案详解
2019/08/28 Python
Python迭代器协议及for循环工作机制详解
2020/07/14 Python
利用Pycharm + Django搭建一个简单Python Web项目的步骤
2020/10/22 Python
canvas 实现 github404动态效果的示例代码
2017/11/15 HTML / CSS
Python是如何进行类型转换的
2013/06/09 面试题
小学运动会广播稿200字(十二篇)
2014/01/14 职场文书
骨干教师培训方案
2014/05/06 职场文书
竞聘上岗演讲
2014/05/19 职场文书
制冷与空调专业毕业生推荐信
2014/07/07 职场文书
上班时间打瞌睡检讨书
2014/09/26 职场文书
教你使用vscode 搭建react-native开发环境
2021/07/07 Javascript
Mysql数据库手动及定时备份步骤
2021/11/07 MySQL
详解JSON.parse和JSON.stringify用法
2022/02/18 Javascript