php字符编码转换之gb2312转为utf8


Posted in PHP onOctober 28, 2013

 在php中字符编码转换我们一般会用到iconv与mb_convert_encoding进行操作,但是mb_convert_encoding在转换性能上比iconv要差很多哦。
string iconv ( string in_charset, string out_charset, string str ) 注意:第二个参数,除了可以指定要转化到的编码以外,还可以增加两个后缀://TRANSLIT 和 //IGNORE,其中 //TRANSLIT 会自动将不能直接转化的字符变成一个或多个近似的字符,//IGNORE 会忽略掉不能转化的字符,而默认效果是从第一个非法字符截断。
Returns the converted string or FALSE on failure.
string mb_convert_encoding ( string str, string to_encoding [, mixed from_encoding] )
需要先enable mbstring 扩展库,在 php.ini里将; extension=php_mbstring.dll 前面的 ; 去掉
mb_convert_encoding 可以指定多种输入编码,它会根据内容自动识别,但是执行效率比iconv差太多;

使用:
发现iconv在转换字符”—”到gb2312时会出错,如果没有ignore参数,所有该字符后面的字符串都无法被保存。不管怎么样,这个”—”都无法转换成功,无法输出。 另外mb_convert_encoding没有这个bug.
一般情况下用 iconv,只有当遇到无法确定原编码是何种编码,或者iconv转化后无法正常显示时才用mb_convert_encoding 函数.

/** 
*自动判断把gbk或gb2312编码的字符串转为utf8 
*能自动判断输入字符串的编码类,如果本身是utf-8就不用转换,否则就转换为utf-8的字符串 
*支持的字符编码类型是:utf-8,gbk,gb2312 
*@$str:string 字符串 
*/ 
function yang_gbk2utf8($str){ 
    $charset = mb_detect_encoding()($str,array('UTF-8','GBK','GB2312')); 
    $charset = strtolower($charset); 
    if('cp936' == $charset){ 
        $charset='GBK'; 
    } 
    if("utf-8" != $charset){ 
        $str = iconv($charset,"UTF-8//IGNORE",$str); 
    } 
    return $str; 
}

下面我接着看在转换字符编码的一些问题
用mb_detect_encoding($str);函数,使用该函数必须打开php的extension=php_mbstring.dll扩展
<?php
$str="测试ing";
$cha=mb_detect_encoding($str);
$s = iconv($cha,"UTF-8",$str);
var_dump($s);
?>

结果返回:
string(0) “”
真是奇怪,为什么会这样。
<?php
$str="测试ing";
$cha=mb_detect_encoding($str);
$s = iconv("GB2312","UTF-8",$str);
var_dump($s);
?>

返回结果正确。发现该函数mb_detect_encoding($str);判断还是不准确。不知是什么原因。
函数string mb_convert_encoding ( string $str , string $to_encoding [, mixed $from_encoding ] )
可以转换为指定编码的字符串,我写了例子
<pre lang="php" line="1">
<?php
$a="我很好";
echo mb_convert_encoding ($a,'UTF-8');
?>

可结果是:
??潞?潞?
现在的问题就是我如果把不同的字符串编码形式统一转换为utf-8,如果事先知道改变吗可以用iconv,但如果不知道该编码该怎么办呢?
问题3:iconv问题,如果转换的字符串,第一个字节的编码大于一定的数会返回空.
如:
<?php
$str=chr(254)."测试ing".chr(254);
$s = iconv("GB2312","UTF-8",$str);
var_dump($s);
?>

返回
string(0) “”

mb_convert_encoding的用法见官方:

http://cn.php.net/manual/en/function.mb-convert-encoding.php

PHP中的另外一个函数iconv也是用来转换字符串编码的,与上函数功能相似。

下面还有一些详细的例子:
iconv — Convert string to requested character encoding
(PHP 4 >= 4.0.5, PHP 5)
mb_convert_encoding — Convert character encoding
(PHP 4 >= 4.0.6, PHP 5)
用法:
string mb_convert_encoding ( string str, string to_encoding [, mixed from_encoding] )
需要先enable mbstring 扩展库,在 php.ini里将; extension=php_mbstring.dll 前面的 ; 去掉
mb_convert_encoding 可以指定多种输入编码,它会根据内容自动识别,但是执行效率比iconv差太多;
string iconv ( string in_charset, string out_charset, string str )
注意:第二个参数,除了可以指定要转化到的编码以外,还可以增加两个后缀://TRANSLIT 和 //IGNORE,其中 //TRANSLIT 会自动将不能直接转化的字符变成一个或多个近似的字符,//IGNORE 会忽略掉不能转化的字符,而默认效果是从第一个非法字符截断。
Returns the converted string or FALSE on failure.
使用:
发现iconv在转换字符”—”到gb2312时会出错,如果没有ignore参数,所有该字符后面的字符串都无法被保存。不管怎么样,这个”—”都无法转换成功,无法输出。 另外mb_convert_encoding没有这个bug.
一般情况下用 iconv,只有当遇到无法确定原编码是何种编码,或者iconv转化后无法正常显示时才用mb_convert_encoding 函数.
from_encoding is specified by character code name before conversion. it can be array or string ? comma separated enumerated list. If it is not specified, the internal encoding will be used.
/* Auto detect encoding from JIS, eucjp-win, sjis-win, then convert str to UCS-2LE */
$str = mb_convert_encoding($str, “UCS-2LE”, “JIS, eucjp-win, sjis-win”);
/* “auto” is expanded to “ASCII,JIS,UTF-8,EUC-JP,SJIS” */
$str = mb_convert_encoding($str, “EUC-JP”, “auto”);
例子:

<?php  
 $content = iconv("GBK", "UTF-8", $content);  
 $content = mb_convert_encoding($content, "UTF-8", "GBK");  
?>

这个可以根据输入输出的字符编码进行转换
<?php
function phpcharset($data, $to) {
 if(is_array($data)) {
  foreach($data as $key => $val) {
   $data[$key] = phpcharset($val, $to);
  }
 } else {
  $encode_array = array('ASCII', 'UTF-8', 'GBK', 'GB2312', 'BIG5');
  $encoded = mb_detect_encoding($data, $encode_array);
  $to = strtoupper($to);
  if($encoded != $to) {
   $data = mb_convert_encoding($data, $to, $encoded);
  }
 }
 return $data;
}
?>
PHP 相关文章推荐
一个php作的文本留言本的例子(二)
Oct 09 PHP
一个PHP+MSSQL分页的例子
Oct 09 PHP
用函数读出数据表内容放入二维数组
Oct 09 PHP
PHP提示Cannot modify header information - headers already sent by解决方法
Sep 22 PHP
php判断当前用户已在别处登录的方法
Jan 06 PHP
PHP会话处理的10个函数
Aug 11 PHP
PHP闭包函数详解
Feb 13 PHP
Laravel中log无法写入问题的解决
Jun 17 PHP
Yii2.0 RESTful API 基础配置教程详解
Dec 26 PHP
PHP之多条件混合筛选功能的实现方法
Oct 09 PHP
浅谈laravel框架sql中groupBy之后排序的问题
Oct 17 PHP
PHP pthreads v3下worker和pool的使用方法示例
Feb 21 PHP
使用PHP curl模拟浏览器抓取网站信息
Oct 28 #PHP
php header功能的使用
Oct 28 #PHP
简单实用的.net DataTable导出Execl
Oct 28 #PHP
php json与xml序列化/反序列化
Oct 28 #PHP
php中的boolean(布尔)类型详解
Oct 28 #PHP
php中的比较运算符详解
Oct 28 #PHP
php float不四舍五入截取浮点型字符串方法总结
Oct 28 #PHP
You might like
PHP实现简单搜歌的方法
2015/07/28 PHP
ThinkPHP删除栏目(实现批量删除栏目)
2017/06/21 PHP
jQuery 性能优化指南 (1)
2009/05/21 Javascript
JQuery 表单中textarea字数限制实现代码
2009/12/07 Javascript
SWFObject 2.1以上版本语法介绍
2010/07/10 Javascript
使用隐藏的new来创建对象
2011/03/29 Javascript
JQuery select控件的相关操作实现代码
2012/09/14 Javascript
javascript日期计算实例分析
2015/06/29 Javascript
微信JSSDK上传图片
2015/08/23 Javascript
nodejs入门教程三:调用内部和外部方法示例
2017/04/24 NodeJs
学习使用Bootstrap输入框、导航、分页等常用组件
2017/05/11 Javascript
详解用vue.js和laravel实现微信授权登陆
2017/06/23 Javascript
Vue.js中的组件系统
2019/05/30 Javascript
Vue+ElementUI使用vue-pdf实现预览功能
2019/11/26 Javascript
原生js实现贪吃蛇游戏
2020/10/26 Javascript
把项目从Python2.x移植到Python3.x的经验总结
2015/04/20 Python
Python连接PostgreSQL数据库的方法
2016/11/28 Python
Python引用传值概念与用法实例小结
2017/10/07 Python
解决新版Pycharm中Matplotlib图像不在弹出独立的显示窗口问题
2019/01/15 Python
Python实现报警信息实时发送至邮箱功能(实例代码)
2019/11/11 Python
python线程里哪种模块比较适合
2020/08/02 Python
jupyter notebook更换皮肤主题的实现
2021/01/07 Python
Python中的面向接口编程示例详解
2021/01/17 Python
小学生自我评价范文
2014/01/25 职场文书
超市采购员岗位职责
2014/02/01 职场文书
骨干教师考核方案
2014/05/09 职场文书
旅游节目策划方案
2014/05/26 职场文书
广告学专业求职信
2014/06/19 职场文书
2014年教师节座谈会发言稿
2014/09/10 职场文书
投标人法定代表人授权委托书格式
2014/09/28 职场文书
教师自我剖析材料
2014/09/29 职场文书
《鲸》教学反思
2016/02/23 职场文书
解决Laravel使用验证时跳转到首页的问题
2021/11/17 PHP
基于PyQT5制作一个桌面摸鱼工具
2022/02/15 Python
Python捕获、播放和保存摄像头视频并提高视频清晰度和对比度
2022/04/14 Python
mysql 子查询的使用
2022/04/28 MySQL