编程 PHP

PHP 与 UTF-8 的最佳实践详细介绍

Posted in PHP onJanuary 04, 2017

《PHP中的字符串、编码、UTF-8》一文中描述了一些列的基础知识，比较枯燥，现在来说点有用的——PHP 字符串处理的最佳实践，本文是“PHP、字符串、编码、UTF-8”相关知识的第二部分。先说结论—— 在 PHP 中的各个方面使用 UTF-8 编码。

PHP 语言层面是不支持 Unicode字符集的，但是可以通过 UTF-8 编码能处理大部分问题。

最佳实践就是明确知道输入编码（不知道就检测），内部统一转换为 UTF-8 编码，输出编码也统一是 UTF-8编码。

PHP 层面如何处理 UTF-8

当操作 Unicode 字符集的时候，请务必安装 mbstring 扩展，并使用相应的函数代替原生的字符串函数。举个例子，一个文件编码为 UTF-8 的 PHP 代码，假如使用 strlen() 函数是错误的，请使用 mb_strlen() 函数代替。

mbstring 扩展大部分的函数都需要基于一个编码（内部编码）来处理，请务必统一使用 UTF-8 编码，这个大部分可以在 PHP.INI 中配置。

从 PHP 5.6 开始，default_charset 配置可以替换 mbstring.http_input，mbstring.http_output 。

另外一个重要的配置就是 mbstring.language，这个默认值是 Neutral（UTF-8）。

注意文件编码和 mbstring 扩展的内部编码不是同一个概念。

概括的说来：

PHP.INI 中涉及到 mbstring 扩展的部分尽量使用 UTF-8。
请用 mbstring 扩展函数代替原生字符串操作函数。
在使用相关函数的时候，请务必了解你操作的字符的编码是什么，在使用对应函数的时候，显示的写上 UTF-8 编码参数，比如 htmlentities() 函数的第三个参数显示写上 UTF-8。

文件 IO 操作如何处理 UTF-8

这里举个例子，假如你要打开一个文件，但是不知道文件内容是什么编码的，那么如何处理呢？

最佳实践就是，在打开的时候统一转换成 UTF-8，修改内容后就再转回原来的编码并保存到文件。看代码把：

if ( mb_internal_encoding()!="UTF-8") {
    mb_internal_encoding("UTF-8");
}

$file = "file.txt"; //一个编码为gbk的中文文件
$str= file_get_contents($file);
//不管来源是什么编码，统一显示的时候转换为 UTF-8
 if (mb_check_encoding($str,"GBK")) 
  $str = mb_convert_encoding($str,"UTF-8",“GBK”); 

$str ="修改内容";
$str = mb_convert_encoding($str,$srcbm,"UTF-8"); //原样转回去
file_put_contents($file,$str);

Mysql 和 UTF-8 的最佳实践

这个相对简单，首先保证你的 Mysql 都是 UTF-8。然后 Mysql 客户端连接的时候也保持 UTF-8，具体到 PHP 中，就是 imysql 或者 PDO 扩展连接 Mysql 的时候都设置 UTF-8 作为连接编码，二边保持一致，一般就不会遇到问题。

浏览器和 UTF-8 的最佳实践

这个也比较简单，就是你的输出内容假如是网页，那么你的字符串处理输出最总请保持为 UTF-8 ；同时 PHP.INI 中也明确设定 default_charset 为 UTF-8；HTML 的 Meta Tag 也明确标识为 UTF-8。

现在万事大吉了吗，并没有，虽然服务器和浏览器让用户使用 UTF-8 编码，但是用户的行为并没有约束性，他可能输入的是其他编码的字符，或者上传的文件名是其他编码的字符，那么怎么办呢？可以通过 mb_http_input() 和 mb_check_encoding() 函数来检测用户的编码，然后内部转换为 UTF-8。确保在任何一个层面，最终处理的是 UTF-8 编码。换句话说，需要手段能够知晓你的输入是什么编码的，处理完成后控制输出的编码是 UTF-8。

不建议使用 mbstring.encoding_translation 指令和 mb_detect_encoding() 函数。折磨我半天。

操作系统和 UTF-8 的最佳实践

由于操作系统的原因，PHP 处理 Unicode 文件名的时候会有不同的处理机制。

在 Linux 中，文件名始终是 UTF-8 编码的，而在中文 Windows 环境下，文件名始终是 GBK 编码的，记住这一点就可以了。

通过例子说明下:

//命令行程序函数，运行在中文版 Windows 10 操作系统 ，文件编码为 UTF-8

function filenameexample() {
  $filename = "测试.txt" ;
  $gbk_filename = iconv("UTF-8","GBK",$filename);
  file_put_contents($gbk_filename, "测试");
  echo file_get_contents($gbk_filename);
}

function scandirexample() {
  $arr = scandir("./tmp");
  foreach ($arr as $v) {
    if ($v == "." || $v =="..")
      continue ;
    $filename = iconv( "GBK","UTF-8",$v ) ;
    $content = file_get_contents("./tmp/" . $v );
  }
}

假如不想写写兼容 Windows 和 linux 的程序，可以对文件名进行 urlencode 编码，比如：

function urlencodeexample() {
  $filename = "测试2.txt" ;
  $urlencodefilename = urlencode($filename) ;
  file_put_contents($urlencodefilename, "测试");
  echo file_get_contents($urlencodefilename);
 }

在用 PHP 通过 header() 函数下载文件的时候，也要考虑浏览器和操作系统（大部分人使用的是 Windows），对于 Chrome 来说，输出的文件名编码可以是 UTF-8，Chrome 会自动将文件名转换为 GBK 编码。

而对于低版本的 IE 来说，它继承了操作系统的环境，所以下载文件名假如是中文必须转码为 UTF-8 编码，否则下载的时候用户看到的是乱码文件名。通过代码来说明：

$agent=$_SERVER["HTTP_USER_AGENT"];
if(strpos($agent,'MSIE')!==false ｛
  $filename = iconv("UTF-8","GBK","附件.txt");
  header("Content-Disposition: attachment; filename=\"$filename\"");
｝

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

PHP 与 UTF-8 的最佳实践详细介绍

- Author -

lqh

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

PHP 相关文章推荐

PHP 开源框架22个简单简介

Aug 24 PHP

PHP 图像尺寸调整代码

May 26 PHP

ThinkPHP采用模块和操作分析

Apr 18 PHP

使用php记录用户通过搜索引擎进网站的关键词

Feb 13 PHP

thinkphp中session和cookie无效的解决方法

Dec 19 PHP

php mongodb操作类带几个简单的例子

Aug 25 PHP

php事务回滚简单实现方法示例

Mar 28 PHP

让Laravel API永远返回JSON格式响应的方法示例

Sep 05 PHP

PHP implode()函数用法讲解

Mar 08 PHP

tp5(thinkPHP5框架)captcha验证码配置及验证操作示例

May 28 PHP

Laravel Eloquent ORM 多条件查询的例子

Oct 10 PHP

详解Laravel服务容器的优势

May 29 PHP

详解Yii2 定制表单输入字段的标签和样式

Jan 04 #PHP

PHPExcel导出2003和2007的excel文档功能示例

Jan 04 #PHP

CI框架实现优化文件上传及多文件上传的方法

Jan 04 #PHP

PHP搭建大文件切割分块上传功能示例

Jan 04 #PHP

php实现的简单中文验证码功能示例

Jan 03 #PHP

php与c 实现按行读取文件实例代码

Jan 03 #PHP

浅谈PHP安全防护之Web攻击

Jan 03 #PHP

You might like

php编写一个简单的路由类

2011/04/13 PHP

PHP 结合 Boostrap 结合 js 实现学生列表删除编辑及搜索功能

2019/05/21 PHP

nicejforms——美化表单不用愁

2007/02/20 Javascript

javascript入门·图片对象(无刷新变换图片)\滚动图像

2007/10/01 Javascript

javascript 使用 NodeList需要注意的问题

2013/03/04 Javascript

可插入图片的TEXT文本框

2013/12/27 Javascript

FF IE浏览器修改标签透明度的方法

2014/01/27 Javascript

跟我学习javascript的基本类型和引用类型

2015/11/16 Javascript

使用微信内置浏览器点击下拉框出现页面乱跳转现象（iphone），该怎么办

2016/01/04 Javascript

js判断复选框是否选中及选中个数的实现代码

2016/05/30 Javascript

浅谈Vue-cli单文件组件引入less,sass,css样式的不同方法

2018/03/13 Javascript

Node.js的进程管理的深入理解

2019/01/09 Javascript

vue的列表交错过渡实现代码示例

2019/05/05 Javascript

vue 微信分享回调iOS和安卓回调出现错误的解决

2020/09/07 Javascript

使用Python的package机制如何简化utils包设计详解

2017/12/11 Python

python+opencv轮廓检测代码解析

2018/01/05 Python

详解Python字符串切片

2019/05/20 Python

用什么库写 Python 命令行程序(示例代码详解)

2020/02/20 Python

python matplotlib:plt.scatter() 大小和颜色参数详解

2020/04/14 Python

win10从零安装配置pytorch全过程图文详解

2020/05/08 Python

HTML5 Canvas绘制文本及图片的基础教程

2016/03/14 HTML / CSS

Html5元素及基本语法详解

2016/08/02 HTML / CSS

美国最大点评网站：Yelp

2018/02/14 全球购物

娇韵诗法国官网：Clarins法国

2019/01/29 全球购物

文件中有一组整数，要求排序后输出到另一个文件中

2012/01/04 面试题

竞聘医务工作人员的自我评价分享

2013/11/04 职场文书

医疗器械售后服务承诺书

2014/05/21 职场文书

先进班组材料范文

2014/12/25 职场文书

乡镇法制宣传日活动总结

2015/05/05 职场文书

晚会主持人开场白台词

2015/05/28 职场文书

教师工作证明范本

2015/06/12 职场文书

老人节主持词

2015/07/04 职场文书

2016年企业先进员工事迹材料

2016/02/25 职场文书

公文写作：工伤事故分析报告怎么写？

2019/11/05 职场文书

python numpy中setdiff1d的用法说明

2021/04/22 Python

CDPR谈《巫师》新作用虚幻5原因称不会为Epic独占

2022/04/06 其他游戏