编程 PHP

PHP实现通过strace定位故障原因的方法

Posted in PHP onApril 29, 2018

本文实例讲述了PHP实现通过strace定位故障原因的方法。分享给大家供大家参考，具体如下：

俗话说：不怕贼偷，就怕贼惦记着。在面对故障的时候，我也有类似的感觉：不怕出故障，就怕你不知道故障的原因，故障却隔三差五的找上门来。

十一长假还没结束，服务器却频现高负载，Nginx出现错误日志：

connect() failed (110: Connection timed out) while connecting to upstream
connect() failed (111: Connection refused) while connecting to upstream

看上去是Upstream出了问题，在本例中Upstream就是PHP（版本：5.2.5）。可惜监控不完善，我搞不清楚到底是哪出了问题，无奈之下只好不断重启PHP来缓解故障。

如果每次都手动重启服务无疑是个苦差事，幸运的是可以通过CRON设置每分钟执行：

#/bin/bash
LOAD=$(awk '{print $1}' /proc/loadavg)
if [ $(echo "$LOAD > 100" | bc) = 1 ]; then
  /etc/init.d/php-fpm restart
fi

可惜这只是一个权宜之计，要想彻底解决就必须找出故障的真正原因是什么。

闲言碎语不要讲，轮到Strace出场了，统计一下各个系统调用的耗时情况：

shell> strace -c -p $(pgrep -n php-cgi)
% time   seconds usecs/call   calls  errors syscall
------ ----------- ----------- --------- --------- ----------------
 30.53  0.023554     132    179      brk
 14.71  0.011350     140    81      mlock
 12.70  0.009798     15    658    16 recvfrom
 8.96  0.006910      7    927      read
 6.61  0.005097     43    119      accept
 5.57  0.004294      4    977      poll
 3.13  0.002415      7    359      write
 2.82  0.002177      7    311      sendto
 2.64  0.002033      2   1201     1 stat
 2.27  0.001750      1   2312      gettimeofday
 2.11  0.001626      1   1428      rt_sigaction
 1.55  0.001199      2    730      fstat
 1.29  0.000998     10    100    100 connect
 1.03  0.000792      4    178      shutdown
 1.00  0.000773      2    492      open
 0.93  0.000720      1    711      close
 0.49  0.000381      2    238      chdir
 0.35  0.000271      3    87      select
 0.29  0.000224      1    357      setitimer
 0.21  0.000159      2    81      munlock
 0.17  0.000133      2    88      getsockopt
 0.14  0.000110      1    149      lseek
 0.14  0.000106      1    121      mmap
 0.11  0.000086      1    121      munmap
 0.09  0.000072      0    238      rt_sigprocmask
 0.08  0.000063      4    17      lstat
 0.07  0.000054      0    313      uname
 0.00  0.000000      0    15     1 access
 0.00  0.000000      0    100      socket
 0.00  0.000000      0    101      setsockopt
 0.00  0.000000      0    277      fcntl
------ ----------- ----------- --------- --------- ----------------
100.00  0.077145         13066    118 total

看上去「brk」非常可疑，它竟然耗费了三成的时间，保险起见，单独确认一下：

shell> strace -T -e brk -p $(pgrep -n php-cgi)
brk(0x1f18000) = 0x1f18000 <0.024025>
brk(0x1f58000) = 0x1f58000 <0.015503>
brk(0x1f98000) = 0x1f98000 <0.013037>
brk(0x1fd8000) = 0x1fd8000 <0.000056>
brk(0x2018000) = 0x2018000 <0.012635>

说明：在Strace中和操作花费时间相关的选项有两个，分别是「-r」和「-T」，它们的差别是「-r」表示相对时间，而「-T」表示绝对时间。简单统计可以用「-r」，但是需要注意的是在多任务背景下，CPU随时可能会被切换出去做别的事情，所以相对时间不一定准确，此时最好使用「-T」，在行尾可以看到操作时间，可以发现确实很慢。

在继续定位故障原因前，我们先通过「man brk」来查询一下它的含义：

brk() sets the end of the data segment to the value specified by end_data_segment, when that value is reasonable, the system does have enough memory and the process does not exceed its max data size (see setrlimit(2)).

简单点说就是内存不够用时通过它来申请新内存（data segment），可是为什么呢？

shell> strace -T -p $(pgrep -n php-cgi) 2>&1 | grep -B 10 brk
stat("/path/to/script.php", {...}) = 0 <0.000064>
brk(0x1d9a000) = 0x1d9a000 <0.000067>
brk(0x1dda000) = 0x1dda000 <0.001134>
brk(0x1e1a000) = 0x1e1a000 <0.000065>
brk(0x1e5a000) = 0x1e5a000 <0.012396>
brk(0x1e9a000) = 0x1e9a000 <0.000092>

通过「grep」我们很方便就能获取相关的上下文，反复运行几次，发现每当请求某些PHP脚本时，就会出现若干条耗时的「brk」，而且这些PHP 脚本有一个共同的特点，就是非常大，甚至有几百K，为何会出现这么大的PHP脚本？实际上是程序员为了避免数据库操作，把非常庞大的数组变量通过「var_export」持久化到PHP文件中，然后在程序中通过「include」来获取相应的变量，因为变量太大，所以PHP不得不频繁执行「brk」，不幸的是在本例的环境中，此操作比较慢，从而导致处理请求的时间过长，加之PHP进程数有限，于是乎在Nginx上造成请求拥堵，最终导致高负载故障。

下面需要验证一下推断似乎否正确，首先查询一下有哪些地方涉及问题脚本：

shell> find /path -name "*.php" | xargs grep "script.php"

直接把它们都禁用了，看看服务器是否能缓过来，或许大家觉得这太鲁蒙了，但是特殊情况必须做出特殊的决定，不能像个娘们儿似的优柔寡断，没过多久，服务器负载恢复正常，接着再统计一下系统调用的耗时：

shell> strace -c -p $(pgrep -n php-cgi)
% time   seconds usecs/call   calls  errors syscall
------ ----------- ----------- --------- --------- ----------------
 24.50  0.001521     11    138     2 recvfrom
 16.11  0.001000     33    30      accept
 7.86  0.000488      8    59      sendto
 7.35  0.000456      1    360      rt_sigaction
 6.73  0.000418      2    198      poll
 5.72  0.000355      1    285      stat
 4.54  0.000282      0    573      gettimeofday
 4.41  0.000274      7    42      shutdown
 4.40  0.000273      2    137      open
 3.72  0.000231      1    197      fstat
 2.93  0.000182      1    187      close
 2.56  0.000159      2    90      setitimer
 2.13  0.000132      1    244      read
 1.71  0.000106      4    30      munmap
 1.16  0.000072      1    60      chdir
 1.13  0.000070      4    18      setsockopt
 1.05  0.000065      1    100      write
 1.05  0.000065      1    64      lseek
 0.95  0.000059      1    75      uname
 0.00  0.000000      0    30      mmap
 0.00  0.000000      0    60      rt_sigprocmask
 0.00  0.000000      0     3     2 access
 0.00  0.000000      0     9      select
 0.00  0.000000      0    20      socket
 0.00  0.000000      0    20    20 connect
 0.00  0.000000      0    18      getsockopt
 0.00  0.000000      0    54      fcntl
 0.00  0.000000      0     9      mlock
 0.00  0.000000      0     9      munlock
------ ----------- ----------- --------- --------- ----------------
100.00  0.006208         3119    24 total

显而易见，「brk」已经不见了，取而代之的是「recvfrom」和「accept」，不过这些操作本来就是很耗时的，所以可以定位「brk」就是故障的原因。

…

拥抱故障，每一次故障都是历练。正所谓：天将降大任于斯人也，必先苦其心志，劳其筋骨，饿其体肤，空乏其身，行拂乱其所为，所以动心忍性，增益其所不能。

希望本文所述对大家PHP程序设计有所帮助。

PHP实现通过strace定位故障原因的方法

- Author -

Shower稻草人

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

PHP 相关文章推荐

解决中英文字符串长度问题函数

Jan 16 PHP

请php正则走开

Mar 15 PHP

PHP时间戳 strtotime()使用方法和技巧

Oct 29 PHP

php判断页面是否是微信打开的示例(微信打开网页)

Apr 25 PHP

php+mysqli使用面向对象方式查询数据库实例

Jan 29 PHP

PHP数组与对象之间使用递归实现转换的方法

Jun 24 PHP

eclipse php wamp配置教程

Jun 30 PHP

Zend Framework上传文件重命名的实现方法

Nov 25 PHP

PHP小白必须要知道的php基础知识(超实用)

Oct 10 PHP

PHP对称加密算法（DES/AES）类的实现代码

Nov 14 PHP

关于ThinkPHP中的异常处理详解

May 11 PHP

PHP7导出Excel报ERR_EMPTY_RESPONSE解决方法

Apr 16 PHP

PHP性能测试工具xhprof安装与使用方法详解

Apr 29 #PHP

PHP使用curl_multi实现并发请求的方法示例

Apr 29 #PHP

PHP实现转盘抽奖算法分享

Apr 15 #PHP

PHP cURL获取微信公众号access_token的实例

Apr 28 #PHP

详解php与ethereum客户端交互

Apr 28 #PHP

360搜索引擎自动收录php改写方案

Apr 28 #PHP

PHP使用Curl实现模拟登录及抓取数据功能示例

Apr 27 #PHP

You might like

PHP简单的MVC框架实现方法

2015/12/01 PHP

laravel 实现向公共模板中传值 (view composer)

2019/10/22 PHP

js监听表单value的修改同步问题，跨浏览器支持

2009/12/31 Javascript

文本框中,回车键触发事件的js代码[多浏览器兼容]

2010/06/07 Javascript

前端开发必须知道的JS之原型和继承

2010/07/06 Javascript

网页编辑器ckeditor和ckfinder配置步骤分享

2012/05/24 Javascript

JS中Iframe之间传值的方法

2013/03/11 Javascript

jquery原创弹出层折叠效果点击折叠弹出一个层

2014/03/12 Javascript

jquery 按键盘上的enter事件

2014/05/11 Javascript

JavaScript检测鼠标移动方向的方法

2015/05/22 Javascript

jQuery封装的tab选项卡插件分享

2015/06/16 Javascript

关于JS中setTimeout()无法调用带参函数问题的解决方法

2016/06/21 Javascript

JQuery实现列表中复选框全选反选功能封装(推荐)

2016/11/24 Javascript

jQuery插件HighCharts绘制的2D堆柱状图效果示例【附demo源码下载】

2017/03/14 Javascript

vue组件生命周期详解

2017/11/07 Javascript

vue内置指令详解

2018/04/03 Javascript

通过 JS 判断页面是否有滚动条的实现方法

2018/04/05 Javascript

vue.js内置组件之keep-alive组件使用

2018/07/10 Javascript

详解微信UnionID作用

2019/05/15 Javascript

微信小程序在text文本实现多种字体样式

2019/11/08 Javascript

react 不用插件实现数字滚动的效果示例

2020/04/14 Javascript

vue 自定指令生成uuid滚动监听达到tab表格吸顶效果的代码

2020/09/16 Javascript

微信小程序实现购物车功能

2020/11/18 Javascript

python使用在线API查询IP对应的地理位置信息实例

2014/06/01 Python

python定时器（Timer）用法简单实例

2015/06/04 Python

python web框架学习笔记

2016/05/03 Python

利用Python实现kNN算法的代码

2019/08/16 Python

解决import tensorflow导致jupyter内核死亡的问题

2021/02/06 Python

CSS3的颜色渐变效果的示例代码

2017/09/29 HTML / CSS

你的自行车健身专家：FaFit24

2016/11/16 全球购物

Monki官网：斯堪的纳维亚的独立时尚品牌

2020/11/09 全球购物

留学自荐信写作方法

2014/01/27 职场文书

毕业留言寄语大全

2014/04/10 职场文书

放飞梦想演讲稿800字

2014/08/26 职场文书

tensorflow中的梯度求解及梯度裁剪操作

2021/05/26 Python

Python pandas读取CSV文件的注意事项（适合新手）

2021/06/20 Python