提升node.js中使用redis的性能遇到的问题及解决方法


Posted in Javascript onOctober 30, 2018

问题初现

某基于node.js开发的业务系统向外提供了一个dubbo服务,提供向第三方缓存查询、设置多项业务数据并聚合操作结果。在QPS达到800时(两台虚拟机,每台机器4Core8G4node进程),在监控平台上出现了非常多的slow rt警告,平均接口响应达到60+ms,请求报警率达到80%+。

为找到造成该服务吞吐量过低的罪魁祸首,业务人员在请求日志中打点了所有查询缓存的操作,结果显示每个请求查询缓存耗时在50-100ms之间跳动。查询了redis-server的监控数据发现,不存在server端的慢查询,在整个监控区间内服务端处理时间在40us徘徊,因此排除了redis-server的处理能力不足原因;

通过登录内网机器进行不断测试到对应redis server机器的端到端时延发现内部局域网的带宽、时延与抖动足够正常,都不是造成该问题的原因。

因此,错误原因定位到了调用redis client的业务代码以及redis client的I/O性能。

本文中提到的node redis client采用的基于node-redis封装的二方包,因此问题排查也基于node-redis这个模块。

瓶颈在哪

为了在本地模拟线上环境的并发,可以做一个不是很严谨的测试:

async ()=>{
  let dd = Date.now()
  let arr = []
  for(let i=0;i<200;i++){
    arr.push(new Promise((res,rej)=>{
      let hrtime = process.hrtime();
      client.send_command('get',['key'], function(e,r) {
      let diff = process.hrtime(hrtime);
      let cost = (diff[0] * NS_PER_SEC + diff[1])/1000000;
      console.log(`final: ${cost} ms`)
      res();
      });
    }));
  }
  await Promise.all(arr)
  console.log('ops/sec:',200*1000/(Date.now() - dd),Date.now() - dd);
}

会发现每个请求的rt都会比前一个请求来的大

提升node.js中使用redis的性能遇到的问题及解决方法

 最后一个请求的rt竟然达到了257 ms!虽然在node单进程像示例代码那样并发执行200次get请求是非常少见而且愚蠢的(关于示例代码的优化在在下节讲述),但是针对这个示例必须找到请求delay增加的原因。

 为此继续分析,redis client采用的是单连接模式,底层采用的非阻塞网络I/O,socket.recv()在node层面是通过监听socket的data事件完成的,因此先分析redis-client读性能如何:

提升node.js中使用redis的性能遇到的问题及解决方法

上图每段日志的含义分别表示:

- data events trigger times: socket data事件触发的次数
- data event start from prevent event: data事件距离上次触发的时间间隔
- data events exec time(ms): 本次事件处理函数执行时间

 上图只是截取了最初的请求日志,发现当第6次触发data事件时,竟然距离上次触发事件隔了35ms,在随后的请求中会复

现这种现象,因此这也就导致了在并发200次查询请求时,每个请求的rt都会随之增大,并且有些响应之间间隔了30ms。

从表象看造成问题在于redis-server发送的响应不是一个数据块,而是多个数据块导致触发socket的data事件过多,而且data事件抖动过大导致响应之间存在30ms的突变(data事件是无法同时触发两次的,每次data事件处理函数执行完后才能继续触发下一个data事件);当然也有可能和socket写入(即发送req)有关,如缓存请求等。为了继续探查,监控与socket写入相关的接口 **_write()**,记录每次写入socket的数据时距离上一次写入的间隔:

提升node.js中使用redis的性能遇到的问题及解决方法

可见,在使用redis-client发送请求时,write方法也不是瓶颈。

采用同样方法,对socket的push()(该方法触发socket的data事件)进行监控,发现socket的数据到达间隔抖动非常大:

提升node.js中使用redis的性能遇到的问题及解决方法

 因此,造成redis-client并发请求下响应rt抖动较大的情况与单连接下响应数据到达本地的时刻有关,具体可能与底层libuv的缓存策略有关(笔者并未再往下探查)。

提升node.js中使用redis的性能遇到的问题及解决方法

在一个node实例中通过一个单连接与redis server通信,在高并发下会出现排队等待响应的情况,并且有可能会出现响应rt雪崩效应(如上文demo所示),因此需要尽可能减少或缓存客户端的请求数量,进行批量发送。

调优

1. pipeline(涉及到写模式及时序)
2. script

对于pipeline方式,redis server是默认支持的。通俗点说,pipeline可以合并一系列请求一次发送,并将这些请求对应的结果一次性拿到。因此这种方式可以有效减少响应次数,从而减少socket触发data事件的次数,尽可能快的拿到响应体。

提升node.js中使用redis的性能遇到的问题及解决方法

 需要强调的是,在node中,是通过底层socket的**_writev**实现一次发送多条redis命令的,_writev又叫做聚合写,它支持将不同缓冲区的多条数据通过一次系统调用写入目标流,因此性能上比每次写单个缓冲区的单个数据来的好得多。在node的Writeable对象中,有cork和uncork方法,通过这两个方法可以在node write stream中缓存多条数据,通过_writev一次性发送。

关于 _writev的数据结构

redis在拿到数据后,根据resp协议解析出命令集合缓存在队列中,直到收到exec命令,开始批量执行命令集,并将所有命令执行的结果转换为数组返回给redis client。这样就可以通过一次写、一次读实现高性能I/O。

async ()=>{
  let dd = Date.now()
  let batch = await client.batch();
  for(let i=0;i<200;i++){
    batch.get('vdWeex_com.koudai.weidian.buyer_1');
  }
  let rt = await batch.exec();
  process.exit();
}

而对于script方法,则是由redis client传入script命令,在server端执行script逻辑,批量执行命令,并返回结果。同样是一次写、一次读。

收获

1. node socket默认采用writev 集合写
2. 无依赖批量请求采用pipeline
3. eval script解决有依赖批量请求
4. redis高性能体现在服务端处理能力,但瓶颈往往出现在客户端,因此增强客户端I/O能力与并发并行多客户端才是高并发解决方案

Javascript 相关文章推荐
判断多个input type=file是否有已经选择好文件的代码
May 23 Javascript
javascript实现可拖动变色并关闭层窗口实例
May 15 Javascript
充分发挥Node.js程序性能的一些方法介绍
Jun 23 Javascript
JS实现方向键切换输入框焦点的方法
Aug 19 Javascript
jQuery代码实现对话框右上角菜单带关闭×
May 03 Javascript
Ionic3 UI组件之autocomplete详解
Jun 08 Javascript
Vue filters过滤器的使用方法
Jul 14 Javascript
基于js的变量提升和函数提升(详解)
Sep 17 Javascript
vue iView 上传组件之手动上传功能
Mar 16 Javascript
vue-cli webpack 引入swiper的操作方法
Sep 15 Javascript
JS原生带缩略图的图片切换效果
Oct 10 Javascript
JavaScript实现烟花绽放动画效果
Aug 04 Javascript
小程序云开发部署攻略(图文教程)
Oct 30 #Javascript
傻瓜式解读koa中间件处理模块koa-compose的使用
Oct 30 #Javascript
微信小程序实现单选功能
Oct 30 #Javascript
基于vue2.0实现仿百度前端分页效果附实现代码
Oct 30 #Javascript
小程序实现多选框功能
Oct 30 #Javascript
vue-cli项目配置多环境的详细操作过程
Oct 30 #Javascript
详解微信小程序中组件通讯
Oct 30 #Javascript
You might like
PHP容易忘记的知识点分享
2013/04/30 PHP
PHP输出两个数字中间有多少个回文数的方法
2015/03/23 PHP
php多线程实现方法及用法实例详解
2015/10/26 PHP
替代window.event.srcElement效果的可兼容性的函数
2009/12/18 Javascript
JavaScript 学习笔记(十六) js事件
2010/02/01 Javascript
JQuyer $.post 与 $.ajax 访问WCF ajax service 时的问题需要注意的地方
2011/09/20 Javascript
jquery事件机制扩展插件 jquery鼠标右键事件。
2011/12/26 Javascript
JavaScript 链式结构序列化详解
2016/09/30 Javascript
jQuery中用on绑定事件时需注意的事项
2017/03/19 Javascript
使用prop解决一个checkbox选中后再次选中失效的问题
2017/07/05 Javascript
vue项目总结之文件夹结构配置详解
2017/12/13 Javascript
webpack vue 项目打包生成的文件,资源文件报404问题的修复方法(总结篇)
2018/01/09 Javascript
浅谈Vue初学之props的驼峰命名
2018/07/19 Javascript
layui前端框架之table表数据的刷新方法
2018/08/17 Javascript
angularjs下ng-repeat点击元素改变样式的实现方法
2018/09/12 Javascript
基于vue和websocket的多人在线聊天室
2020/02/01 Javascript
vue实现移动端返回顶部
2020/10/12 Javascript
vue-cli4.0多环境配置变量与模式详解
2020/12/30 Vue.js
[06:01]刀塔次级联赛top10第一期
2014/11/07 DOTA
[03:41]DOTA2上海特锦赛小组赛第三日recap精彩回顾
2016/02/28 DOTA
Python中列表、字典、元组数据结构的简单学习笔记
2016/03/20 Python
Python原始字符串与Unicode字符串操作符用法实例分析
2017/07/22 Python
python利用小波分析进行特征提取的实例
2019/01/09 Python
python+selenium 点击单选框-radio的实现方法
2019/09/03 Python
python3实现用turtle模块画一棵随机樱花树
2019/11/21 Python
简单了解Django ORM常用字段类型及参数配置
2020/01/07 Python
如何使用repr调试python程序
2020/02/28 Python
python自动提取文本中的时间(包含中文日期)
2020/08/31 Python
Python urllib3软件包的使用说明
2020/11/18 Python
全球性的在线时尚男装零售商:boohooMAN
2016/12/17 全球购物
类如何去实现接口
2013/12/19 面试题
什么是Connection-oriented Protocol/Connectionless Protocol面向连接的协议/无连接协议
2012/09/06 面试题
市场营销求职信范文
2014/02/21 职场文书
不拖欠农民工工资承诺书
2014/03/31 职场文书
综合办公室主任岗位职责
2014/04/13 职场文书
十佳少年事迹材料
2014/12/25 职场文书