Nodejs学习笔记之Stream模块


Posted in NodeJs onJanuary 13, 2015

一,开篇分析

流是一个抽象接口,被 Node 中的很多对象所实现。比如对一个 HTTP 服务器的请求是一个流,stdout 也是一个流。流是可读,可写或兼具两者的。

最早接触Stream是从早期的unix开始的, 数十年的实践证明Stream 思想可以很简单的开发出一些庞大的系统。

在unix里,Stream是通过 "|" 实现的。在node中,作为内置的stream模块,很多核心模块和三方模块都使用到。

和unix一样,node stream主要的操作也是.pipe(),使用者可以使用反压力机制来控制读和写的平衡。

Stream 可以为开发者提供可以重复使用统一的接口,通过抽象的Stream接口来控制Stream之间的读写平衡。

一个TCP连接既是可读流,又是可写流,而Http连接则不同,一个http request对象是可读流,而http response对象则是可写流。

流的传输过程默认是以buffer的形式传输的,除非你给他设置其他编码形式,以下是一个例子:

 var http = require('http') ;

  var server = http.createServer(function(req,res){

     res.writeHeader(200, {'Content-Type': 'text/plain'}) ;

     res.end("Hello,大熊!") ;

  }) ;

  server.listen(8888) ;

  console.log("http server running on port 8888 ...") ;

运行后会有乱码出现,原因就是没有设置指定的字符集,比如:“utf-8” 。

修改一下就好:

 var http = require('http') ;

 var server = http.createServer(function(req,res){

    res.writeHeader(200,{

        'Content-Type' : 'text/plain;charset=utf-8'  // 添加charset=utf-8

    }) ;

    res.end("Hello,大熊!") ;

 }) ;

 server.listen(8888) ;

 console.log("http server running on port 8888 ...") ;

运行结果:

Nodejs学习笔记之Stream模块

为什么使用Stream
node中的I/O是异步的,因此对磁盘和网络的读写需要通过回调函数来读取数据,下面是一个文件下载例子
上代码:

 var http = require('http') ;

 var fs = require('fs') ;

 var server = http.createServer(function (req, res) {

     fs.readFile(__dirname + '/data.txt', function (err, data) {

         res.end(data);

     }) ;

 }) ;

 server.listen(8888) ;

代码可以实现需要的功能,但是服务在发送文件数据之前需要缓存整个文件数据到内存,如果"data.txt"文件很
大并且并发量很大的话,会浪费很多内存。因为用户需要等到整个文件缓存到内存才能接受的文件数据,这样导致
用户体验相当不好。不过还好(req,res)两个参数都是Stream,这样我们可以用fs.createReadStream()代替fs.readFile()。如下:

 var http = require('http') ;

 var fs = require('fs') ;

 var server = http.createServer(function (req, res) {

     var stream = fs.createReadStream(__dirname + '/data.txt') ;

     stream.pipe(res) ;

 }) ;

 server.listen(8888) ;

.pipe()方法监听fs.createReadStream()的'data' 和'end'事件,这样"data.txt"文件就不需要缓存整
个文件,当客户端连接完成之后马上可以发送一个数据块到客户端。使用.pipe()另一个好处是可以解决当客户
端延迟非常大时导致的读写不平衡问题。

有五种基本的Stream:readable,writable,transform,duplex,and "classic” 。(具体使用请自己查阅api)

二,实例引入

当内存中无法一次装下需要处理的数据时,或者一边读取一边处理更加高效时,我们就需要用到数据流。NodeJS中通过各种Stream来提供对数据流的操作。

以大文件拷贝程序为例,我们可以为数据源创建一个只读数据流,示例如下:

 var rs = fs.createReadStream(pathname);

 rs.on('data', function (chunk) {

     doSomething(chunk) ; // 具体细节自己任意发挥

 });

 rs.on('end', function () {

     cleanUp() ;

 }) ;

代码中data事件会源源不断地被触发,不管doSomething函数是否处理得过来。代码可以继续做如下改造,以解决这个问题。

 var rs = fs.createReadStream(src) ;

 rs.on('data', function (chunk) {

     rs.pause() ;

     doSomething(chunk, function () {

         rs.resume() ;

     }) ;

 }) ;

 rs.on('end', function () {

     cleanUp();

 })  ;

给doSomething函数加上了回调,因此我们可以在处理数据前暂停数据读取,并在处理数据后继续读取数据。

此外,我们也可以为数据目标创建一个只写数据流,如下:

 var rs = fs.createReadStream(src) ;

 var ws = fs.createWriteStream(dst) ;

 rs.on('data', function (chunk) {

     ws.write(chunk);

 }) ;

 rs.on('end', function () {

     ws.end();

 }) ;

doSomething换成了往只写数据流里写入数据后,以上代码看起来就像是一个文件拷贝程序了。但是以上代码存在上边提到的问题,如果写入速度跟不上读取速度的话,只写数据流内部的缓存会爆仓。我们可以根据.write方法的返回值来判断传入的数据是写入目标了,还是临时放在了缓存了,并根据drain事件来判断什么时候只写数据流已经将缓存中的数据写入目标,可以传入下一个待写数据了。因此代码如下:

 var rs = fs.createReadStream(src) ;

 var ws = fs.createWriteStream(dst) ;

 rs.on('data', function (chunk) {

     if (ws.write(chunk) === false) {

         rs.pause() ;

     }

 }) ;

 rs.on('end', function () {

     ws.end();

 });

 ws.on('drain', function () {

     rs.resume();

 }) ;

最终实现了数据从只读数据流到只写数据流的搬运,并包括了防爆仓控制。因为这种使用场景很多,例如上边的大文件拷贝程序,NodeJS直接提供了.pipe方法来做这件事情,其内部实现方式与上边的代码类似。

下面是一个更加完整的复制文件的过程:

var fs = require('fs'),

  path = require('path'),

  out = process.stdout;

var filePath = '/bb/bigbear.mkv';

var readStream = fs.createReadStream(filePath);

var writeStream = fs.createWriteStream('file.mkv');

var stat = fs.statSync(filePath);

var totalSize = stat.size;

var passedLength = 0;

var lastSize = 0;

var startTime = Date.now();

readStream.on('data', function(chunk) {

  passedLength += chunk.length;

  if (writeStream.write(chunk) === false) {

    readStream.pause();

  }

});

readStream.on('end', function() {

  writeStream.end();

});

writeStream.on('drain', function() {

  readStream.resume();

});

setTimeout(function show() {

  var percent = Math.ceil((passedLength / totalSize) * 100);

  var size = Math.ceil(passedLength / 1000000);

  var diff = size - lastSize;

  lastSize = size;

  out.clearLine();

  out.cursorTo(0);

  out.write('已完成' + size + 'MB, ' + percent + '%, 速度:' + diff * 2 + 'MB/s');

  if (passedLength < totalSize) {

    setTimeout(show, 500);

  } else {

    var endTime = Date.now();

    console.log();

    console.log('共用时:' + (endTime - startTime) / 1000 + '秒。');

  }

}, 500);

可以把上面的代码保存为 "copy.js" 试验一下我们添加了一个递归的 setTimeout (或者直接使用setInterval)来做一个旁观者,

每500ms观察一次完成进度,并把已完成的大小、百分比和复制速度一并写到控制台上,当复制完成时,计算总的耗费时间。

三,总结一下

(1),理解Stream概念。

(2),熟练使用相关Stream的api

(3),注意细节的把控,比如:大文件的拷贝,采用的使用 “chunk data” 的形式进行分片处理。

(4),pipe的使用

(5),再次强调一个概念:一个TCP连接既是可读流,又是可写流,而Http连接则不同,一个http request对象是可读流,而http response对象则是可写流。

NodeJs 相关文章推荐
使用nodejs、Python写的一个简易HTTP静态文件服务器
Jul 18 NodeJs
Nodejs极简入门教程(三):进程
Oct 27 NodeJs
nodejs事件的监听与触发的理解分析
Feb 12 NodeJs
NodeJs基本语法和类型
Feb 13 NodeJs
Nodejs 发送Post请求功能(发短信验证码例子)
Feb 09 NodeJs
基于nodejs 的多页面爬虫实例代码
May 31 NodeJs
nodejs实现大文件(在线视频)的读取
Oct 16 NodeJs
nodejs取得当前执行路径的方法
May 13 NodeJs
解决Nodejs全局安装模块后找不到命令的问题
May 15 NodeJs
nodejs用gulp管理前端文件方法
Jun 24 NodeJs
Nodejs中获取当前函数被调用的行数及文件名详解
Dec 12 NodeJs
基于Koa(nodejs框架)对json文件进行增删改查的示例代码
Feb 02 NodeJs
Nodejs学习笔记之NET模块
Jan 13 #NodeJs
Nodejs学习笔记之Global Objects全局对象
Jan 13 #NodeJs
Nodejs为什么选择javascript为载体语言
Jan 13 #NodeJs
NodeJS中Buffer模块详解
Jan 07 #NodeJs
Nodejs中读取中文文件编码问题、发送邮件和定时任务实例
Jan 01 #NodeJs
Nodejs中调用系统命令、Shell脚本和Python脚本的方法和实例
Jan 01 #NodeJs
nodejs中实现路由功能
Dec 29 #NodeJs
You might like
了解咖啡雨林联盟认证 什么是雨林认证 雨林认证是什么意思
2021/03/05 新手入门
PHP4实际应用经验篇(1)
2006/10/09 PHP
PHP易混淆函数的区别及用法汇总
2014/11/22 PHP
WordPress中登陆后关闭登陆页面及设置用户不可见栏目
2015/12/31 PHP
最新版本PHP 7 vs HHVM 多角度比较
2016/02/14 PHP
解决Yii2邮件发送结果返回成功,但接收不到邮件的问题
2017/05/23 PHP
PHP simplexml_load_file()函数讲解
2019/02/03 PHP
JavaScript null和undefined区别分析
2009/10/14 Javascript
js 利用image对象实现图片的预加载提高访问速度
2013/03/29 Javascript
使用js修改客户端注册表的方法
2013/08/09 Javascript
node.js中的http.response.addTrailers方法使用说明
2014/12/14 Javascript
JavaScript事件委托用法分析
2015/01/24 Javascript
介绍一个简单的JavaScript类框架
2015/06/24 Javascript
jQuery实现文本框邮箱输入自动补全效果
2015/11/17 Javascript
浅析如何利用angular结合translate为项目实现国际化
2016/12/08 Javascript
@ResponseBody 和 @RequestBody 注解的区别
2017/03/08 Javascript
seajs实现强制刷新本地缓存的方法分析
2017/10/16 Javascript
vue组件父子间通信之综合练习(聊天室)
2017/11/07 Javascript
vue 点击按钮实现动态挂载子组件的方法
2018/09/07 Javascript
详解webpack-dev-server使用方法
2018/09/14 Javascript
angularJs利用$scope处理升降序的方法
2018/10/08 Javascript
Vuex mutitons和actions初使用详解
2019/03/04 Javascript
通过layer实现可输入的模态框的例子
2019/09/27 Javascript
[43:35]EG vs Winstrike 2018国际邀请赛小组赛BO2 第一场 8.18
2018/08/19 DOTA
Python使用sqlalchemy模块连接数据库操作示例
2019/03/13 Python
python环境路径配置以及命令行运行脚本
2019/04/02 Python
在Python中使用MongoEngine操作数据库教程实例
2019/12/03 Python
Django表单提交后实现获取相同name的不同value值
2020/05/14 Python
什么是Python中的顺序表
2020/06/02 Python
python脚本使用阿里云slb对恶意攻击进行封堵的实现
2021/02/04 Python
用CSS禁用输入法(CSS3 UI规范)实例解析
2012/12/04 HTML / CSS
CSS3中animation实现流光按钮效果
2020/12/21 HTML / CSS
HTML5本地存储之Database Storage应用介绍
2013/01/06 HTML / CSS
找工作求职信
2014/07/07 职场文书
党员评议自我评价
2015/03/03 职场文书
Go 语言下基于Redis分布式锁的实现方式
2021/06/28 Golang