JavaScript mapreduce工作原理简析


Posted in Javascript onNovember 25, 2012

谷歌在2003到2006年间连续发表了三篇非常有影响力的文章,分别是2003年在SOSP上发布的GFS,2004年在OSDI上发布的MapReduce,以及2006年在OSDI上发布的BigTable。GFS是文件系统相关的,其对后来的分布式文件系统设计具有指导意义;MapReduce是一种并行计算的编程模型,用于作业调度;BigTable是一个用于管理结构化数据的分布式存储系统,构建在GFS、Chubby、SSTable等Google技术之上。相当多的Google应用使用了这三种技术,比如Google Search、Google Earth和Google Analytics等等。因此这三种技术并称为谷歌技术”三宝”。今天,D瓜哥班门弄斧,对MapReduce来个”庖丁解牛”!

MapReduce简介
MapReduce是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一
个Map函数处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后
再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。
一图胜千言,下面我们用一张图来说明一下MapReduce:

JavaScript mapreduce工作原理简析

 
编程实践
常言道:”实践出真知” 。是骡子是马,拉出来遛遛才知道。所以,如果真的想搞懂这个原理,还是亲自写代码实践一下才是硬道理。
最近和几个朋友一起学习JavaScript,所以就比较关注JavaScript。昨天上网瞎逛时,惊奇地发现,竟然有牛人使用JavaScript实现了MapReduce算法。然后转过来和大家分享,同时再加上我自己的一些狗尾续貂的介绍,希望有助于大家理解MapReduce。具体代码实现如下:

var Job = { 
//待处理的数据 
data : [ 
"We are glad to see you here. This site is dedicated to", 
"poetry and to the people who make poetry possible", 
"poets and their readers. FamousPoetsAndPoems.com is", 
"a free poetry site. On our site you can find a large", 
"collection of poems and quotes from over 631 poets", 
"Read and Enjoy Poetry", 
"I, too, sing America", 
"I am the darker brother", 
"They send me to eat in the kitchen", 
"When company comes", 
"But I laugh", 
"And eat well", 
"And grow strong", 
"Tomorrow", 
"Ill be at the table", 
"When company comes", 
"Nobodyll dare", 
"Say to me", 
"Eat in the kitchen", 
"Then", 
"Besides", 
"Theyll see how beautiful I am", 
"And be ashamed", 
"I, too, am America" 
], 
//将数据中的每行字符串用空格分隔开, 
//并"重组"成诸如{key: 单词, value: 1}格式的对象,返回对象数组 
map : function(line) { 
var splits = line.split(" "); 
var temp = []; 
for(var i=0; i<splits.length; i++) { 
temp.push({key : splits[i], value : 1}); 
} 
return temp; 
}, 
//计算每个单词在"数据"(data)中出现的次数 
reduce : function(allSteps) { 
var result = {}; 
for(var i=0; i<allSteps.length; i++) { 
var step = allSteps[i]; 
result[step.key] = result[step.key] ? (result[step.key] + 1) : 1; 
} 
return result; 
}, 
//初始化,同时是运行的入口。 
init : function() { 
var allSteps = []; 
for(var i=0; i<Job.data.length; i++) { 
//如果这里能多线程调用Job.map函数就更逼真了。?? 
allSteps = allSteps.concat(Job.map(Job.data[i])); 
} 
//美中不足,这里不能多线程调用Job.reduce函数?? 
var result = Job.reduce(allSteps) 
console.log(JSON.stringify(result)); 
} 
}; // Job 
//开始执行 
Job.init();

复制这些代码,直接粘贴到浏览器的控制台(Console)中,或者放到一个HTML文件中,用浏览器打开,就可以在控制台输出中,看到效果如下:

美中不足
这篇文章发布出来之后,就有网友“咆哮”:“一个连多线程都没有的js 搞什么MapReduce啊?”其实,这个问题,D瓜哥也发现了。在看到这个代码的解释后,D瓜哥就纳闷JavaScript不是单进程吗?怎么还能模拟MapReduce?在认真阅读代码,单步调试之后,更加印证了D瓜哥的看法。(关于D瓜哥的疑问已经在代码中注释出来。)
不过,再想一下,这些并不影响我们去理解MapReduce的原理。这只是个单进程,最基础的版本。先理解了这个,再去整个多线程的也许就更容易理解了。

未完待续
其实,D瓜哥现在考虑在这个例子的基础上,用Java实现一个多线程版本,那样模拟的MapReduce更逼真。等D瓜哥把一些问题思考清楚之后,就把代码发出来。敬请期待!

Javascript 相关文章推荐
Fastest way to build an HTML string(拼装html字符串的最快方法)
Aug 20 Javascript
Jquery利用mouseenter和mouseleave实现鼠标经过弹出层且可以点击
Feb 12 Javascript
node.js中的console.error方法使用说明
Dec 10 Javascript
jquery实现很酷的网页顶部图标下拉菜单效果
Aug 22 Javascript
node.js cookie-parser 中间件介绍
Jun 06 Javascript
Javascript之Date对象详解
Jun 07 Javascript
一个简单不报错的summernote 图片上传案例
Jul 11 Javascript
浅谈jQuery操作类数组的工具方法
Dec 23 Javascript
使用Three.js实现太阳系八大行星的自转公转示例代码
Apr 09 Javascript
layui中的switch开关实现方法
Sep 03 Javascript
layui表格设计以及数据初始化详解
Oct 26 Javascript
判断JavaScript中的两个变量是否相等的操作符
Dec 21 Javascript
jquery div 居中技巧应用介绍
Nov 24 #Javascript
js实现在文本框光标处添加字符的方法介绍
Nov 24 #Javascript
js获取TreeView控件选中节点的Text和Value值的方法
Nov 24 #Javascript
js 连接数据库如何操作数据库中的数据
Nov 23 #Javascript
js 如何实现对数据库的增删改查
Nov 23 #Javascript
Js如何判断客户端是PC还是手持设备简单分析
Nov 22 #Javascript
IE下使用cloneNode注意事项分享
Nov 22 #Javascript
You might like
PHP has encountered an Access Violation
2007/01/15 PHP
5种PHP创建数组的实例代码分享
2014/01/17 PHP
php开发时容易忘记的一些技术细节
2016/02/03 PHP
解决安装WampServer时提示缺少msvcr110.dll文件的问题
2017/07/09 PHP
ThinkPHP类似AOP思想的参数验证的实现方法
2019/12/18 PHP
ExtJS 2.0实用简明教程 之Ext类库简介
2009/04/29 Javascript
JavaScript Ajax Json实现上下级下拉框联动效果实例代码
2013/11/23 Javascript
浅谈JavaScript函数参数的可修改性问题
2013/12/05 Javascript
ListBox实现上移,下移,左移,右移的简单实例
2014/02/13 Javascript
js判断浏览器是否支持html5
2014/08/17 Javascript
禁止iframe脚本弹出的窗口覆盖了父窗口的方法
2014/09/06 Javascript
JavaScript中Math.SQRT2属性的使用详解
2015/06/14 Javascript
让DIV的滚动条自动滚动到最底部的3种方法(推荐)
2016/09/24 Javascript
jQuery获取this当前对象子元素对象的方法
2016/11/29 Javascript
JavaScript利用Date实现简单的倒计时实例
2017/01/12 Javascript
JavaScript实现弹出广告功能
2017/03/30 Javascript
layui关闭弹窗后刷新主页面和当前更改项的例子
2019/09/06 Javascript
VUE注册全局组件和局部组件过程解析
2019/10/10 Javascript
Openlayers3实现车辆轨迹回放功能
2020/09/29 Javascript
[01:14:31]Secret vs VG 2018国际邀请赛淘汰赛BO3 第一场 8.23
2018/08/24 DOTA
python实现的DES加密算法和3DES加密算法实例
2015/06/03 Python
Python使用gRPC传输协议教程
2018/10/16 Python
windows下 兼容Python2和Python3的解决方法
2018/12/05 Python
python里dict变成list实例方法
2019/06/26 Python
python 接口实现 供第三方调用的例子
2019/08/13 Python
Python logging设置和logger解析
2019/08/28 Python
浅谈keras 的抽象后端(from keras import backend as K)
2020/06/16 Python
html5指南-4.使用Geolocation实现定位功能
2013/01/07 HTML / CSS
白色公司:The White Company
2017/10/11 全球购物
快餐公司创业计划书
2014/04/29 职场文书
酒店开业庆典策划方案
2014/05/28 职场文书
“四风”问题对照检查材料思想汇报
2014/09/16 职场文书
建筑横幅标语
2014/10/09 职场文书
行政主管岗位职责
2015/02/03 职场文书
仅用一句SQL更新整张表的涨跌幅、涨跌率的解决方案
2021/05/06 MySQL
为自由献出你的心脏!「进击的巨人展 FINAL」2022年6月在台开展
2022/04/13 日漫