上传者: weixin_38743506
|
上传时间:2017/2/21 22:56:54
|
文件大小:532KB
|
文件类型:PDF
MapReduceShuffle原理与SparkShuffle原理
Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。
MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。
为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,担任数据的过滤分发;
Reduce是规约,担任数据的计算归并。
Reduce的数据来源于Map,Map的输出即是Reduce的输入,Reduce需要通过Shuffle来获取数据。
从Map输出到Reduce输入的整个过程可以广义地称为Shuffle。
Shuffle横跨Ma
本软件ID:15469206