Spark是一个漫衍式的内存盘算框架,其特色是能处置大规模数据,盘算速率快。
Spark络续了Hadoop的MapReduce盘算模子,相比之下Spark的盘算进程相持在内存中,削减了硬盘读写,能够将多个操作举行并吞后盘算,于是提升了盘算速率。
同时Spark也提供了更丰厚的盘算API。
MapReduce是Hadoop以及Spark的盘算模子,其特色是Map以及Reduce进程高度可并行化;
进程间耦合度低,单个进程的失败后能够重新盘算,而不会导致部份失败;
最弥留的是数据处置中的盘算逻辑能够很好的转换为Map以及Reduce操作。
对于一个数据集来说,Map对于每一条数据做相同的转换操作,Reduce能够按前提
1