Mapreduce和Spark的都是并行计算，那么他们有什么相同和区别？ChatGPT批发|ChatGPT账号购买|ChatGPT Plus4.0代充|ChatGPT教程手册|互联网免费项目资源分享|AI绘画关键词|免费副业项目资源|编程面试题|Java面试题|Python面试题|前端面试题|测试面试题|IDEA激活破解码|Pycharm激活破解码|Navicat激活破解码|软件下载|SD关键词|MJ关键词

Mapreduce和Spark的都是并行计算，那么他们有什么相同和区别？

admin • 2023年11月30日 am3:26 • Spark • 阅读 72

两者都是用mr模型来进行并行计算:

1）hadoop的一个作业称为job，job里面分为map task和reduce task，每个task都是在自己的进程中运行的，当task结束时，进程也会结束。

2）spark用户提交的任务成为application，一个application对应一个SparkContext，app中存在多个job，每触发一次action操作就会产生一个job。

这些job可以并行或串行执行，每个job中有多个stage，stage是shuffle过程中DAGSchaduler通过RDD之间的依赖关系划分job而来的，每个stage里面有多个task，组成taskset有TaskSchaduler分发到各个executor中执行，executor的生命周期是和app一样的，即使没有job运行也是存在的，所以task可以快速启动读取内存进行计算。

3）hadoop的job只有map和reduce操作，表达能力比较欠缺而且在mr过程中会重复的读写hdfs，造成大量的io操作，多个job需要自己管理关系。

4）spark的迭代计算都是在内存中进行的，API中提供了大量的RDD操作如join，groupby等，而且通过DAG图可以实现良好的容错。

发布者：admin，如若转载，请注明出处：https://ai1024.vip/36800.html

Mapreduce和Spark的都是并行计算，那么他们有什么相同和区别？

相关推荐

Spark 主备切换机制原理知道吗？

RDD 有哪些缺陷？

collect功能是什么，其底层是怎么实现的？

列出你所知道的调度器，说明其工作原理？

为什么Spark Application在没有获得足够的资源，job就开始执行了，可能会导致什么什么问题发生？

Spark使用parquet文件存储格式能带来哪些好处？

请登录