Hadoop的MR结构和YARN结构是大数据时代的第一代产品,满足了大家在离线计算上的需求,然而针对实时运算却存在无余,为满足这一需求,起初的大佬研发了spark计算方法,大大的提高了运算效率。
Spark的计算原理
spark的结构为:
节点引见:
整个互动流程是这样的:
运转流程及特点为:
借用上图咱们再来了解一下spark的运算环节:
RDD计算案例
咱们用一个案例来剖析RDD的计算环节:
DAGScheduler关于RDD图形的划分是有必定法令的:
Executor是最终运转task的苦力,他将Task的口头结果反应给Driver,会依据大小驳回不同的战略:
© 版权声明