导图社区 RDD计算的具体流程
RDD计算可以分为输入、计算、输出三大功能,初始RDD是数据在Spark程序运行时从外部数据空间读取进入系统。
社区模板帮助中心,点此进入>>
RDD计算的具体流程
输入
定义
初始RDD
数据在Spark程序运行时从外部数据空间读取进入系统
转换
Spark数据块
形成
最初始的RDD
计算
根据
定义好的Spark应用程序对初始的RDD进行相应的转换操作形成新的RDD
通过
行动操作
触发
Spark驱动器
提交作业
特例
如果数据需要复用
可以对数据进行持久化操作
缓存到内存中
输出
前提
当Sspark程序运行结束后
过程
系统会将最终的数据存储到
分布式存储系统
Scala数据集合