导图社区 spark
这是一篇关于spark的思维导图,包括map、mapPartitions、mpatitininithindtxe、flatMap、glom、groupBy、filter等内容。
社区模板帮助中心,点此进入>>
互联网9大思维
安全教育的重要性
组织架构-单商户商城webAPP 思维导图。
个人日常活动安排思维导图
域控上线
西游记主要人物性格分析
17种头脑风暴法
python思维导图
css
CSS
spark
转换算子(不执行操作)
map
逐条转换
val dataRDD2: RDD[String] = dataRDD1.map( num => { "" + num } )
mapPartitions
分区为单位,批量执行(要传递一个迭代器,返回一个迭代器)
val dataRDD1: RDD[Int] = dataRDD.mapPartitions( datas => { datas.filter(_==2) } )
mapPartitionsWithIndex
分区为单位,批量执行,如mapPartitions,携带分区编号
val dataRDD1 = dataRDD.mapPartitionsWithIndex( (index, datas) => { datas.map(index, _) } )
flatMap
1对多,扁平后再映射
val dataRDD1 = dataRDD.flatMap( list => list )
glom
同一分区,变成数组
val dataRDD1:RDD[Array[Int]] = dataRDD.glom()
groupBy
分区保持不变,数据打撒重新进入分区(shuffer)
val dataRDD1 = dataRDD.groupBy( _%2 )
filter
符合规则的数据保留,不符合规则的数据丢弃,当数据进行筛选过滤后,分区不变
val dataRDD1 = dataRDD.filter(_%2 == 0)
distinct