导图社区 MapReduce大数据处理知识点笔记
MapReduce大数据处理知识点笔记:在Python中使用mrjob来自动化MapReduce;MapReduce上的机器学习;在Amazon网络服务上运行Hadoop程序。
网店详情页排版方法分享~包括中心页面组成,优质详情必备,详情页的排版参考方法。感兴趣的小伙伴可以看看哦~
喷绘色彩基础培训方案,内容涵盖色彩基础,喷绘写真。框架清晰,内容丰富,希望对小伙伴有所帮助哦~
酒窖营销计划方案,包括结果目标,过程目标。框架清晰,内容丰富,有需要的小伙伴可以看看哦~ 可供大家参考,借鉴,交流。
社区模板帮助中心,点此进入>>
英语词性
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
法理
刑法总则
【华政插班生】文学常识-先秦
【华政插班生】文学常识-秦汉
文学常识:魏晋南北朝
【华政插班生】文学常识-隋唐五代
民法分论
MapReduce大数据处理知识点笔记
MapReduce:分布式计算的框架
优点
可在短时间内完成大量工作
缺点
算法必须重写
需要对系统工程有一定的理解
适用数据类型
数值型
标称型
工作原理
map阶段
单个作业被分成很多小份
输入数据也被切片分发到每个节点
各个节点只在本地数据上做运算
reduce阶段
每个mapper的输出通过某种方式组合(一般还会做排序)
排序后的结果再被分成小份分发到各个节点进行下一步处理
学习要点
主节点控制MapReduce的作业流程
MapReduce的作业可以分为map任务和reduce任务
map任务之间不做数据交流,reduce也一样
在map和reduce阶段中间,有一个排序或合并的阶段
数据被重复存放在不同的机器上,以防某个机器失效
mapper和reducer传输的数据形式为key/value对
Hadoop流
像Linux中的管道
分布式计算均值和方差的mapper
好习惯
向标准错误输出发送报告
分布式计算均值和方差的reducer
在Amazon网络服务上运行Hadoop程序
AWS上的可用服务
S3
简单存储服务
EC2
弹性计算云
EMR
弹性MapReduce
开启Amazon网络服务之旅
在EMR上运行Hadoop作业
不使用AWS
MapReduce上的机器学习
朴素贝叶斯
每个指定类别下的计算作业交由单个mapper处理
使用reducer把结果相加
kNN
构建树存储数据
高维数据下流行的kNN是局部敏感哈希算法
SVM
SMO在MapReduce下难以实现
可以实现的
梯度下降算法(如Pegasos)
proximal SVM
奇异值分解
Lanczos算法
还可以用于主成分分析
k-means
canopy聚类
在Python中使用mrjob来自动化MapReduce
mrjob与EMR的无缝集成
mrjob的一个MapReduce脚本剖析
示例:分布式SVM的Pegasos算法
Pegasos算法
原始估计梯度求解器
迭代次数
取决于用户所期望的精确度
而不是数据集的大小
工作流程
从训练集中随机挑选一些样本点添加到待处理列表中
按序判断每个样本点是否被正确分类
是则忽略
不是则添加到待更新集合
批处理完毕后,权重向量按照这些错分的样本进行更新
伪代码
将w初始化为0
对每次批处理
随机选择k个样本点(向量)
对每个向量
如果该向量被错分
更新权重向量w
累加对w的更新
训练算法:用mrjob实现MapReduce版本的SVM
调试mrjob