导图社区 PCA简化数据方法经验总结
PCA简化数据方法经验总结:主成分分析PCA:在NumPy中实现PCA、移动坐标轴、适用数据类型;降维技术:数据简化的原因、降维的作用数据。
网店详情页排版方法分享~包括中心页面组成,优质详情必备,详情页的排版参考方法。感兴趣的小伙伴可以看看哦~
喷绘色彩基础培训方案,内容涵盖色彩基础,喷绘写真。框架清晰,内容丰富,希望对小伙伴有所帮助哦~
酒窖营销计划方案,包括结果目标,过程目标。框架清晰,内容丰富,有需要的小伙伴可以看看哦~ 可供大家参考,借鉴,交流。
社区模板帮助中心,点此进入>>
英语词性
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
法理
刑法总则
【华政插班生】文学常识-先秦
【华政插班生】文学常识-秦汉
文学常识:魏晋南北朝
【华政插班生】文学常识-隋唐五代
民法分论
PCA简化数据方法经验总结
引言
降维
dimensionality reduction
低维下数据更容易处理
降维技术
数据简化的原因
使得数据集更易使用
降低很多算法的计算开销
去除噪声
使得结果易懂
降维的作用数据
已标注
未标注
本书主要关注
降维方法
主成分分析PCA
数据从原来的坐标系转换到新坐标系
新坐标系的选择由数据本身决定
新坐标轴
第一个
原始数据中方差最大的方向
第二个
和第一个正交且具有最大方差的方向
重复
次数为原始数据中特征的数目
因子分析
假设在观察数据的生成中有一些观察不到的隐变量
结社观察数据是隐变量和某些噪声的线性组合
隐变量的数据可能比观察数据少
独立成分分析ICA
假设数据是从N个数据源生成的
假设数据为多个数据源的混合观察结果
数据源之间在统计上相互独立
PCA上只假设数据是不相关的
如果数据源的数目少于观察数据的数目
优点
降低数据的复杂性
识别最重要的多个特征
缺点
不一定是必须的
且可能损失有用信息
适用数据类型
数值型
移动坐标轴
坐标轴的旋转
第一条:旋转到覆盖数据的最大方差位置
第二条:与第一条正交且数据差异性次大
能决策树获得SVM和决策树的优点
协方差矩阵及其特征值分析
得到协方差矩阵的特征向量
保留最大的N个值
N个最重要特征的真实结构
在NumPy中实现PCA
伪代码
去除平均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值从大到小排序
保留最大的N个特征向量
将数据转化到上述N个特征向量构建的新空间中
示例:利用PCA对半导体制造数据降维