导图社区 主成分分析
主成分分析(principal component analysis):定义,步骤:将各变量标准化,去找原变量互不相关的线性组合,特征根=主成分的方差,特征向量=个主成分对应的系数等等
这是一篇关于初中化学辅导思维导图,参考老师课程讲解的笔记;在期末复习的时候非常好用~
职业卫生与职业医学绪论思维导图,职业卫生学以前称劳动卫生学,曾是一门独立的预防医学分支学科,是以职业人群为主要研究对象,主要研究劳动条件对职业人群健康的影响,主要任务是识别、评价、预测、控制和研究不良劳动条件,为保护职业从事者健康、提高作业能力、改善劳动条件所应采取的措施提供科学依据。
常用的相对数指标及意义,定性资料的统计描述包含、率、构成比、相对比、相对危险度 相对数之比、比数比、率的标准化知识。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
主成分分析 (principal component analysis)
定义
为了避免遗漏重要的信息而考虑尽可能多的指标,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠。所以,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。
步骤:将各变量标准化,去找原变量互不相关的线性组合
几何意义:把组合系数(a11+a12+……a1m)看成一个向量,代表m维空间中的一个方向;相当于个体在这个方向上的投影。要求方差最大即找一个好的方向,是所有个体在该方向上的投影最分散。
基本关系
1.每一个主成分都是各原始变量的线性组合。
2.主成分的数目大大少于原始变量的数目。
3.主成分保留了原始变量绝大多数信息。
4.各主成分之间互不相关。
5.少数几个主成分的方差尽可能接近原始变量方差的和,从而达到降维的目的
计算
特征根=主成分的方差,特征向量=个主成分对应的系数
求主成分,可以由协方差阵来求,也可以由相关阵(指标间差异较大或度量单位不同时)来求,过程是一致的,但结果可能不同。
建议在实际工作中,分别从两者出发求解主成分并比较其结果的差别,看看是否发生明显差异且这种差异产生的原因在何处,以确定用那种方法更为可信
性质
1、主成分间互不相关 2、向量之间彼此正交 3、特征向量为单位向量,即各向量的分量之平方和为1(列) 4、各特征向量对应的分量之平方和=1(行) 5、主成分与原变量间的关系可以用相关系数来描述:r(Ci,Xi);aij反应了第i个主成分提取Xi的信息,称为第i个主成分对Xi的贡献,又称为因子负荷(factor loding) 6、第i个主成分对所有自变量的贡献为:ri 7、所有主成分对xj的贡献为:(共同度) 8、总信息量不变,即方差总量不变
相关不代表信息重叠;独立不代表没有重叠信息
主成分分析是对矩阵结构的分析,主成分不要求数据来自正态总体
有关的统计推断
特征根的可信区间估计
等相关性检验
主成分相等的检验
主成分的正确应用
主成分的解其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提出的主成分个数m通常应明显小于原始变量的个数p,否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。 如果原始变量之间有较高的相关性,则前面少数几个主成分的累计贡献率通常就能达到一个较高水平,也就是说,此时的累积贡献率较易得到满足。
分布无要求 变量间的关系是线性的 信息量不变
主成分个数的确定 Bartlett检验:对特征根是否等于0做假设 经验法 均数法
主成分分析的目的:主成分分析实际上是对变量共性的一种提取,利用降维分析技术来解释原变量的协方差结构。 主成分分析本身是手段、而不是目的; 可以用于多元回归主要解决自变量间共线性的问题,避免回归系数的不合理现象 用于因子分析、聚类分析、判别分析等,主要目的是减少变量的个数 用综合评价,提供可资参考的变量的权重
程序实现
SAS:proc princomp cov(从协方差阵出发求主成分,如果省略,则是从相关阵出发。); var x1-x6; run; SPSS:降维-因子分析
给出变量的均数和标准差,以及相关阵(correlation matrix)
相关矩阵的特征值,也是每个主成分的方差(eigenvalues of correlation matrix)
每个特征值对应的特征向量,也是每个主成分对应原变量线性组合的系数(eigenvectors)
insight(SAS画图)