导图社区 统计模型
相关分析,回归分析,聚类分析,主成分与因子分析,将知识点进行了归纳和整理,帮助学习者理解和记忆。
编辑于2024-05-24 15:20:51统计模型
相关分析
概念:分析客观事物之间关系的数量分析方法。
客观事物之间的关系分为两类:函数关系(有确定性)和统计关系(有不确定性)。
函数关系:事物间的一种一一对应的确定性关系,可以用某种函数来表示。
统计关系:事物间的关系是不确定性的,有某种关系,但又不是确定性的关系。统计关系的常见类型:1,线性相关:正线性相关、负线性相关;2,非线性相关。
相关关系的两种情况:第一种,变量都是随机变量,彼此间地位相同,任一个变量既可以做因变量也可以做自变量。这类问题可以用相关分析解决。第二种,某些变量是可以控制和测量的非随机变量,称之为自变量,另一个变量与它们有关,它是不可控的,是随机变量,称之为因变量。这里因变量与自变量地位不同,不能互换。这类问题用回归分析去解决。
研究对象:不同变量间密切程度(统计关系)。研究目的:描述两个变量间线性关系程度的强弱的统计量—— 相关系数r。 基本方法:绘制散点图、计算相关系数r(取值范围:-1~1)。
相关系数:以数值的方式精确地反映了两个变量间线性相关的强弱程度。 相关系数r的绝对值越大,相关性越强;相关系数r越接近1或-1,相关性越强;相关系数r越接近0,相关性越弱。
相关系数r计算步骤: 第一步,计算样本的相关系数r;第二步,对样本来自的两总体是否存在显著的线性关系进行推断。(由于存在抽样的随机性和样本量较少等原因,通常样本相关系数不能直接用来说明样本来自的两总体是否具有显著的线性关系,需要通过假设检验的方式对样本来自的总体是否具有显著的线性相关关系进行统计推断)
Pearson简单线性相关系数:数值型变量间的线性相关关系 Spearman等级相关系数:等级变量间的线性相关关系
假设检验:1,提出提出原假设Ho(两总体无显著线性关系,存在零相关);2,选择检验统计量(不同类型的变量应采用不同的相关系数,相应也采用不同的检验统计量);3,计算检验统计量的观测值和对应的概率P值;4,决策。(如果检验统计量的概率P 值小于给定的显著性水平α,则应拒绝原假设,认为两总体存在显著的线性关系;反之,则可认为两总体存在零相关)。
Pearson相关(皮尔逊相关)
概念:衡量两个变量X和Y之间线性相关性的统计量。 条件: Pearson相关只能评估两个连续变量之间的线性相关(仅当一个变量的变化与另一个变量的比例变化相关时,关系才是线性的)。Pearson相关是用于两个计量资料之间的相关性,应用的条件为两组资料必须都符合正态分布,但此条件过于严格,近似正态分布也可以。
分析→描述统计→探索
图形一旧对话框一散点/点图一简单散点图
分析→相关→双变量
偏相关分析
偏相关分析:在控制其他变量线性影响的条件下分析两变量间的线性相关性。即当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。所以偏相关分析也称之为净相关分析。控制变量个数为1时,称为一阶偏相关系数;控制变量个数为2时,称为二阶偏相关系数;控制变量个数为0时,称为零阶偏相关系数,即相关系数。
步骤:第一步,计算样本的偏相关系数;第二步,对样本来自的两总体是否存在显著的偏相关关系进行推断。
假设检验:对样本来自的两总体是否存在显著的偏相关进行推断。1,提出提出原假设Ho(两总体的偏相关系数与零无显著差异);2,选择检验统计量(t检验统计);3,计算检验统计量的观测值和对应的概率P值;4,决策。(如果检验统计量的概率P值小于给定的显著性水平a,则应拒绝原假设,认为两总体的偏相关系数与零有显著差异;反之,则可认为两总体的偏相关系数与零无显著差异)。
分析→相关→偏相关
回归分析
概述
回归分析:可以定量给出变量间变化规律,它不仅能提供变量相关关系的经验公式(回归方程),而且可以判明所建立的回归方程的有效性。在方程有效的前提下,可以利用方程做预测和控制,了解预测和控制的精度。在多元回归中,还可以分析判定出哪些是重要的变量,哪些是次要的变量。
回归分析的核心——获得回归线。
回归线的获得:局部平均:利用大样本数据得到一条回归线的近似线。拟合函数:利用样本数据估计出回归模型的各个参数,得到回归模型。
步骤:1,确定回归分析中的自变量和因变量;2,确定回归模型(根据函数拟合方式,通过观察散点图确定通过哪种数学模型来概括回归线);3,建立回归模型(根据样本数据,估计出模型中的各个参数,得到一个确定的回归 方程);4,对回归方程进行统计检验;5,利用回归方程进行预测。
线性回归的定义:描述一个因变量与一个或多个自变量之间的线性依存关系。
一元线性回归
回归条件:1.线性 (linear):因变量y与自变量x呈线性关系。 2.独立性 (independent):每个个体观察值之间相互独立,表现为y值相对独立,在模型中看残差是否独立。 3.正态性(normal distribution):应变量y属于正态随机变量。如数据不满足正态性条件,首先考虑对原始数据进行变量变化使其正态化。 4.方差齐性(equal variance):在一定范围内,不同的x值所对应的随机变量y的方差相等。通常利用 (x,y)的散点图或残差的散点图来判断等方差性,如果数据不满足等方差条件,可采用变量变换使其方差齐性化,或采用加权回归的方法。
1.专业角度考虑身高与体重之间是否存在关系 2.散点图验证相关性:图形一旧对话框一散点图/点图 3.回归分析:分析一回归一线性
分析过程:1,模型摘要;2,方差分析;3,模型系数;4,个案诊断;5,方差齐性验证
多元线性回归
两个问题
变量筛选问题
变量的多重共线性问题
1,散点图验证:图形→旧对话框→散点图/点图→矩阵散点图;2,回归分析:分析→回归→线性(模型摘要;方差分析(ANOVA分析);模型系数(输入法) )
小结:回归分析本质上是探讨变量之间相关关系,只有在理论上满足自变量与因变量之间存在因果关系才可开展回归分析。此外,即使回归分析显著,在解释因果关系也需谨慎。2,一元线性回归分析需要满足变量之间存在线性关系,如果不是,则不能采用线性回归分析,这可通过散点图来判断线性关系。3,回归分析还需满足独立性、方差齐性和正态性。独立性采用德宾-沃森(D-W) 残差相关性检验方差齐性采用残差散点图来检验;正态性采用残差正态分布图和P-P图来判断。4,如果回归分析只是建立自变量与因变量之间关系,无须根据自变量预测因变量的容许区间和可信度等,则方差齐性和正态性可以适当放宽。5,回归分析一般要报告回归系数 (b或β值)以及显著性(P值)、R2(或调整R2) 和回归模型的方差分析结果(F值和P值)。
线性回归——因变量为连续变量;logistics回归——因变量为分类变量;泊松回归—因变量为计数变量。
检验:1,回归方程的拟合优度检验 2,回归方程的显著性检验(线性关系的 检验)3,回归系数的显著性检验4,残差分析
主成分与因子分析
因子分析的目的是分解原始变量,从中归纳出潜在的“类别”相关性较强的归为一类,不同类别间变量的相关性则较低。每一类变量代表了一个“共同因子”,即一种内在结构。主成分与因子分析的核心—多个变量降维。
分析→降维→因子→结果解读
主成分分析的目的是通过线性变换,将原来的多个指标(可能存在相关性)组合成相互独立 (线性不相关)的少数几个(主成分)能充分反映总体信息的指标。因子分析是将多个实测变量简化为较少变量的方法。因子分析能确定哪些变量应该保留,哪些应该剔除,并能得到主要成分的表达式,这些表达式是原有变量的线性组合,而用这些主要成分便能代替原来众多的实测变量。
聚类分析
聚类分析是根据事物本身的特性研究个体分类的方法。 聚类分析的原则是同一类的个体有较大的相似性,不同类的个体差异很大
分类对象不同
样品聚类(Q型聚类)
变量聚类(R型聚类)
方法
系统聚类:样品聚类和变量聚类均适用。先将n个样本或变量看成n个分类,然后将距离接近(样品聚类,Q聚类)或性质接近(变量聚类,R 聚类)的两类合并为一类,再从n-1类中继续寻找最接近的两类合并为一类,如此继续,最终将所有类别合并为一支。 K-均值聚类(快速聚类):1,只适用于样品聚类(Q聚类);2, 要聚成的类数已知;3,特别适合大样本研究;4,连续性计量变量。
分析→分类→系统聚类→结果解读(冰柱图、谱系图)
快速聚类(K-means聚类) 分析→分类→系统聚类→结果解读