导图社区 SPSS应用统计学思维导图
这是一篇关于SPSS应用统计学的思维导图,本图知识梳理清楚,知识全面详细,非常实用,干货满满,现在不收藏,还在等什么呢。
编辑于2021-06-23 10:35:03SPSS
数据预处理
横向、纵向合并文件
排序
多重排序时,指定升序降序
变量计算
派生新变量
数据选取
提高数据分析效率、验证模型的需要
计数
分类汇总
分块计算均值、方差等基本统计量
数据分组
组数公式
组距公式
数据离散化
加权处理
数据转置
数据拆分
拆分后,后续进行计算时会自动进行组内的计算
基本统计分析
计算基本统计量
目的:对数据的分布特征有更精确的认识
数据类型:数值型
分类
刻画集中趋势的统计量
均值
众数
中位数
均值标准误(样本与总体均值的平均差异程度)
刻画离散程度的统计量
样本标准差
样本方差
全距
刻画分布形态的统计量
偏度
描述变量分布的对称性
等于0:对称分布
大于0:右偏,长尾在右,均值在右
小于0:左偏,长尾在左,均值在左
峰度
描述分布形态陡缓程度
等于0:与标准正态的陡缓程度相同
大于0:更陡峭,尖峰分布
小于0:更平缓,平峰分布
频数分析
目的:了解变量取值情况,把握数据分布特征
数据类型:分类变量、定序变量 数值型变量可以进行分组、拆分文件后进行频数分析
交叉列联表
目的: 1.产生交叉列联表 2.对两两变量之间是否存在一定的相关性进行分析
检验方法
常用方法举例
卡方检验
原假设:行变量与列变量独立
前提条件:1.列联表中期望频数不应该有小于1的单元格,或不应该有大量的期望频数小于5的单元格(可以使用数据分组,使得数据离散化) 2.卡方的大小会受样本量的影响
结果分析
若真实计数和期望计数相近,则证明行列独立
P值小于0.05,应拒绝原假设,认为行列不独立,具有相关性,下面的线性相关针对数值型变量,小于0.05证明有相关性
如果不符合前提条件中的频数规则,则观察似然比卡方
多选项分析
目的:对多选项问题(多个答案)的频数分析方法 答案为顺序、名义变量,且有多种组合
步骤:1.分解多选项问题 2.利用频数分析/交叉分组分析
分解方法
多选项二分法
方法:将每个答案看作一个问题,用是/否回答
优缺点:比较简单;需要处理的变量多。 适合问题答案少的问题,可以研究变量本身,但无法研究变量值之间的顺序问题
多选项分类法
方法:最多选几个,就设置几个变量,变量的取值域为所有答案;若没选,则为缺失值
分析方法
频数分析:因为之前拆分了问题,导致结果是分散的,无法从整体的角度来衡量问题
多选项分析
步骤
分解问题,自行设置变量
设置变量的多重响应集
运行多重响应集的频数分析
分析
分析出谁最大最小等,还可以继续交叉列联表的分析
探索分析
目的:应用图表等工具对变量进行更为深入详尽的描述性统计分析,检查数据是否有误(异常值、影响点、错误数据),数据的正太性和方差性
工具与方法
箱图
茎叶图
直方图
Q—Q图
用来观察是否具有正态特质,越接近渐近线越符合正态
方差齐性检验
P>0.05,接受原假设,来自于同一个整体
参数检验
目的:总体分布已知,估计参数的取值、对其进行某种统计检验
均值比较(MEANS过程)
目的:用于计算指定变量的综合描述统计量
变量情况:数值型进行计算,名义型进行分组
与描述统计的差异:从数据的预处理上来说,此过程不需要提前进行数据分组,描述统计需要提前进行数据处理
例子
分析出谁大谁小
单样本T检验
目的:检验单个变量的均值与假设检验值之间是否存在差异
变量类型:数值型变量
前提:样本总体服从正态分布、个案间相互独立
原假设:总体均值与给定检验值不存在显著性差异
例子
分析:双侧的P值大于0.05,接受原假设,认为你没有显著差异
注意:比较P的时候,要分清楚原假设中是等于给定值还是不等号。 若是等于,则比较0.05与双侧值; 若是不等号,则比较0.05与单侧值,需要将双侧P/2,再进行比较。(本质上还是在比较与给定值是否相等)
两独立样本T检验
目的:用于检验两个来自独立总本的样体其独立总体的均值或中心位置是否一样
变量类型:数值型变量
前提:两个样本独立、两个样本总体服从正态分布、样本间个案相互独立
原假设:两总体之间不存在显著性差异
注意:应先进行方差齐性检验,由方差是否相等而决定观察哪一行的数据
例子
分析
1.由方差检验结果可得,P值>0.05,接受原假设,认为总体不独立,所以应看第一行数据
2.由第一行数据可得,P=0.539大于0.05应接受原假设,两总体均值不存在显著性差异
两配对样本T检验
目的:用于检验两个相关的样本是否来自具有相同均值的总体
变量类型:数值型变量
前提:样本互相配对(样本用不同处理方法、处理前后)、两个样本总体服从正态分布、个案间独立
注意:两个样本观测值应是一一对应的、容量相同
原假设:;两总体均值间不存在显著性差异
例子
1.第一张图显示均值,无多大差异
2.第二张图表示相关性,P大于0.05,接受原假设,相关性弱
3.第三张图P大于0.05,接受原假设,无差异性,原数据总体相同
方差分析
作用:观察哪一个影响因素的影响最大,并且知道起显著作用的因素在什么时候起效益最大的影响
前提:各总体服从正态分布或近似正态分布、各总体的方差应该是齐性的
主要应用领域
1.两个或多个样本均值比较
2.方差齐性检验
3.因素之间的交互作用分析
4.回归方程的拟合优度检验
随机误差:同一个水平下/总体/颜色
组内方差
系统误差:不同水平下/总体/颜色
组间方差
单因素方差分析
目的:一个控制变量的不同水平是否对观测变量产生了显著影响,最显著的水平是哪个
原假设:控制变量不同水平下观测变量总体的均值相同,无显著差异
注意:方差齐性检验也要做,检验前提条件是否满足
例子
图
方差齐性检验的图:各水平下变量总体是否有差异,若大于0.05,接受则符合前提条件,拒绝的话,无法判断结果的正确性
说明组间组内误差后,显著性小于0.05,拒绝原假设,认为有显著差异,说明被影响了
从均值差、显著性看出,宣传品效果最不好,报纸应该是最好的
多因素方差分析
目的:分析多个控制变量的作用,以及他们之间的交互作用,并找到最优组合
过程
1.明确控制变量和观测变量 控制一般为名义型,观测为数值型
2.总变异的分解
SST(总变异)=SSA+SSB+SS(AB)(交互)+SSE 组间占比大,就是因为控制变量引起的; 组内占比大,就是由随机误差引起
3.比较观测变量总离差平方和各部分的比例
原假设:控制变量和他们的交互效应没有影响
饱和模型:交互作用有影响 非饱和模型:交互作用无影响,所以将SS(AB)放入SSE中
例子
分析这两个控制变量条件下,观测变量的交互作用,进而确定最优组配
1.单个和交互的影响
2.R方可以看出拟合优度,若小的话则存在其他控制因素
虽然优度降低,但是合理,因为交互无影响
观察对比估算值,根据实际意义,选取最突出的,则为显著水平
通过这个图的最高点可以看出哪个组配是最优的
协方差分析
目的:将很难控制的因素(协变量)的影响排除之后,分析控制变量对观察变量的影响,从而更准确地对控制因素进行评价
过程
1.明确控制变量和观测变量、协变量 控制一般为名义型,观测为数值型 协变量是数值型
2.总变异的分解
SST(总变异)=SSA(组间)+SSE(组内) 组间占比大,就是因为控制变量引起的; 组内占比大,就是由随机误差引起
3.比较观测变量总离差平方和各部分的比例
例子
先分析我们自己发现的协变量是否可以作为协变量,一般使用散点图来观察是否有线性关系。有,则可以作为作为协变量
第一张是未加入协变量,可以看出R方很低,加入协变量后,看出R方明显上升,拟合优度较好,所以协变量没选错,且P小于0.05,拒绝原假设,则饲料之间有差异
观察对比估算值,发现饲料2为显著水平
因子分析
前提:变量间有多重共线性
步骤
1.通过球形KMO,P小于0.05,可以做
2.做完观察解释力,不好的话增加因子
3.写出解释方程,并描述
4.命名解释
判别分析
目的:通过已知类别建立函数将未知预测出来
方法
Fisher判别
贝叶斯
前提:现成的组具有显著差异性
分析
聚类分析
目的:从数据自身出发,进行客观的分组
特点:无先验知识
聚类方法
层次聚类(系统)
Q型聚类(个案)
R型聚类(变量)
快速聚类(K- means)
距离衡量方法
数值
欧氏、平方欧氏
计数
卡方、PHI
二值
简单匹配
说明:迎合聚类目标、无数量级差异(标准化)、变量间无较强线性关系(分类不准确)
回归分析
步骤
确定解释变量和被解释变量
确定回归模型
建立回归方程
对回归方程进行检验
预测
前提条件
标准化残差服从正态分布
分析
1.是否可以做:方差分析,小于0.05,系数不同时为0
2.分析每一个变量的线性显著结果
3.查看多重共线性
4.剔除变量,写出方程,揭示方程
曲线估计
看哪个函数的的系数正常,且R方大
只能做本质上是线性关系的函数的估计
一元线性回归
多元线性回归
二项Logistic回归
因变量是分类变量
当自变量有分类变量是,注意方程的写法,并且要关注EXP(B),。。。的优势倍数
相关分析
目的:描述变量之间相关程度强弱
描述方法:散点图、相关系数
R
大于0.8,相关性强
小于0.3,弱
原假设:无线性相关
二元变量的相关分析
方法
皮尔逊相关系数
变量:数值型
受异常值影响大
Spearman 相关系数
定序型
通过排序的思想,所以受影响不大
Kendall 等级相关系数
定序型
例子
先分析散点图,初步判断是线性关系
分析相关系数以及P值,小于0.05,拒绝,有相关性
偏相关分析
例子
通过散点图,明显的看到协变量在影响着观测变量
观察一般的相关,相关程度很高,但是作偏相关之后,发现观测变量之间的相关性特别弱
非参数检验
目的:总体分布未知,通过样本检验数据资料是否来源于同一总体假设
单样本非参数
目的:单个样本来自的总体的分布是否与某个已知理论的分布相吻合
可以通过直方图、PP图、QQ图自行判断
方法
卡方检验
变量:分类型、数值型
原假设:总体与给定没有显著差异
要求:处理的是实际样本数据、数据量足够大
例子
先分析第一张表上的观察数与期望数的关系; P大于0.05,所以接受原假设,无差异
二项分布检验
随机变量的取值只有两类
原假设:无差异
注意:将第一行数据的值默认为真,框中输入的应该是真值大于的值;且可以使用指定值,小于该值默认为成功
例子
看P值,接受原假设,则就是大于0.8
游程检验
原假设:总体某变量的变量值出现是随机的
变量:数值、分类
例子
P值大于0.05,接受原假设,是随机的,所以是正常的
独立样本非参数
两样本
目的:推断两独立样本的总体的分布是否相同(均值、中位数、离散程度、偏度)
变量类型:数值
方法
曼-惠特尼
中心思想:秩
样本混合、排序、标秩、求秩的平均数,最后得到统计量
K—S检验
秩
游程检验
排序,按组数标记,求游程,看混合的均匀程度
极端反应检验
例子
看P值,小于0.05,有差异,大于0.05,无差异
曼-惠特尼和K- S的结果更敏感
多样本
目的:多独立样本的均值/中位数是否有差异
方法
中位数检验(位置)
原假设:样本来自多个独立总体的中位数无显著差异
思想:计算混合样本的中位数,每组样本中大于或小于这个共同中位数的个数
K- W检验 (排序)
原假设:总体分布无差异
思想:秩
J- T检验(比较)
原假设:总体分布无差异
思想:求比另一组小的值的个数,然后平均
例子
三个方法P都小于0.05,拒绝原假设,有差异
配对样本非参数
前提条件:配对
两配对
方法
McNemar变化显著性检验
要求:变量类型是二值的
原假设:总体无差异
符号检验
原假设:总体无差异
思想:两组相减,观察符号
Wilcxon检验
思想:相减,绝对差值进行排序,算秩
原假设:总体无差异
例子
注意分析取值是否为二值型,不是的话不能使用M方法
P值大于0.05,接受原假设,无差异
多配对
方法
Friedman检验(普通)
原假设:总体无差异
变量:数值型数据
思想:秩,平均秩
例子
分析P,小于0.05,拒绝原假设,有差异
Cochran Q检验(二值)
变量:二值型(0/1)
原假设:总体无差异
例子
主要看C的P值,小于,拒绝,有差异
Kendall协同系数(评判)
主要用于分析评判者的标准是否一致
原假设:总体无差异,即不一致
例子
主要看K,P小于0.05,拒绝,有差异,评判标准一致;协同系数越接近于1,差别越大