导图社区 《统计》思维导图
基于文都比邻的背诵手册,这份思维导图耗费了我大量的心血,通过它,我快速的通过了这次考试,也希望对你有所帮助。逢考必过,加油。
编辑于2021-06-29 04:19:44第五编
绪论
数据类型
按来源
计数数据
测量数据
按是否具有连续性
离散数据
连续数据
按测量水平
称名数据
无相等单位,无绝对零度。
只用于计算个数,不能说明事物之间的差异, 也叫类目数据,不能进行加减乘除运算。可分类,不可比较。
顺序数据
无相等单位,无绝对零度。
根据事物某种属性的多少或大小,按次序将各个事物加以排序。 也叫等级数据。不能进行加减乘除运算。可分类,可比较。
等距数据
有相等单位,无绝对零度。
可以进行加减运算,不能进行乘除运算。可分类,可比较。
比率数据
有相等单位,有绝对零度。
也叫等比数据,可以进行加减乘除运算。可分类,可比较。
集中量数
平均数
特点
在一组数据中,每个变量与平均数之差(离均差)的总和为0。
离均差的平方和最小
即每个数据与平均数之差的平方和 都小于 每个数据与任意其他常数之差的平方和。
即平均数的“最小平方”原理。
是一组数据的重心
在一组数据中,每个数都加上一个常数C, 所得的平均数为原来的平均数加上常数C。
在一组数据中,每个数都乘以一个常数C, 所得的平均数为原来的平均数乘以常数C。
优点
反应灵敏、计算严密、计算简单、简明易解、 适用于进一步用代数方法演算、 较少受抽样变动影响。
缺点
易受极端数据的影响、 不能在出现模糊数据时计算。
与中数、众数的经验关系
Mo=3Md - 2M
(种树 等于 三中捡两瓶)
3Md=Mo+2M
(三中=不变+2倍的极端)
差异量数
方差的特点
可加性、可分解性
标准差
特点
每一个观测值都加上一个相同的常数C, 标准差不变。
每一个观测值都乘以一个相同的常数C, 所得的标准差等于原标准差乘以这个常数C的绝对值。
每一个观测值都乘以一个相同的常数C,在加上一个常数d, 所得的标准差等于原标准差乘以这个常数C的绝对值。
优点
反应灵敏、计算严密、计算简单、简明易解、 适用于进一步用代数方法演算、 较少受抽样变动影响。
缺点
运算繁琐(相对)、难以理解、 易受极端值影响、。
差异系数
含义
差异系数又称变异系数,相对标准差, 它是一种相对量数,用CV表示, 是标准差对平均数的百分比。
coefficient of variation
S为标准差,M为平均数
适用条件
同一团体不同观测值离散程度的比较。
对于水平相差较大,单进行的是同一种观测的各种团体的观测值的离散程度的比较。
适用须知
测量数据必须等距
测量工具具备绝对零
由于尚无有效的检验方法,目前不能进行推理统计
标准分数
含义
以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。 也叫Z分数或基分数。
离平均数有多远,即表示原始分数在平均数以上或以下几个标准差的位置。
特点
Z分数无实际单位,是以平均数为参照点,以一个标准差为单位的一个相对量。
所有原始分数的Z分数之和为 0, Z分数的平均数为 0, 原始分数转化得到的Z分数可正可负。
所有原始分数的Z分数的标准差为1
原始分数转换为Z分数后,两者分布形状相同。
若原始分数呈正态分布, 则转换得到的所有Z分数呈均值为0,标准差为1的标准正态分布。
优点
可比性、可加性、明确性、稳定性。
缺点
计算繁杂; 有负值、0和小数; 进行比较时数据原始形态相同。
线性转化 T=15Z+100
相关量数
积差相关
数据要成对(≥30对)出现; 两列变量之间线性相关; 两个相关的变量是连续变量; 两个变量各自总体的分布都是正态的;
公式看书
等级相关
斯皮尔曼等级相关
只有两列变量, 两列变量之间线性相关; 变量为顺序型数据或称名数据(无法进行积差相关); 总体分布非正态和正态都可。
肯德尔等级相关
K个被试对N个事物进行等级评定, 或 1个被试先后K次评价N个事物。
肯德尔W系数适用于等级评定法, 肯德尔U系数适用于对偶比较法。
质与量相关
当需要计算相关的两列变量一列是按性质划分的类型, 而另一列是等距或等比数据时使用。
点二列相关
一列数据为真正的二分变量, 另一列数据为等距或等比数据。
公式看书
二列相关
一列数据为人为二分变量(数据分布形态为正态分布), 另一列数据为等距或等比数据。
公式看书
多列相关
两列正态变量, 一列数据被人为地划分为多种类型, 另一列数据为等距或等比数据。
品质相关
四格表
四分相关
两个变量都是连续变量, 且每一个变量的变化都被人为地分为两种类型(四格表)。
φ系数
两个变量都是真正二分变量, (除四分相关之外的四格表)
公式计算:对角相乘再相减 / 相邻相加相乘再根号
列联表相关
又称均方相依系数、接触系数等,一般用C表示。 是由二因素的 R×C列联表资料求得。
推断统计
正态分布
正态分布又称常态分布,有时又称高斯分布。 它是连续随机变量概率分布的一种,是实际应用最广泛的一种理论分布。
N(μ,σ² )
特点
呈 对称分布,(对称不一定是正态) 在正态分布中,均值、中数、众数相等。
中央点最高,曲线先向内弯后向外弯,拐点在±1个标准差处。
正态分布是一族分布,所有正态分布都可以经由Z分数转换为标准正态分布。 标准正态分布的 μ=0,σ² =1,记作N(0,1),具有固定的形态。
平均数影响波峰位置, 标准差影响波形
正态分布曲线下面积为1,分布包含了所有数据。
正态分布下各差异量数之间有固定比率
常用
34.13% - 13.59% - 2.14%
±1 个标准差 68.26%
低于-1个标准差 16%
低于+1个标准差 84%
±2 个标准差 95.46%
±3 个标准差 99.73%
±1.96个标准差 95%
低于+1.645个标准差 95% (录取率5%)
±2.58个标准差 99%
低于+2.33个标准差 99%
低于+2.58个标准差 99.5%
2,14,34,34,14,2
应用
化等级评定为测量数据
确定测验题目的难易度
按能力分组,确定人数
测验分数的正态化
样本分布
定义
样本分布即样本统计量的分布, 只有知道了样本分布,才能依据样本对总体进行推论。
形态
正态分布
总体为正态,方差已知
渐进正态分布
总体非正态,方差已知,样本足够大(n≥30)
(样本足够大时,样本方差及标准差渐趋于正态分布。)
t 分布
总体为正态,方差未知
均值为0,左右对称,左侧<0,右侧>0,一族分布
取值在[+∞,-∞]
自由度·趋向正无穷时,为正态分布,方差为1
df=n-1>30
t 分布接近正态分布,其密度函数曲线与标准正态分布的密度曲线几乎重合; t 分布的方差大于1, 随df增大,方差趋于 1
df=n-1<30
t 分布于正态分布相差较大 ; 随df减少,方差变大
近似t 分布
总体非正态,方差未知,样本足够大(n≥30)
卡方分布
正态分布的总体,从中抽取无限多个数量为 n 的随机变量, 这些变量的平方和或者标准差的平方和的分布即为卡方分布。
取值均为正值
正偏态分布,连续型分布(有些离散型分布也近似卡方分布)
n越小,分布越偏斜; df趋向正无穷时,为正态分布
卡方分布的和也是卡方分布,即卡方分布具有可加性
df>2时,一般情况下,数值均大于2
方差为自由度的两倍
F 分布
两个正态分布的总体,从中抽取容量为 n1 、n2 两个样本, 计算卡方值,每个卡方随机变量除以对应的自由度 df1 与 df2 之比, 称为 F比率,无限多个 F值得分布即为 F分布。
(平方和/自由度) / (平方和/自由度)
参数估计
估计量
良好的标准
无偏性
用多个样本的统计量去估计总体参数的估计值,其偏差的平均数为0。 也就是样本量围绕着总体参数变化。
有效性
估计量方差越小,则有效性越高
一致性
样本容量无限增大时,估计量越接近总体参数
充分性
样本的统计量充分反映了总体的信息
置信区间
区间估计
先算标准误,再查Z分数,展开平均数。
影响因素
数据方差
数据变异越大,置信区间越宽。
离散程度
样本容量
n越小,置信区间越宽。
置信水平
置信水平越高,置信区间越宽。
1.96-95%,2.58-99%
显著性水平
α越小,置信区间越宽。
= 1-置信水平
假设检验
假设检验
含义
通过样本统计量得出的差异做出一般性结论,判断总体参数之间是否存在差异, 其推断过程称为假设检验。
两个基本思想
反证法
为了检验H0,首先需要假设H0为真, 若出现“不合理现象”,则不能接受H0转而接受H1; 若没有出现“不合理现象”,则接收H0。 “不合理现象”指小概率事件在一次试验中发生了。
小概率事件原理
小概率事件在一次试验中不可能发生, 通常将概率不超过0.05或0.01的事件称为“小概率事件”。
两类假设
H0
直接被检验的假设,又称虚无假设、无差别假设、零假设、原假设。
(统计推论的出发点)
H1
希望得到证实的假设,又称备择假设、研究假设、科学假设、对立假设。(有差异)
(如果H1为小概率事件,则接受H0)
(统计推论的落脚点)
两类错误
正确,被拒绝
I型/α型错误 (弃真)
不正确,但接受
II型/β型错误 (取伪)
Ⅰ型错误
当H0正确,却拒绝了H0时所犯的错误,也叫α错误、弃真错误,其概率为α。 指研究者得出处理有效应的结论,而实际上并没有效果,即所谓的“无中生有”
Ⅱ型错误
当H0错误(H1正确),接受了H1时所犯的错误,也叫β错误、取伪错误,概率为β。 假设检验未能侦察到实际存在的处理效应,即所谓的“失之交臂”。
两类错误的关系
α+β不一定等于1
它们是两个前提下的概率
其他条件不变的情况下,α于β不可能同时减小或增大。
在规定了α的情况下要同时减少β,直接的方法是增大样本容量。
显著性水平
通常将犯Ⅰ型错误的概率α称为显著性水平。
平均数差异检验
计算
先算标准误,再算Z分数,展开平均数。
单侧-是否高于; 双侧-是否有差异;
统计检验力
含义
统计检验力指某个检验能够正确拒绝一个错误的虚无假设H0的概率, 它反映着正确辨认真实差异的能力,统计学中用 1-β 来表示。
影响因素
Z算
处理效应大小
处理效应越明显越易检测,功效越大
样本容量
容量越大,标准误越小,样本分布均值越集中,统计检验力越大
数据方差
数据变异越小,标准误就越小,统计检验力越大
Z查
显著性水平α
α增大,β减小,1-β增大
检验方向
单侧高于双侧
变异 SS
totality 总体
between 之间
interior 内部
方差分析
基本假定
总体正态分布
若有证据表明总体分布不是正态,则可将数据做正态转化,或进行非参数检验。
变异来源独立
变异的来源在意义上必须明确,而且彼此要相互独立
各处理内方差齐性
各处理内的方差彼此应无显著差异,这是方差分析中最为重要的基本假设。 (方差齐性检验的方法采用哈塔莱的最大F比率法。)
F=最大的方差/最小的方差
重复测量设计 服从球形假设
卡方检验
基本假设
分类相互排斥,互不相容
这样每一个观测值就会被划分到一个类别或另一个类别之中。
观测值相互独立
如一个被试对某一品牌的选择对另一个被试的选择有没有影响。
每个单元格中期望次数至少在5个以上
单元格中期望次数过小 的校正方法
单元格合并; 增加样本; 去除样本; 使用矫正公式。
非参数检验
优点
不需要严谨的前提假设
特别适合顺序变量
特别适合小样本,计算很快
缺点
未能利用数据的全部信息
不能处理交互作用
线性回归
基本假设
线性关系假设
X与Y在总体上具有线性关系,这是线性回归的最基本假设。
正态性假设
在回归分析中的Y服从正态分布
独立性假设
①一个X对应的Y值 与 另一个X对应的Y值 之间相互独立
②不同X产生的误差相独立,误差与X之间相互独立
误差等分散性假设
X对应的误差,除呈随机化的常态分布,其变异量也应相等。
相关分析 r 与 线性回归 b
区别
相关分析能够对两个变量有无相关以及相关方向作出定性描写, 用相关系数对变量间相关的密切程度作总的描写。
相关分析是双向的,不强调那个是自变量,哪个是因变量。
回归分析是借助因变量和自变量的分类, 用精准的数学公式定量刻画自变量与因变量的数量关系(预测作用)。
回归分析是单项的, 要找出一个变量随之另一个或多个变量的变化而变化的关系。
联系
相关和回归都能够用来描述变量间的不确定关系。 从广义上而言,相关分析包括回归分析。 相关是回归的基础,回归是相关的延伸与推广。
一元线性回归中,相关系数等于两回归系数的几何平均数。