导图社区 心理统计学
心理统计学 第四版(张厚粲)知识大纲,包括统计概述、统计学的发展史、统计图表、集中量数、差异量数等等。
编辑于2022-11-09 13:35:19 广东心理统计学 张厚粲
一、 统计概述
统计分类
描述统计
描述一组数据的全貌,表达一件事物的性质
统计图表
分类数据→更直观展示规律
集中量数
集中程度、集中趋势
差异量数
离散程度、离散趋势
相对量数
比较大小
相关量数
研究一列或多列数据的相关关系
推断统计
通过局部数据,推论总体情形 推断统计的数学基础——概率论
参数估计
以小估大
估计
用样本去推断总体
参数假设检验
对总体有要求
Z检验、 t检验、 x²检验、 F检验
非参数检验
对总体无要求
秩和检验等
检验(差异检验)
通过样本的差异去推断总体是否有差异
线性回归
研究两列或多列数据的关系
预测
Y=a+bx 输入一个X得到一个Y 所以能预测
数据分类
(1) 根据观测方法和来源分
1||| 计数数据
数出来的
例如统计下一个班里的男生人数和女生人数
往往是离散数据
2||| 测量数据
工具测出来的
往往是连续数据
(2) 根据变量性质分

称名数据
作用:分类——能分类、不能比大小 定义:用数字代表事物或对事物进行分类 特点:数字只是代表符号,没有任何数量意义——能分类、不能比大小
如男—1,女—2
分为真正二分(男和女)和认为二分(一般是连续变量,找一个标准来划分,如60分前不及格,60分后及格,选择题只有对和错,则不是)
顺序数据 等级数据
作用:分类、排序。没有零点,不是数量——能分类,能比大小 定义:不仅能指代事物,而且能表明事物的大小、等级或事物具有某种特征的程度数据 特点:它既没有相等的单位,也没有绝对的零点。它不代表事物特征的真正数量
如讲师—1,副教授—2,教授—3
等距数据
作用:分类、排序、差值——能分类、能比大小、能加减 定义:是指不仅能指代事物的类别、等级,而且具有相等的单位的数据 特点:一个真正的数量,能够进行加减运算。没有绝对零点(相对零点),不能进行乘除
有相等单位 有相对零点(没有绝对零点)
如第一座山—800米,第二座山—400米
比率数据
作用:作用:分类、排序、差值、比率——能分类、能比大小、能加减、能乘除 定义:指既表明数量的大小,也有相等单位,同时还具有绝对零点的数据 特点:是真正的数字,有绝对零点,可以进行加减乘除运算
如身高、体重、反应时
(3) 根据变量的连续性划分
1||| 连续变量
2||| 离散变量
(4) 根据变量的关系分
1||| 自变量
是实验中由实验者操纵的因素
2||| 因变量
是实验中由因变量所引起并被测量的变化量
相关概念
频率与概率
频率
频率是在一次试验中某一事件出现的次数与试验总数的比值 频率是现实意义上的,每次试验可能不同,是变化的
概率
概率是某一事件所固有的性质 概率是理论意义上的,是稳定值不变
在一定条件下频率可以近似代替概率
统计量与参数
总体
具有某种特征的一类事物的总体,是研究对象的全体
总体特征值称为参数
用小写希腊字母表示
μ
总体平均数
σ
总体标准差
ρ
总体相关系数
β
总体回归系数
样本
是从总体中抽取的一部分个体。构总体的每个基本单元称为个体
样本特征值称为统计量
用大小写英语表示
M
样本平均数
S
样本标准差
r
样本相关系数
b
样本回归系数
概率分布
Z分布、 t分布、 x²分布、 F分布
二、 统计学的发展史
科学统计
高尔顿(学生皮尔逊)

提出相关系数概念
发现了回归现象
皮尔逊(学生戈赛特)
计算出积差相关公式
推出了卡方检验
奠定了大样本分布推断理论
戈赛特(好友费舍)
发现了小样本分布规律
t分布
费舍
农场提出实验设计
提出了随机区组设计
推出了方差分析
三、 统计图表
集中趋势(向某个方向集中的程度)与离中趋势(彼此分散的程度)是次数分布的两个基本特征
数据的初步整理
2022旧逻辑图
数据的初步整理
数据排序:按照某种标准,对收集的数据照一定的顺序进行排列
统计分组:根据被研究对象特征,对收集的数据进行分组
统计表:表号、名称、标目、数字、表注
统计图:图目、图尺、图形、图例、图注
次数分布表
简单次数分布表
分组次数分布表
相对次数分布表
累加次数分布表
双列次数分布表
不等距次数分布表
次数分布图
直方图
次数多边形图
累加次数分布图
累加直方图
累加曲线
其他常用的统计表类型
简单表
分组表
其他常用统计图的类别
条形图
圆形图
线形图
散点图
茎叶图
概述与分类
统计图表的概念
统计表
 以表格的形式表达统计资料数量关系的方式或工具
组成
表号、标目、数字、表注
统计图
 以几何图形和形象图形表示统计资料数量关系的工具
组成
图号、图题、图目、图尺、图形、图例、图注
统计图表的分类
表:简单次数分布表 图:条形图、圆形图

类型
简单次数分布表

条形图

圆形图

表:分组次数分布表 图:直方图、次数多边形图
 数据分布范围较大,多一个分组的过程
类型
分组次数分布表

直方图

次数多边形图

步骤
 
求全距
决定组数
决定组距
列出分组区间(组限)
条形图与直方图区别

表:相对次数分布表 图:累加次数分布图

类型
相对次数分布表

累加次数分布图

累加直方图
累加曲线图
累加次数分布曲线与百分等级

表:双列次数分布表 图:散点图

类型
双列次数分布表
散点图

其他统计图
线形图
 通常表两变量之间的函数关系或描述某种现象的发展趋势
茎叶图

箱形图
 
可以分出异常值
雷达图

思路
一列数据
简单次数分布表 条形图、圆形图

类型
简单次数分布表

条形图

圆形图

分组次数分布表 直方图、次数多边形图
 数据分布范围较大,多一个分组的过程
类型
分组次数分布表

直方图

次数多边形图

步骤
 
求全距
决定组数
决定组距
列出分组区间(组限)
条形图与直方图区别

二列数据
双列次数分布表 散点图

类型
双列次数分布表
散点图

线形图
 通常表两变量之间的函数关系或描述某种现象的发展趋势
考点
条形图和直方图区别
四、 集中量数
用于描述数据集中程度的统计量
1||| 类型
平均数
算数平均数
 
概述
一般称为平均数或均数、均值。只有与其他平均数区别时候才叫算数平均数
特点
一组变量的和等于平均数与个数的乘积
离均差之和等于零
一组变量值中,每个变量加减或乘除一个常数C,所得平均数等于原平均数加减乘除C
意义
是应用最普遍的一种集中量数
当观测次数无限增加时,算数平均数趋于真值。它是真值渐进、最佳的估计值。
优缺点
优点
反应灵敏
计算严密
计算简单
简明容易理解
适合进一步代数运算,较少受抽样变动的影响
缺点
容易受极端数据影响
如果出现模糊不清数据,无法使用
中数
按照一定顺序排列的一组数中央位置的数值。 中数是一种位置量数
概述
中数是按顺序排列到一起的一组数据居于中间的位置的数
计算
无重复

有重复

优缺点
众数
概述
指一组数据中出现次数最多的那个数值,众数可能不止1个
计算
未分组数据
次数最多的数值
次数分布表
次数最多一组的组中值
三者关系:正态分布中 M>Md>Mo , 负偏态分布中 M<Md<Mo(负得口留右)
其他集中量数
加权平均数
几何平均数
调和平均数
2||| 三者关系

正态分布中
M=Md=Mo
正偏态分布
Mo<Md<M
负偏态分布
M<Md<Mo
一般偏态情况下Md离M较近,离Mo较远
五、 差异量数
对一组数据的变异性,离中趋势特点进行度量和描述的统计量
概述
为什么需要差异系数
差异系数又称变异系数,是一种相对差异量数
变异系数使用条件
两个或以上样本所使用的观测工具不同,所测得特质不同
两个或以上样本所使用的观测工具相同,所测得特质相同,但样本间水平差异
差异量数类型
全距与百分位差
全距(两极差)
概述
是说明数据离散程度的最简单统计量
计算
用最大值减最小值
百分位差(百分位点)
概述
是指量尺上的一个点,在此点以下包括数据分布中全部数据个数的一定百分比
计算
百分位数与百分等级
百分位数
百分等级:相对位置,可以比较大小,但没有单位,只能做顺序数据
四分位差
概述

四分位数可视为百分位数的特例,用Q来表示
P25、P50、P75把数据分成四等份
P25
第一个四分位
Q1
P50
第二个四分位
Q2
P75
第三个四分位
Q3
实质
反映了中间50%数据的离散程度
平均差、方差、标准差
动差体系:动差是力学上的测量力的旋转趋势的名称。
平均差(平均离均差)
离均差:一组数据中的一个数与平均数的差——到平均数的距离(有正负方向性) 即平均离均差
概述
是次数分布中所有原始数据与平均数绝对离差的平均值(即所有距离之和平均数)
原始数据与平均数绝对离差的平均数
计算
特点
较好反应了数据分布的离散程度
平均差是绝对值,使用收到限制
属于低效的差异量数
方差(也称变异数、均方)
 方差(均方):离均差平方求和除以总个数→离差平方和平均数 克服了其他数据的很多缺点,是表示数据离散程度的最好指标。
概述
为了避免负数出现,最好办法就是把所有所有离均差平方加起来,即离均差平方和(距离之和),用这个平方和再除以总数就是方差
总体方差和标准差
样本方差和标准差
标准差
方差的平方根,即方差开平方
标准差是反映一组数据离散程度最常用的一种量化形式,是表示精确度的重要指标。
应用
标准差的应用(变异系数)
差异系数
概述:标准差反映了一个次数分布的离散程度,标准差与原始数据的单位相同,因而称为绝对差异量。但有2种情况不能直接比较标准差
标准分数(Z分数)
原始分数转化为Z分数后,两者分布相同 当原始分数服从正态分布,转化为Z分数后服从标准正态分布N(0,1)
概述:标准分数又称为基分数或Z分数。是以平均数为参照点,标准差为单位表示一个原始分数在团体中所处位置的相对位置量数
标准分数的性质
无实际单位,以平均数为参照点,以标准差为单位的相对量
数值可以正负,所有Z分数之和为0,平均数也为0
一组原始数据中,个个Z分数值标准差为1,即Sz=1。
若原始分数是正态分布,则转换得到的Z分数值均值为0,标准差为1的标准正态分布
标准数优点
可比性
可加性
明确性
稳定性
标准分数的应用
比高低:用于比较几个分属性质不同的观测值在各自数据分布中的相对位置高低
求和:计算不同质的观测值的总和或平均值,以表示在团体中的相对位置
表示标准检测分数
异常值的取舍
六、 相对量数
概述
为什么需要相对量数
解决两个或以上不同质的数据比较大小
相对量数类型
百分等级
含义
指某个数据在整个数据中所处的位置
属于顺序(等级)数据,无相等单位
作用
可以表示任何一个分数在该团体中的相对位置
公式

缺陷
属于顺序(等级)数据,无相等单位
不能进行加减法
标准分数
表示大于平均分还是小于平均分。
含义
又称Z分数,是以标准差为单位,以平均数为参照点的一种量数,表示原始分数在团体中所处的相对位置
平均分是一个参照点(相对零),标准差是一个度量单位
是一个等距数据
作用

克服了百分等级的缺陷
公式

性质
Z分数是一个相对量,以平均数为参照点,以标准差为单位
它的单位不是实际单位,是度量单位
当原始分数分布是正态时,Z分数分布标准正态分布,平均数为0,标准差为1
标准分数和百分等级一 一对应
原始分数、Z分数、百分等级是一 一对应关系
七、 相关量数
相关概述
相关关系
因果关系
共变关系
相关关系
概述
A与B在发展变化的方向与大小方面存在一定关系
相关关系不同于因果关系;也不存在共变关系
相关可作为因果和公变关系的研究前奏
方向
X↑Y↑ 一致
X↓Y↓ 不一样
大小
→散点图
散点图
概述
方向
关系一致:线性拟合 +
关系不一致:线性拟合 -
大小
是线性关系大小,如果线无法表达,就无法表达相关关系大小
相关类型
正相关
负相关
零相关
相关程度
完全相关
强相关
弱相关
零相关
从形状上看
直线相关
曲线相关
相关系数
概述
概念
相关系数是变量之间相关程度的指标
符号
样本相关系数
r
总体相关系数
ρ
取值
-1~1
性质
顺序数据
方向
线性关系
| r |
1 完全相关
0<| r |<1 相关
0 无关
相关类型
1. 积差相关
 皮尔逊提出,又称为皮尔逊积差相关
概述
计算2个连续变量线性相关的一种方法
使用范围及条件
1||| 两变量数据成对(N≥30)
2||| 两变量总体正态分布
3||| 两变量是连续变量
4||| 两变量为线性关系
赵氏口诀:一对正态连续直了30年
计算公式

定义公式(公式内的一部分在皮尔逊提出前已经存在——协方差)
标准分——导出公式
原始分——导出公示
相关系数的合并
Z-r转换,转换成Z分数
求每一个样本的Z分数之和
使用下列公式求平均Z分数
平均Z分数经过费舍Z-r转换为相应的r值,即平均R
极差相关的应用
重测信度
实证效度
项目的区分度
书上没有,了解一下
处理等距、比例等(都是连续数据)
2. 等级相关
皮尔逊积差相关r条件:两列、正态、连续、线性——即需要等距数据、比例数据 当N<30,或数据是顺序数据。此时积差相关不适用,则出现了等级相关 数据降级为等级数据后,运算前提条件更宽松。 等级相关优点:使用条件更广范 等级相关缺点:降级后数据不精准
斯皮尔曼等级相关
概述
根据两列变量的成对等级差数计算相关系数,又叫“等级差数法”
对数据进行降级再计算
定义
斯皮尔曼Spearman's rank correlation.符号:rs或rr
使用范围及条件
比皮尔逊积差相关应用范围更广
1||| 两变量数据成对
2||| 两变量为线性关系
概要
无正态假设
无大样本限制
赵氏口诀:一对直,不搞基,斯皮尔曼求等级
计算公式
1||| 无相同等级时公式
 
计算方法
公式1利用等级差值计算

一般掌握这个就行。考再认
公式2直接运用等级计算

基本不考
使用场合
小样本、非正态
非连续→顺序数据
优缺点:优点范围广、缺点精度低
2||| 相同等级时公式

基本不考
计算方法
结论
优点
比皮尔逊积差相关应用范围广
缺点
数据降级过程中变得不精确了
斯皮尔曼等级相关只能计算2列数据 肯德尔等级相关可以计算3列或以上数据
肯德尔等级相关
肯德尔W系数(和谐系数)
定义
表示多列等级变量相关程度的一种方法
使用范围及条件
采用等级评定的方法收集的等级数据
即让K个评委(被试)评定N件事物
或 1个评委(被试)先后K次评定N件事物
每个评价者对N件事物排出一个等级顺序,最小等级序数为1,最大的为N,若并列等级时,则平分共同应该占据的等级——出现相同取平均数
计算公式
定义公式
无重复等级

掌握公式
公式类似于方差,但是不同的是数据变为等级数据→等级变异

有重复等级——矫正公式(多个矫正项目)
了解即可
相同:评分者信度(一致性) 区别:W直接等级评定,U对偶等级评定
肯德尔U系数
定义
评价者采用对偶比较方法,将N件事物凉凉配对,然后对每一对中两事物进行比较,择优选择,优者记1,非优者记0,最后整理成相对应的评价结果
计算公式

很麻烦 一般不考
处理顺序数据
3. 质量相关
点二列相关
质量相关:连续+真正二分
定义
研究一列等距或比率变量与一列真正“二分”称名变量之间相关的统计方法
如性别和成绩关系
符号
rpb
使用条件
一列数据为等距或等比,总体正态分布
另一列变量,按事物的性质划分为两类的变量
多用于测验中评价(0,1)计分题目的区分度
公式

掌握公式且记忆公式,可能会出计算题
二者公式差个y
二列相关
质量相关:连续+人为二分。一般能用二裂相关都能用积差相关
定义
研究一列正态的比率或等距变量和一列人为“二分”名称变量相关的统计方法
如六级成绩是否通过,和考研英语成绩关系
符号
rb
适用条件
两个变量都是等距或等比数据(两列数据都是连续数据),服从正态分布,其中一列被人为地划分为两类
在测量中用于测验效度和试题区分度的分析
公式

需要查表,考再认。有出题计算可能
多列相关
如性别(男女+跨性别)和成绩
4. 品质相关
四分相关
 品质相关(质质相关):称名(人为二分)—称名(人为二分)
适用条件
四格表的二因素都是连续的正态变量,只是人为的将其按一定的标准划分为两个不同的类别
计算公式

φ系数(fai系数)
 品质相关(质质相关):称名(真正二分)—称名(真正二分)
适用条件:φ相关的适用于两列“真正”二分的变量相关的计算
计算公式
赵氏口诀:对角相乘做减法,相邻加乘开根号
列联表相关
适用于除四格表之外的RXC表
处理称名数据
组合类型——质量相关:称名+距(比)
称名-称名类型——品质相关(质质相关)
人为分类(如优良)
真正分类(如男女)
相关系数的选用与解释
八、 概率分布

概率分布一
概率初步
概率分布概述
定义
先验概率(古典概率)

在特殊情况下直接计算的比值,是真实的概率而不是估计值
后验概率(统计概率)

对随机时间进行 n次观测,某事件A出现次数m与观测次数n的比值。
这个概率随观测次数无限增加,无限接近真实概率,是一个估计值
性质
加法定理(或)
定义
两个互不相容事件A、B之和的概率等于两事件概率之和
公式
P(A+B)=P(A)+P(B)
乘法定理(与、且)
定义
两个独立事件同时出现的概率等于两事件概率乘积
公式
P(AB)=P(A)×P(B)
类型
离散分布与连续分布
经验分布与理论分布
基本随机变量分布与抽样分布
正态分布(高斯分布)
概述:正态分布也称常态分布或常态分配,是连续随机变量概率分布的一种 最早由棣莫弗求二项分布的渐进公式中得到的 高斯在研究测量误差时从另一个角度导出它 拉普拉斯和高斯研究了它的性质 N≥30,等距数据、比率数据服从正态分布 X~N(μ,σ²),中心点:平均数μ 高低胖瘦:方差σ²,σ²↓,高狭,σ²↑,矮胖 正态分布面积为1
概述
正态分布也称常态分布或常态分配,是连续随机变量概率分布的一种
中间量次数分布最多,两端量次数分布少,呈对称型分布
正态分布的位置和形状
必须保证面积是1,所以标准差大(或方差)→离散大→变矮胖维持面积1 标准差小(或方差)→离散小→变高狭维持面积1
位置
平均数决定曲线轴上的位置
形状
标准差决定曲线的形状
正态分布特征
正态分布曲线函数
正态分布的特征
正态分布通过Z分数可以变为标准正态分布
正态分布是对称的
对称轴是经过平均数的垂线(对称不一定是正态分布)
正态分布中央点最高
曲线先向内弯曲后向外弯曲,拐点在±1个标准差处。两端考进基线处无限延伸,但始终不相交。
正态曲线下的面积为1
对称轴把正态曲线划分为面积相同的2个部分
正态分布是一簇分布
标准正态分布均值为0,标准差为1。只有一条
正态分布中,均值=中数=众数。三者相等
简答题
正态分布几个常用值
查标准正态分布表
双侧
±1标准差:68.26%
±1.96标准差:95%
±2.58标准差:99%
±3标准差:99.73%
单侧
1.64标准差:95%
2.33标准差:99%
正态分布表的编制与使用
次数分布是否为正态分布的检验方法
正态分布理论在测验中的应用
化等级评定为测量数据
等级评定——百分等级——标准正态分布表——Z分数
确定测验题目的难易度
确定分组或等级评定时的人数
确定录取分数线
概率分布二
二项分布
使用条件
又称努里试验
任何一次试验恰好有2个结果,成功与失败
共有n次试验,且n是预先给定的任一正整数
每次试验独立,各次试验之间无相互影响
某种结果出现的概率在任何一次试验中都是固定的
例如:投掷硬币、做选择题测验
公式定理
二项式公式
(p+q)n次方
二项式的展开与杨辉三角
二项展开式 牛顿
可以根据二项式定理推断出n次试验r次成功的概率公式
如1枚硬币投掷n次,r次正面朝上的概率
优点:迅速确定各种可能结果
分布规律
 棣莫弗(擅长研究概率论)对牛顿二项式进行研究,由此提出正态分布
对称
当p=q=1/2时,不n有多大,二项分布曲线都总是对称
偏态
当p≠q时
当n相当小时,则图形现偏态
当n相当大时(n≥30)时,二项分布曲线会逐渐接近正态分布
平均数与标准差

二项分布接近正态分布的条件
小的那个概率乘试验次数≥5,,则认为n相当大,则认为接近正态分布
p<q,np≥5
用小的乘5
p>q,nq≥5
此时:μ=np,σ=根号下npq
二项分布的平均数 μ=np
理论上的平均随机选中次数或发生次数
二项分布的标准差 σ=根号下npq 二项分布的标准误
二项分布的应用
用于心理学实验中区分结果是真实的还是猜想的
如果做选择题,区分结果是真实的还是猜想的——用5%来排除
抽样分布
分布1:正态分布及渐进正态分布
  正态分布 X~N(μ,α²) 棣莫弗研究
概述
正态分布

总体正态,总体方差α已知
渐进正态分布

总体非正态,总体方差α已知,n≥30
规律
方差和平均数
1||| 平均数
μX拔=μ
2||| 方差
σ²X为平均数分布的方差,常称之为变异误
σ²X拔=σ²/n
3||| 标准差
σX拔=σ/根号n
Z分数转化
变为标准正态
中心极限定理——概率论第一定理
1||| 平均数关系(决定图形位置):根据μX拔=μ:所以样本抽样分布与总体分布是同心
2||| 标准差关系(决定图形形状)
因为σX拔=σ/根号n,所以样本抽样分布标准差比总体标准差大→样本分布比总体分布高狭
因为σX拔=σ/根号n,所以当n↑,平均数抽样分布不断变得高狭,X拔不断接近母体平均数——随着抽样样本容量变大,最终变为变为宽度为0,无限高的直线
当抽样n无穷大穷大时,抽样平均数无限接近总体平均数最终X拔变成μ,此时样本平均数被称为总体平均数的无偏估计量
Z分布表的使用
①总体正态,σ²(差方)已知 ②总体非正态,σ²(差方)已知,n≥30(大样本) 此时样本平均数的分布为正态分布
分布2:t分布(类似正态分布的一簇分布)
  t分布解决小样本问题 哥赛特研究
t分布概述
t分布

总体正态,总体方差α未知,小样本 n≤30
t分布或渐进正态分布

总体非正太,总体方差α未知,大样本 n≥30
t分布规律
方差和平均数
1||| 平均数
μX拔=μ
2||| 方差
不同
3||| 标准差
σx拔=S/根号(n-1)
σx拔=Sn-1/根号n
Sn-1是样本标准差;是无偏估计量
当用有偏估计量Sn时,根号下n要减1做矫正
Z分数转化
因为样本标准差和样本容量有关,从而导致它不是标准正态分布
t转化(t分布)
转化后均值为0,方差>1,不是标准正态分布
t分布的特征

王:没有拐点
1||| t分布类似正态分布的一种对称分布,通常比正态分布平坦和分散;其均值μ为0,方差σ²>1
2||| t分布的形态依赖于自由度,是一簇分布,随着自由度的增大(n-1>30),分布也趋于正态分布
??????王老师:n>45
t分布表的使用
是一簇分布
要先通过自由度df=n-1锁定曲线
t分布小样本的独特之处
此时方差σ²未知,Sn-1(总体标准差的无偏估计量)代替σ 所以方差σ²X拔=σ²/n → σ²X拔=S²n-1/n 所以标准差σX拔=σ/根号n → σX拔=Sn-1/根号n 转换得标准差σX拔=S/根号n-1
哥赛特经过系列研究发现了无偏估计量,用样本方差无偏估计量代替总体方差
③总体正态,σ²(差方)未知,n<30(小样本)——样本均数分布呈t分布 ④总体非正态,σ²(差方)未知,n≥30 ——样本均数分布呈t分布且渐进正态分布 此时样本平均数的分布为t分布
概率分布三
抽样分布
分布3:X²分布(用于卡方检验)
 阿贝于1863年提出,后由海尔模特和皮尔逊推导,皮尔逊贡献最大
X²分布概述
 抽样→标准化→平方和
n个相互独立的随机变量均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为X²分布
研究
X²分布总体形态
X²分布均值
X²分布方差、标准差
公式

X²分布规律
方差和平均数
卡方的σ²和μ:μ卡方=df,σ²卡方=2df
X²分布的特征

1||| 正偏态分布,n越小,卡方分布越斜,随着参数df=n-1的增大,趋近于正态分布
卡方分布是一簇分布,正态分布是其特例
2||| 曲线下面积为1,卡方值都是正直(Z分数平方)
3||| 卡方分布具有可加性
4||| 当df>2,卡方分布的平均数等于df,方差等于2df
X²分布表

单侧表
通过自由度df=n-1来锁定曲线
双侧表
X²分布应用
在统计学分析中应用于计数数据的假设检验以及样本方差与总体方差是否显著的检验等
分布4:F分布(用于方差分析)
费舍
F分布概述

F分布的由来
由费舍提出,有2个自由度,在方方差分析、回归方程的显著性检验中有重要地位
F分布是从2个整体分别抽的2个卡方分布求商而成的新分布
每列卡方自由度不同,要除以自由度以保证公平
也因此有2个自由度
分母卡方自由度,分子卡方自由度
F分布规律
F分布的均值和方差十分复杂不需要记
F分布的特征
1||| F分布是正偏态分布,随2个自由度增大,趋于正态分布(2个卡方各有一个自由度)
2||| F总为正值(2个卡方必然是正值)
3||| 当分子自由度为1时,分母自由度为任意时
F(1,n)=t²;F分布是t分布的扩展
F分布与分母自由度相同概率的t值(双侧)的平方相等,说明当组间自由度为1时,F检验与t检验的结果相同
F分布表

通过2个自由度锁定一条曲线
单侧表
双侧表
二者一样,如0.05单侧表和0.025双侧表的值一样
均数和方差不考,数理统计内容
抽样原理与抽样方法
抽样原理
抽样的优点和作用
节省人力及费用
节省时间,提高调查研究的时效性
保证研究结果的准确性
抽样的基本原则
随机化
使样本获得最大代表性,可以预算或控制抽样误差
抽样方法
概率抽样
简单随机抽样
分层抽样
等距抽样
整群抽样
非概率抽样
方便取样
判断取样
九、 参数估计
推断统计:局部推总体
点估计、区间估计、标准误
点估计
概述
用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值来表示
良好的估计量标准
1||| 无偏性
多个样本统计量作为总体参数估计值,其偏差的平均数为0
例如中心极限定义,X拔在μ附近左右
2||| 有效性
当总体参数无偏估不止一个统计量时,无偏估计变异小的有效高,反之则有效低,反之则有效性低
3||| 一致性
当样本容量无限大时,估计值能越来越接近总体参数
中央极限定理,n→无限,X拔→μ
4||| 充分性
指一个容量为n的样本统计量,是否充分反应全部n个数据所反映总体的信息
平均数能充分反映各个数据的信息,Md和Mo只能反应部分数据信息
如平均数能充分反映各个数据信息,众数、中数不行
区间估计
概述
根据估计量以一定可靠程度推断总体参数所在的区间范围,用数轴上一段距离标志未知参数可能落入的范围
区间估计就是以一个统计量的区间来估计相应的总体参数,它按照一定的概率要求,根据样本统计量来估计总体参数可能落入的数值范围
相关概念
置信区间
指在特定可靠性(即置信系数)要求下,总体参数所落的区间范围
置信系数
指背估计的总体参数落在置信区间内的概率。又叫置信水平、置信度
显著性水平
一个置信系数同时反映了在做一个估计时所犯错误的小概率(α),即可靠性为95%时,犯错误概率为5%;可靠性99%时,犯错误概率为1%
这种犯错误的概率也叫做显著性水平,用a表示
1-置信系数=显著性水平(α)
原理
区间估计的原理
样本平均数的抽样分布
有风险但是是小概率(有风险,犯α错误)
方法
逻辑思路
已知条件:有X拔,有一定可能性1-α
推断:区间的上下限
计算方法
计算步骤
因为正态分布是一簇分布,所以要Z分数转化归一化
当总体方差σ²已知,基于Z分布得出Z值 当总体方差σ²未知,基于t 分布得出t 值
再逆回去得出原来的X拔
计算公式
公式不同
当总体方差σ²已知
当总体方差σ²未知
标准误(样本标准差)不同
当总体方差σ²已知
当总体方差σ²未知
影响因素

区间估计与标准误(SE)
区间估计就是根据样本分布理论,用样本分布的标准误(SE)计算区间长度,解释总体参数落入某置信区间可能的概率
显著性水平
指估计总体参数落在某一区域时,可能犯错误的概率,用α表示。 有时也称之为意义阶段、信任系数等。 1-α为置信度或置信水平
标准误
1||| 即多次抽样的样本均数的标准差
是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度
反映的是样本均数之间的变异。标准误不是标准差,是多个样本平均数的标准差。
2||| 标准误用来衡量抽样误差程度
标准误越小
抽样样本均数离散小,抽样误差小→样本可靠性高,代表性强
表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。
抽样误差→标准抽样误差→标准误
标准误差定义为各测量值误差的平方和的平均值的平方根,故又称为均方根误差。
3||| 抽样均数离散程度→抽样数据一致性、可靠性
标准误差不是测量值的实际误差,也不是误差范围,它只是对一组测量数据可靠性的估计。
标准误差小,测量的可靠性大一些,反之,测量就不大可靠
4||| 样本抽样分布≠总体参数分布
区间估计
总体均值的区间估计
标准差、方差的区间估计
一般不考,了解一下就可以
十、 假设检验
统计学中的等于符号,属于推断统计范畴 小概率原理,用反证法
1. 概述
含义
通过样本统计量的差异做出一般性结论(推断),判断总体参数之间是否存在差异,这种推论过程称作假设检验
原理
基于小概率的反证法
样本抽样分布
一个抽样结果是否属于小概率事件(显著性水平),则认为它基本不可能发生,认为它不是抽样随机性导致的,是一种必然。
2. 两种类型与两种情况与两类假设
两种类型
参数检验
总体分布已知(形态方差σ²),需要对总体位置参数做假设检验
Z检验
t检验
F检验
连续数据
非参数检验
总体分布(形态方差σ²)知之甚少,对总体的函数形式和特征进行假设检验
X² 称名数据
狭义非参检验 顺序数据
非连续数据(计数数据
两种情况
单样本显著性检验
一个未知总体
μ1未知,μ0已知
两样本差异显著性检验
两个未知总体
μ1未知,μ2未知
两类假设
备择假设H1
定义
实验人员希望证实的假设,也称为研究假设
性质
μ1≠μ2 或 X拔≠μ0→μ1≠μ0
假设两个总体参数之间,或样本统计量与总体参数之间存在真实差异,是一种有差假设,用H1表示
表达方式
H1
单样本
μ1≠μ0 样本均值≠总体均值
两样本
μ1≠μ2 总体均值≠总体均值
虚无假设H0
定义
证明H1存在
研究人员为了证实研究假设是真的而利用概率论的反证法所进行假设
性质
虚无假设是假设两个总体参数之间或样本统计量与总体参数之间不存在真实差异,其现存表面差异是由抽样所造成的误差,是一种无差假设,又称为零假设或原假设,用H0符号表示
表达方式
H0
单样本
μ1=μ0
两样本
μ1=μ2
3. 显著性水平与两类错误α与β
概述
为了拒绝虚无假设(零假设)而设定的小概率值
显著性水平与零假设的关系
如果零假设正确的可能性只有5%或1%,我们就拒绝零假设。临界概率是显著性水平
通过显著性水平可以判断是否接受零接受
显著性水平与拒绝和接受域
接受域
因为5%显著性水平在标准正态分布上对应Z值为±1.96,所以当检验值落在[-1.96,1.96]时,我们认为零假设有95%是对的,接受它,则该区域为接受域
拒绝域
当检验值落在[-∞,-1.96]或[1.96,∞]时,我们认为零假设只有5%是对的,拒绝它,称为拒绝域
差异显著的判断规则

P值0.5%
显著
P值0.01
极显著
假设检验中的两类错误

高频考点,复试也常考
两类错误概述
α型错误(I型错误);弃真错误
H0为真,却拒绝
接受H1,拒绝H0时,可能会犯α错误
β型错误(II型错误);取伪错误
H0为假,却接受
接受H0,拒绝H1时,可能会犯β错误
两类错误的关系

α+β≠1
α与β不能同时减小或增大
因为σx拔=σ/根号n , 随着抽样n↑,σ变小,两个分布变高狭,αβ变小
当样本容量不变α↑则β↓,α↓则β↑,属于此消彼长的关系
只能增大样本抽样才能同时减小α与β
统计检验力:1-β 统计功效
检验真实差异的能力
当驳斥了α时,要报告(1-β)的大小
(1-β)越大H1可能性越大
(1-β)的影响因素

处理效应大小
处理后数值与原平均数差距越大,处理效应越大
如均分50,处理后60分和99分,99分属于处理效应大
显著性水平α

α
α大小
α与(1-β)共命运
α↑(1-β)↑
α↓(1-β)↓
图形上可看出

单双侧
样本容量n
n↑,图高狭,αβ都↓,1-β和1-α都↑
处理效率(如参加培训属于处理)
两图形向左右撑开,王:概念
单侧检验与双侧检验
双侧检验
只强调差异,不强调方向
H0:μ1=μ0
H1:μ1≠μ0
单侧检验
右侧检验:强调差异,也强调方向(>或≥)

H0:μ1≤μ0
H1:μ1>μ0
左侧检验:强调差异,也强调方向(<或≤)

H0:μ1≥μ0
H1:μ1<μ0
4. 假设检验的思路 t检验就是(差:误)
平均数的显著性检验:单样本(一个总体:样本VS总体)
 
思路
总体正态
方差σ已知
Z检验
方差σ未知
大样本
Z检验
t检验
小样本
t检验
总体非正态
大样本
方差σ已知
Z检验
方差σ未知
Z检验
t检验
大样本认为是正态分布
小样本
非参检验
平均数差异的显著性检验:两样本(两个总体:样本VS样本)
 
思路
两个总体正态,两方差已知
独立样本的平均数差异检验
相关样本的平均数差异检验
两个总体正态,两方差未知
独立样本的平均数差异检验
两个总体方差齐性
两个总体方差不齐性
进行方差齐性检验
相关样本的平均数差异检验
相关系数未知
相关系数已知
两总体非正态分布
独立样本的平均数差异检验
相关样本的平均数差异检验
n<30 非参数检验
方差齐性检验
相关系数r的显著性检验
1||| 积差相关的显著性检验
ρ=0
ρ≠0
2||| 其他类型相关系数的显著性检验
点二列相关系数
二列相关系数
多列相关
四格相关
斯皮尔曼等级相关系数
肯德尔W系数
3||| 相关系数差异的显著性检验
比率的显著性检验
5. 假设检验的步骤与方法
方法
1||| 提出原假设和备择假设
双侧
单侧(左侧、右侧)
2||| 确定适当的检验统计量(Z,t)
方差已知用Z检验
方差未知用t检验
3||| 制定检验中的显著性水平
4||| 利用显著性水平,建立拒绝H0原则
5||| 计算样本统计量的值:Z值,t值
6||| 做出统计决策
将检验统计量的值与拒绝规则所制定的临界值比较,确定是否拒绝原假设H0
Z值、t值直接对比Z、t
由检验统计量计算p值,利用p值确定是否拒绝原假设
变回概率进行对比
假设检验,检验步骤
Z分数=t分数:离均差/标准差 抽样中Z分数=t分数:抽样离均差/标准误——抽样数据离散(抽样标准差)
平均数的显著性检验:单样本(一个总体:样本VS总体)
 
检验x拔来自中心点μ的可能性
总体方差σ²已知 → Z检验
1||| 提出假设
有差假设
H0:μ1=μ0
无差假设
H1:μ1≠μ0
2||| 确定检验统计量
Z=(X拔-μ0)/σx拔
σx拔=σ/根号n
3||| 制定显著性水平
α=0.05 → Zα/2=1.96 α=0.01 → Zα/2=2.58
4||| 对比决策
Z常用值
双侧
±1标准差:68.26%
±1.96标准差:95%
±2.58标准差:99%
±3标准差:99.73%
单侧
1.64标准差:95%
2.33标准差:99%
总体方差σ²未知→ t检验
1||| 提出假设
有差假设
H0:μ1=μ0
无差假设
H1:μ1≠μ0
2||| 确定检验统计量
t=(X拔-μ0)/σx拔
σx拔
σx拔=S/根号(n-1)
σx拔=Sn-1/根号n
Sn-1是样本标准差;是无偏估计量
3||| 制定显著性水平
t=0.05 t=0.01
查表
通过df锁定曲线查表
4||| 对比决策
平均数差异的显著性检验:两样本(两个总体:样本VS样本)
 
检验(x拔1-x拔2)来自中心点(μ1-μ2)=0可能性
2个总体,如机械教学与意义教学的差异
σD拔有6个公式

常考公式3(对应被试间)公式6(对应被试内)
王:公式3和公式6特别容易考
公式3用的是有偏估计,也可用n-1有偏估计代替
有个联合方差
本质是个加权平均数,是个权重系数
总体方差σ1²σ2² 已知 → Z检验
1||| 提出假设
有差假设
H1:μ1≠μ2
→ H1:μ1-μ2≠0
无差假设
H0:μ1=μ2
2||| 确定检验统计量
Z=(X1拔-X2拔)/σDX拔
σDx拔有6个公式
判断独立还是相关样本
直接判断或计算相关系数r
两独立样本
公式1
两相关样本
公式2
独立样本是相关样本的特例
3||| 制定显著性水平
α=0.05 → Zα/2=1.96 α=0.01 → Zα/2=2.58
4||| 对比决策
总体方差σ1²σ2² 未知 → t检验
1||| 提出假设
有差假设
H1:μ1≠μ2
→ H1:μ1-μ2≠0
无差假设
H0:μ1=μ2
2||| 确定检验统计量
t=(X1拔-X2拔)/σDX拔
σDx拔有6个公式
判断独立还是相关样本
直接判断或计算相关系数r
两独立样本(进行方差齐性检验)
方差齐性:σ1²=σ2²
公式3
自由度df=n1-1+n2-1 =n1+n2-2
方差不齐性:σ1²≠σ2²
统计危机:近似公式4
因为方差未知,且是两独立样本,所以进行方差齐性检验
两相关样本
如双生子实验,前后测实验
相关系数r已知
公式5
积差相关要满足大样本、正态等条件。是一种理想情况,很少见,不会考
相关系数r未知
公式6
分子代表成对差值,差值标准差
3||| 制定显著性水平
α=0.05 → Zα/2=1.96 α=0.01 → Zα/2=2.58
4||| 对比决策
因为假设μ1=μ0时中心点即为(μ1-μ2)=0 推断过程了解即可 所以公式和平均数显著性性检验相似
勤思假设检验二 02
方差齐性检验
F检验
1||| 提出假设
有差假设
H1:至少有一组总体方差不等
无差假设
H0:σ1²=σ2²=σ3²=.....=σn²
2||| 确定检验方法
F检验公式
S²max/S²min
2个自由度锁定F曲线
分子自由度df1
分母自由度df2
查F分布表
F值不显著
差异不显著
齐性
接受域
无差异
接受H0拒绝H1
F值显著
差异显著
不齐性
拒绝域
有差异
拒绝H0接受H1
3||| 依据显著性水平
4||| 对比决策
哈特来
自由度
K
dfmax
专用表
相关系数r的显著性检验
1||| 提出假设
假设总体线性关系ρ=0 ρ≠0
有差假设
H1:ρ≠0
无差假设
H0:ρ=0
2||| 确定检验方法
相关系数r检验公式 用t检验

r
积差相关公式
t=r-0/根号[(1-r²)/(n-2)]
t检验就是差比上误,所以上面是r-ρ即r-0即r
自由度=n-2
3||| 依据显著性水平
显著
t≠0
分子r≠0
→ρ≠0
不显著
t=0
分子r=0
→ρ=0
4||| 对比决策
十一、 方差分析
推断统计:费舍、哥赛特 也叫变异分析,离散分析(F检验)
方差分析的概述
为什么需要方差分析
t检验可以检验两个总体
t检验太繁琐,且会增大α错误
F检验可以检验多个总体,是t检验的拓展,t只能检验2个总体
F检验是一种假设检验
方差分析的目的
比较多个总体均值是否有差异
方差分析的优势
克服t检验检验多个总体时会增大1型错误的缺点
多因素
能分析交互作用
方差分析的缺陷
无法准确指出哪一对有差异
事后检验可以分析出具体哪一对有差异
方差分析的基本原理

F检验→在统计学上认为变异存在→因变量有效
综合的虚无假设
表达
H0:u1=μ2.....=μk(无差假设)
H1:至少有一组不等(哪一组不等——事后检验)
不可以写成H1:μ1≠μ2≠...≠μk
方差的可加性
两列数据的方差与两列数据作加减后的新一列数据的方差存在加减关系
方差的可分解性(变异分解)

S²(x±y)=S²x+S²y
方法分析的使用条件
总体正态分布
正态中,平均数才有代表性,否则偏态情况下取中位数,属于非参检验的方法分析
变异的相互独立性
抽样样本之间相互独立,不关联
总体方差齐性
图形高低胖瘦差不多
方差分析步骤与方法

步骤

1||| 求平方和
2||| 计算自由度
3||| 计算均方(方差)
4||| 计算F值
5||| 查F表进行F检验并做决断
6||| 列方差分析表
方法
变异分析:SST=SSB+SSW

1||| 求平方和
SST(总变异)=SSB(组间变异)+SSW(组内变异)
平方和(方差和、均方和)
总变异平方和=组间变异平方和+组内变异平方和
SSt(总变异)
SSb(组间变异)
实验处理效果
SSw(组内变异)
个体差异效果
随机误差效果
变异分解,变异可加
2||| 计算自由度
自由度df=N(数据个数)-M(限定条件)
dft=dfb+dfw
dft=N-1
dfb=K-1
组数-1
dfw=K(n-1)
组数*组内自由度
K组,每组n个人
3||| 计算均方(方差)
均方(方差)
变异总值/自由度=均方——即平均变异、平均离散
组间均方
均方MSb=SSb/dfb
组内均方
均方MSw=SSw/dfw
F=MSB/MSW=(SSB/dfB)/(SSW/dfW)
形式与F检验一致,服从F分布
4||| 计算F值
F检验
F=MSB/MSW=(SSB/dfB)/(SSW/dfW)
形式与F检验一致,服从F分布
F≤1
实验处理效果小于误差效果
F>1
实验处理效果大于误差效果
进行F检验
实验处理效果与误差效果差异是否显著
方差分析公式

方差=平方的平均-平均的平方
推导平方和
5||| 查F表进行F检验并做决断
6||| 列方差分析表
方差齐性检验

方差齐性检验=变异齐性检验
提出假设
有差假设
H1:至少有一组总体方差不等
无差假设
H0:σ1²=σ2²=σ3²=.....=σn²
确定检验方法
F检验公式
S²max/S²min
2个自由度锁定F曲线
分子自由度df1
分母自由度df2
查F分布表
F值不显著
齐性
接受域
无差异
接受H0拒绝H1
F值显著
不齐性
拒绝域
有差异
拒绝H0接受H1
依据显著性水平
对比决策
实验设计的方差分析
 请记住:被试间设计、被试内设计是一种实验设计分类方法,划分标准是自变量各水平是否使用相同的被试;完全随机设计、随机区组设计是另一种实验设计分类方法,划分标准是对额外变量的控制方法不同。
一、 概述
完全随机实验设计、随机区组实验设计
完全随机实验设计定义
种实验设计中,只有一个实验变量,这个实验有多个水平,每个被试只接受一个水平实验处理
随机区组实验设计定义
定义:每个区组随机地实施或接受全部实验处理组合或因素水平的实验设计类型,又称相关组设计或被试者设计
两因素时的主效应与交互作用
主效应与交互作用
几个因素就有几个主效应
实验处理:组间要接受的所有实验处理
交互作用:一个因素对因变量的影响,因另一个因素水平不同而不同
主效应:一个因素不同水平对因变量的影响
简单效应:一个因素的水平在另一个因素的某个水平上的变异,又称简单主效应、单纯主效应。
交互作用:一个因素的水平在另一个因素的不同水平上变化趋势不一致的现象,即因素和因素相结合而对因变量产生的影响。如果两个因素彼此独立,即不管其中一个因素处于哪个水平,另一个因素的不同水平均值间的差异都保持一致,则不会产生交互作用。
旧的 重新整理
主要应定义
一个因素在各水平上对因变量影响大小的度量
自变量对因变量的影响
交互作用定义
一个因素的不同水平在另一个因素的不同水平上变化趋势发生改变的现象
一个自变量在另一个自变量不同水平上的变异
简单效应定义
一个因素的不同水平在另一个因素的某个水平上的变异、差异
一个自变量在另一个自变量某个水平上的变异
二、 实验设计
1. 单因素
实验设计1:单因素——完全随机设计 属被试间设计
 也称为 组间设计 被试间设计 独立组设计 PS:划水标准并不完全等同。
实验设计
优缺点或作用
缺点:个体误差没有分离,分母里面含有个体误差,方差分析不灵敏
方差分析
1||| SST分解
分解角度
实验处理角度
不同实验处理之间,纵向划组
分解变异
SST=SSb(组间)+SSw(组内)
SSb不同处理之间
实验处理
SSw同一处理之内
误差(综合的误差)
个体差异(自身差异)+随机误差(自身与实验处理的交互作用)
SST=SSB (实验处理)+SSW (个体差异和随机差异)
2||| 自由度df
dfb组间
dfb处理
dfb=K-1
组数-1
dfw组内
dfw个体
dfw=K(n-1)
组数*组内自由度,K组,每组n个人
dft总体
dft=N-1
总数-1
3||| 均方MS
MSB 处理变异均方
MSW 个体变异均方
4||| F值
F=MSB/MSW
实验处理变异与个体变异比值 ; 个体差异未分离
实验设计2:单因素——随机区组设计 重复测量设计 属被试内设计(属于一个区组1个人)
 核心——组间异质,组内同质
实验设计
优缺点或作用
分离个体差异的影响
缺点:存在练习效应
方差分析
1||| SST分解
分解角度
被试角度
不同被试之间,横向划组
分解变异
SST=SSb(组间)+SSw(组内)
SSb不同被试之间
个体差异
SSw同一被试之内
SSR
实验处理
SSE
残差
SSR与SSb的交互(个体差异SSb与实验处理SSb的交互)
SST=SSB(个体差异)+SSR(实验处理)+SSE(随机误差)
2||| 自由度df
dfb组间
dfb被试(个体)
dfr=n-1
被试数-1
dfw组内
dfr处理
dfk=k-1
纵向分组-1
dfe随机
dfe=(n-1)(k-1)
交互作用;df被试×df处理
本质是个体与处理的交互
dft总体
dft=N-1
总数-1
3||| 均方MS
MSB 个体变异均方
个体差异,分离不用管
MSR 处理变异均方
MSE 随机变异均方
4||| F值
F=MSR/MSE
实验处理变异与随机变异比值 ; 个体差异已分离
实验设计3:单因素——随机区组设计 形式上完全随机(属于一个区组K个人)
 也称为 组内设计 被试内设计 重复测量设计 PS:划分标准并不完全等同
实验设计
优缺点或作用
可以分离一个不想研究的额外变量对因变量的影响
方差分析
1||| SST分解
分解角度
实验处理角度
不同实验处理之间,纵向划组
分解变异
SST=SSb(组间)+SSw(组内)
SSb不同处理之间
实验处理
SSw同一处理之内
SSR
区组(或个体)差异
也是不想研究的变量,额外变量
SSE
误差
SSR与SSb的交互(本质是区组(或个体差异)SSR与实验处理SSb的交互作用)
SST=SSB(实验处理)+SSW(组内)
SST=SSB(实验处理)+SSR(区组差异)+SSE(随机误差)
2||| 自由度df
dfb组间
dfb处理
dfB=k-1
实验分组-1
dfw组内
dfr区组
dfR=n-1
区组个数-1
dfe随机
dfE=(k-1)(n-1)
交互作用自由度相乘
dft总体
dft=N-1
3||| 均方MS
MSB 处理变异均方
MSE 随机变异均方
MSR 区组变异均方
4||| F值
F=MSb/MSe
实验处理变异与随机变异比值
F=MSr/MSe——看分组效果是否显著
区组差异变异与随机变异比值
(组内同质,组间异质),一般不考,形式上完全随机
2. 两因素
多因素设计中的基本概念
实验设计
处理水平
设计方式
要素解释
主效应A
FA:X拔a1、X拔a2 ,均值是否有差异
主效应B
FB:X拔b1、X拔b2、X拔b3,均值是否有差异
比的是均值
交互作用AB
FAB:纵向求差d1、d2、d3,差值是否有差异
比的是差值
主要应定义
一个因素在各水平上对因变量影响大小的度量
自变量对因变量的影响
交互作用定义
一个因素的不同水平在另一个因素的不同水平上变化趋势发生改变的现象
一个自变量在另一个自变量不同水平上的变异
简单效应定义
一个因素的不同水平在另一个因素的某个水平上的变异、差异
一个自变量在另一个自变量某个水平上的变异
实验设计4:两因素——完全随机设计
组间设计 被试间设计
实验设计
处理水平
实验设计
方差分析
1||| SST分解
分解标准
2因素完全随机实验设计中,SSw没有分离个体误差与随机误差,只有一个误差项
3个变异源,1个误差项
王:误差综合,只有一个
分解角度
实验处理角度
分解变异
SST=SSb(组间)+SSw(组内)
SSb不同实验处理之间
SSA
主效应A
SSB
主效应B
SSAB
交互作用
实验处理效应
SSw同一实验处理之内
个体差异(自身差异)以及随机误差(自身与实验处理的交互作用)
SST=SSA(主A)+SSB(主B)+SSAB(交互)+SSW
2||| 自由度df
dfb组间
dfA主效应A
dfA=a-1
dfB主效应B
dfB=b-1
dfAB交互作用
dfAB=(a-1)(b-1)
dfw组内
dfw个体
dfw=ab(n-1)
组数*组内自由度,a×b个组,每组n个人
即2*3个实验处理组数,每组n个人
dft总体
dft=N-1=nab-1
3||| 均方MS
MS主效应A 主要效应A实验处理变异均方
MS主效应B 主要效应B实验处理变异均方
MS交互作用 AB交互作用实验处理变异均方
MSW 组内变异均方
4||| F值
FA=MSA/MSw
FB=MSB/MSw
这里的MSB是MS主效应B,不是MSbetween
FAB=MSAB/MSw
实验设计5:两因素——随机区组设计 重复测量设计 属被试内设计(一个区组一个人)

实验设计
处理水平
实验设计
方差分析
SST分解
分解标准
2因素重复测量实验设计中,个体差异分离,并且均方MS用的是自己的分母
1+1+6个变异源,随机变异分离?
王:个体分离,误差配对
分解角度
被试角度
不同被试之间,横向划组
分解变异
SST=SSb(组间)+SSw(组内)
SSb不同被试之间
个体差异
SSw同一被试之内
SS实验处理变异
SS(A主效应)
SS(B主效应)
SS(AB交互作用)
SS随机误差变异
A×SS被试
交互作用:SS被试×SS(A主效应)
B×SS被试
交互作用:SS被试×SS(B主效应)
AB×SS被试
交互作用:SS被试×SS(AB交互作用)
自身(个体)与实验处理的交互
交互作用:SS被试×SS实验处理
SST=SS被试+SSA(主)+SSB(主)+SSAB(交互)
自由度df
dfb组间
df被试
n-1
被试数-1
dfw组内
dfA主效应
a-1
dfB主效应
b-1
dfAB交互
(a-1)(b-1)
dfA主效应×被试
(a-1)(n-1)
dfB主效应×被试
(b-1)(n-1)
dfAB交互×被试
(a-1)(b-1)(n-1)
dft
n×a×b-1
均方MS
MS主效应A 主要效应A实验处理变异均方
MS主效应B 主要效应B实验处理变异均方
MS交互作用AB AB交互作用实验处理变异均方
F值
FA=MSA/MSA×被试
FB=MSB/MSB×被试
FAB=MSAB/MSAB×被试
实验设计6:两因素——随机区组设计 形式上完全随机(一个区组K个人)
 组内设计 被试内设计
实验设计
处理水平
实验设计
优缺点或作用
可以分离一个不想研究的额外变量对因变量的影响
实际上是3个自变量
方差分析
1||| SST分解
分解标准
分解角度
实验处理角度
分解变异
SST=SSb(组间)+SSw(组内)
SSB不同实验处理之间
SSA
主效应A
SSB
主效应B
SSAB
交互作用
实验处理效果变异
SSW同一实验处理之内
SSR
区组差异或个体差异(每个实验刚好1个人的时候)
SSE
随机误差
SSR与实验处理A、B、AXB三者的交互的结果
本质是SSR(区组或个体差异)和实验处理SSb(SSA、SSB、SSAB)的交互作用
SST=SSA(主A)+SSB(主B)+SSAB(交互)+SSR+SSE
2||| 自由度df
dfb组间
df主效应A
dfA=a-1
df主效应B
dfB=b-1
df交互AB
dfAB=(a-1)(b-1)
dfw组内
dfr区组
dfr=n-1
dfe残差
dfe=r(组间)=(n-1)(ab-1)
dft总体
dft=N-1
3||| 均方MS
4||| F值
FA=MSA/dfA
FB=MSB/dfB
FAB=MSAB/dfAB
FR=MSR/dfr
往往不考,主要考457
实验设计7:两因素——混合设计

张厚粲版本无?
实验设计
处理水平
实验设计
优点:兼具被试内和被试间设计
方差分析
SST分解
分解标准
王:设计分类,误差各用
分解角度
设计角度
分解变异
SST=SSb(组间)+SSw(组内)→SST=SS被试间设计+SS被试内设计
SSb(组间)→被试间设计
SS主效应A
SS被试(A)
按A因素划分2组
个体差异
SSw(组内)→SS被试内设计
SS主效应B
SS交互AB
交互作用AB和哪个因素在一起,哪个因素就是组内
SSB主效应B×被试(A)
随机误差
重要
交互作用AB和谁在一起谁就是被试内
个体误差→在被试间
随机误差→在被试内
df被试和dfB×被试(A)自由度是分离的,均方也是分离
SST=SS主效应A+SS被试(A)+SS主效应B+SS交互AB+SSB主效应×被试(A)
自由度df
df主效应A
dfA=a-1
df被试(A)
分a组,每组n个人
df(被试A)=a(n-1)
df主效应B
dfB=b-1
df交互AB
dfAB=(a-1)(b-1)
df主效应B×被试(A)
dfB×被试(A)=(b-1)a(n-1)
属于df随机误差
均方MS
MS主效应A 主要效应A实验处理变异均方
MS主效应B 主要效应B实验处理变异均方
MS交互作用AB AB交互作用实验处理变异均方
F值
FA=MSA/MS被试(A)
主效应A比上个体差异
FB=MSB/MSB×被试(A)
主效应B比上随机误差
FAB=MSAB/MSB×被试(A)
交互作用变异均方比上随机误差
三、 事后检验
概述
方差分析显著后,几种实验处理存在差异,进一度了解具体哪几个之间差异,需要进行事后检验
类型
N-K法
概述
找出没对平均数之间存在的随机变异,即各对平均数差异的标准误。然后利用该标准比较两均数之间的差异,其统计量称为q值
公式
步骤
把要比较的平均数从小到大等级排列,用r表示
计算统计量q=D/SE,D是任意两平均数差值
计算等级的相差数即r=|r1-r2|+1
找出自由度df,这里误差项自由度即dfE
根据r和dfe和显著性水平0.01或0.05,查处比较的临界值与计算的q值比较,做出决策
大于:显著
小于:不显著
例题

S-N-K
LSD
没提到哦
十二、 线性回归
高尔顿提出回归
相关与回归
概述
定义
用一定模型(函数)来表述相关关系的方法称为回归分析
积差相关r
±,0
| r |
相关与回归的区别和联系
区别
回归分析是以数学方式表示变量间的关系,而相关分析则是检验或度量这些关系的密切程度
联系
只有在相关基础上,才能进行回归分析
回归的分类
线性与非线性回归
一元线性回归方程
研究生只考这个
概述
一元线性回归是指只有一个自变量的线性回归,对具有线性关系的两个变量,回归的目的首先是找出因变量(一般记为Y)关于自变量(一般记为X)的定量关系
简单、线性
公式Y尖=a+bX
Y尖——不是因变量,是预测值,因变量估计值(用线拟合点,有误差) b——回归系数 a——截距
一元线性回归的建立
线性回归的基本假设、前提
简答
1||| 线性关系假设
需要散点图是线性关系
2||| 正态性假设,Y服从正态分布
3||| 独立性假设
与某一个X值对应得到一组Y值和与另一个X值对应的Y值之间没有关系,彼此独立
坐标对独立
误差项独立,不同的X所产生的的误差之间应相互独立,无自相关
误差项独立
4||| 误差等分数性假设:特定X水平的误差,呈随机化的正态分布且方差齐性
每个X分布都是正态,并且每个正态方差齐性(图二就不齐性)
一元线性回归方程的建立方法
平均数法
将N对数据按奇偶顺序分为两组,然后分别带入设定的回归方程求和,计算a和b
联立2个方程组,算出a和b
例子
解释:用物理量预测心理量
分奇偶组
最小二乘法
二乘即平方
定义
如果散点图中每个点沿Y轴方向到直线的距离的平方和最小,就是使误差的平方和最小,则所有直线中这条直线的代表性是最好的,它的表达式就是要求的回归方程
线上的点为预测点
原理

设方程
每一点到方程的距离平方和为公式1
公式1的图像中,有极大值极小值
对公式1求导,即得出最大值最小值
了解即可
经整理得到公式
 积差相关公式代进去化解
记2 3公式 使用方便,常考。 1麻烦 较少考
1||| b=
2||| a=Y拔-bX拔
3||| 回归系数与相关系数的关系
byx=r(Sy/Sx)
例子
一元线性回归方程的检验
为什么检验:在统计上95%证明它有效
定义
对求得回归方程进行显著性检验,看是否真实反映了变量间的线性关系
求出Y杆
点(x,y)到Y尖距离→估计误差
误差变异
Y杆到Y尖距离→回归变异
检验内容
1||| 回归模型的检验-方差分析法
总变异=误差变异+回归变异
即
总平方和=误差平方和+回归平方和
SSt=SSe+SSR
一元情况下自由度
1元情况下dfR=1
dft=n-1
dfR=1
自变量个数
dfe=dft-dfR=n-2
F值=MSR/MSe
解题步骤
建立假设H0不显著H1显著
求平方和SSt、SSe、SSR
求自由度
求均方
求F值
进行F检验
查表决策
陈列方差分析表
例子
2||| 回归系数b的显著性检验
了解下就行
基本思想
对于回归系数b,是否抽自一个回归系数β=0的总体 若b与β=0之间无显著关系,其差异主要来自抽样误差,说明b来自β=0总体,因此X与Y之间不存在线性关系,反之,则X与Y存在线性关系
检验公式
检验b是否来自β=0总体,即b是否是0
解题步骤
建立假设 H0:b=β=0 H1:b≠β≠0
计算
比较决策
自由度是考点,但很难出计算题。
3||| 回归效果(定量)-决定系数(测定系数)
测量学中叫预测效度
因变量发生变异。其中自变量变异所占比例多大
即回归变异在总体变异中的占比
SST=SSR+SSE
总变异SST体现了因变量变异,回归变异SSR体现了自变量变异。
SSR/SSt=XXXXXX=r²——相关可能性
r²表示因变量变异占比 1-r²表示误差变异占比
r²也是预测效度
相关系数r的显著性检验
方差分析中的内容
假设总体线性关系ρ=0 ρ≠0
t=r-0/根号[(1-r²)/(n-2)]
自由度=n-2
一元线性回归方程的应用
例子
预测或估计
1||| 建立方程
2||| 检验方程
3||| 计算估值
4||| 计算标准误
5||| 查表求t值
6||| 计算真值的预测区间
一元线性回归分析的综合运用
第一步,将对应资料绘制散点图,从散点图中点子分布形状判断XY是否有线性关系
计算相关系数r
再进行相关系数r检验
第二步,建立回归模型
一般用最小二惩罚
第三步,回归方程显著性检验
上述3种:方差分析法 F、回归系数显著性检验b、决定系数 r²
考试主要掌握
第四步,计算回归估计标准误
有公式
复杂,通常不考
第五步,根据建立的 回归模型进行预测,估计真值的预测区间
简单回归与多重回归
检验和应用
十三、 X²检验
为什么不适用T检验
T检验是两列数据。连续数据。求均值检验
而数出来的计数数据(离散数据)不适用T检验。采用卡方检验
卡方检验的原理
卡方检验的概述
检验实际分布和理论分布,两列分布是否有差异
适用于称名、计数数据,等离散数据
当差大到一定程度的时候,我们就认为两列数据有差异
给你一列数据分布,我们对比这个分布与理论分布(理论认为是标准正态分布)的差异
公式
fo:实际次数(观察次数) fe:理论次数(经验次数)
检验实际分布和理论分布,两列分布是否有差异
差异要足够大,才接受差异的存在,否则认为没有差异
使用前提条件
1||| 分类相互排斥,互不包容
卡方检验中的分类必须相互排斥,这样每一个观测值就会被划分到一个类别或另一个类别之中
如态度,赞成和反对
2||| 观测值相互独立,不关联
各个被试的观测值之间批次独立,这是最基本的一个假定,一个被试对某一品牌的选择对另一个被试的选择没有影响
3||| 期望次数(理论次数)的大小:5次以上
为了努力使卡方分布称为卡方值合理准确的近似估计,每一个单元格中的期望次数(理论次数)应该至少在5以上
理论次数≥5
当出现小于5的数需要启用矫正公式
卡方检验的类型
拟合度检验 配合度检验
概述
主要用来检验一个因素多项分类的实际观察数与某理论次数是否接近,称无差假说检验
两列分布(观测与理论)的几项分类都可以
步骤

1||| 统计假设
H0:f0=fe H1:f0≠fe
2||| 检验公式
3||| 理论次数
有理论依据理论,没理论靠经验代入
4||| 自由度
5||| 查表做出决策
例子
独立性检验
简答题
概述
用来检验两个或以上因素多项分类之间是否有关联或是否具有独立性
即看两个因素是否有关联
重要概念
列联表
定义
呈现两个变量之间关系的表格
记录两个变量不同水平的各种组合的被试频数
例如男女对某产品的选择情况
观测频数
实际观测到的频数
期望频数
假设两个变量之间没有任何联系情况下,我们所预期的各种变量组合应有频次
边缘值
列联表中每一行和每一列的观测频数的总和
分为行边缘值、列边缘值
步骤
1||| 建立假设
H0:f0=fe,因素一与因素二无关联 H1:f0≠fe,因素一与因素二有关联
2||| 检验公式计算 fe=np :王:按实际情况计算
3||| 确定自由度
4||| 查表,确定临界值,进行决策
公式
记定义式。导出式虽然计算简单,但是难记。
例子
四表格检验公式(独立性检验的特例,是2×2最简单的独立性检验)
两独立样本四格表卡方检验专用公式
卡方公式
自由度公式
两相关样本四格表卡方检验专用公式
卡方公式
自由度公式
检验公式汇总
②做了解
同质性检验与数据合并
很复杂 不适合出题
十四、 非参数检验
参数检验前提条件:正态、方法齐性、样本量大小 当不满足条件时,将数据降级,进行非参检验
概述
概念
缺乏总体分布模式信息,不需要假设总体是否为正态分布或方差是否齐性的假设检验称非参数检验
优缺点
优点
假设前提比参数假设检验少得多,适用面较广;计数简便
缺点
统计效能远不如参数检验方法
特点
简答题
1||| 它不需要严格的前提假设
2||| 特别适用于顺序数据
3||| 适用于小样本,且方法简单
4||| 最大的不足是不能充分利用资料的全部信息
因为不比平均数,比秩和,中数
5||| 不能处理“交互作用",即多因素情况
两样本差异比较
1、不知总体情况 2、方差不齐性 要么用中数要么用等级
使用条件
1、不知总体情况 2、方差不齐性 要么用中数要么用等级
两独立样本的非参检验
秩和检验法
概述
“秩和”即秩次的和或者等级之和 叫威尔克松两样本检验法 也叫曼—特尼维尔克松秩和检验 也叫曼—特尼U检验
适用资料
当两个独立样本都为顺序变量时
秩统计量
指样本数据的排序等级
假设从总体中反复抽取样本,得到一个对应于样本容量n1和n2的秩和U分布,这是一个间断而对称的分布 当n1和n2都大于10时,秩和的U分布近似于正态分布
计算过程
1||| 小样本:两个样本容量均小于10(n1≤10,n2≤10)
排序:所有数据混合由小到大等级排列
计算统计量T:把样本容量较小的样本中各数据的等级相加,以T表示;如果两样本容量相等,则取等级和比较小的为T
比较与决策:把T值与秩和检验表中的临界值比较,弱T≤T1或T≥T2,则表明两样本差异显著,若T1<T<T2则意味着两样本差异不显著
与t检验相反,两侧是显著
2||| 大样本:(n1,n2>10):近似正态分布
例子
小样本
大样本
中数检验法
卡方,独立四格表检验
适用条件
中数检验法的基本思想是将中数作为集中趋势的量度,检验不同样本是否来自中数相同的总体
计算过程
排序:将两个样本数据混合从小到大排列
稳定中数:求混合排列的中数
做四格表:分别找出每一样本中大于和小于混合中数的数据个数,做成四格表
借助卡方检验实现
进行卡方检验:若卡方检验效果显著,则说明两样本的集中趋势(中数)差异显著
例子
两相关样本的非参检验
如前测和后测
符号检验法
假设中数相等,与中数检验相似都是看中数。一个独立,一个相关
符号检验法是以正负符号作为资料的一种非参数检验程度。也有将中数作为集中趋势的量度
本质还是检验两列数据中数是否相等
计算过程
1||| 小样本:n≤25时
对于两样本每对数值之差(Xi-Yi)
不计大小,只记符号,n+、n-分别表示差值正负号的多少,零不计
记N=n+ + n-,r=min(n+,n-)
根据N与r,直接查符号检验表。在某一显著性水平下,若r值大于表中的临界值时,表示差异不显著,这与查其他参数检验临界值表时不同
虚无假设:配对资料差值来自中位数为0的总体
2||| 大样本
不会考 了解一下
公式了解一下就可以了
n+和n-服从二项分布,当N>25时,将二项分布近似看成正态分布,根据二项分布的原理
例子
小样本
大样本
符号等级检验法
符号检验法:只看符号不看差值 符号等级检验法:不止看符号符号还看差值
概述
维尔克松符号等级检验法,又称符号秩和检验,
使用条件与符号检验法相同,也适用于配对比较,但精度比符号检验法高,因为不仅考虑符号还考虑差值大小
目的是推断配对样本差值的总体中位数是否和0有差别,即推断配对的两个相关样本所来自的两个总体中位数是否有差别
计算过程
1||| N≤25(小样本)
把相关样本对应数据之差按绝对值从小到大做等级排列(差值为0时,0不排列)
在各等级前面添上原来的正负号
分别求出带正号的等级和(T+)与带符号等级和(T-),取较小的记作T
根据N,T差符号等级检验表,当T大于临界值表明差异不显著,小于则差异显著
2||| N>25(大样本)一般认为N>25,T分布接近正态分布
例子
小样本
大样本
多样本差异比较
等级方差分析:3组
克—瓦氏单向方差分析 对应完全随机(单因素)
单因素方差分析条件
正态、齐性、变异独立、大样本
适用条件
即不满足正态分布,方差齐性
当实验室完全随机分组设计,所得数据不符合参数方法的方差所需假设条件,则可以用克—瓦氏党项方差分析,也称H检验
计算过程
小样本( K=3 且 ni≤5)
实验处理必须3个水平,4组也不行。2组则用秩和或者中数检验
排序,计算等级
计算统计量H值
公式
考试会给 但是符号含义不给,要背
查H分布表
找H值
进行统计决策
大样本(K>3 或 ni>5)
计算统计量H值
查卡方分布表
借助卡方检验,临界值找的卡方值
进行统计决策
例子
小样本( K=3 且 ni≤5)
大样本(K>3 或 ni>5)
临界值找的卡方值
弗里德曼双向方差分析 对应被试内,重复测量设计(单因素)
适用条件:解决随机区组实验设计的一些非参数检验问题
计算过程
将每一区组的K个数据(K为实验处理数)从小到大排出等级
计算每种实验处理n个数据(n为区组数字)等级和,用Ri表示
代入公式,查表做出决策
例子
没有多因素等级方差分析,因为不能处理交互作用
小结
十五、 效果量与多元初步统计
效果量
考点
含义
反映自变量和因变量的关联程度
认为μ1是无干预 认为μ2是有干预
(1-β)是不等,这个结果的可能性 但是不等的差异程度多大不知道
常用效果量
两样本差异检验用t检验(独立t、配对t) 多样本差异检验用F检验
两样本
科恩d
定义角度
效应大小 考点 要记
标准差S分两类情况:独立样本与相关样本 叫联合标准差、差值标准差
点二列相关系数平方 可以看成“决定系数”
决定系数角度
效应大小标准 要记
只适用于t检验。自由度独立和相关样本不一样
多样本
SSeffect:实验变异 SSE:误差变异 效果量分情况:A、B主效应效果量与AB交互作用效果量
公式
d
r²pb
η²
r²
假设检验 报告:α、(1-β)、效果量
多元线性回归
把对因变量影响小的自变量剔除
主成分分析
化繁为简提高分析效率 把多个指标化为综合指标,要付出代价:损失信息
因素分析
主成分分析是一种技术,因素分析是一种思想。 利用主成分分析实现因素分析
基本思想
分类
数学模型
因子负荷
是一元线性回归的补充,整个多元统计不是考试重点
十六、 多变量统计分析简介
十七、 抽样原理及方法