导图社区 心理统计学
这是一篇关于心理统计学的思维导图
编辑于2022-03-12 15:51:04统计学总体认识
一般概念
心理统计是专门研究如何运用统计学原理和方法,搜集,整理,和分析心理科学研究中获得的随机性数据资料,并根据这些数据资料传递的信息,进行科学推论,找出心理活动规律的一门学科。(分析数据)
数据类型
称名数据(属性差异)
顺序数据(大小之分,等级,无相等单位)
类别、离散
等距数据(有大小,有相等单位,如成绩)
比率数据(有绝对零点、有相等单位、有大小,如身高、体重)
连续
同一个统计量,在总体中叫做参数,在样本中叫做统计量
反证法(核心)
描述统计
整理数据
排序--分组(性质、或取值大小)
次数分布
集中量数
对一组数据的集中趋势特点进行度量和描述的统计量
平均数(M)
真值的最佳估计值、优点:反应灵敏,简单易懂,易实施,较少受抽样变动的影响 缺点:易受极端值影响,易受缺失值影响
同质原则
众数(M₀)
优点:概念简单明了、缺点:受抽样影响大,不能做进一步代数运算
中数(Md)
优点:概念和计算相对简单、缺点:情况众多,受抽样影响大,不如平均数稳定,不能做进一步代数运算
加权平均数
几何平均数(对数平均)、偏态数据
调和平均数(倒数平均)学习速度
正偏:平均数大于众数;负偏:平均数小于众数
差异量数
对一组数据的变异性,即离中趋势特点进行度量和描述的统计量
全距:最大值与最小值的差
方差(a.k.a., 均方):离差平方的均值、值越大越离散 (x-平均数)的平方的和/N
方差可加性,方差可分解性;方差是特殊的协方差
标准差:方差的平方根
最好描述差异的统计量
优点:简单明了,反应灵敏、计算公式确定,适合代数运算、受抽样变动的影响小
应用
差异系数:不同测量概念,测量工具,测量水平得到的数据,离散程度的比较
标准分数(Z分数)以标准差为单位,表示一个原始分数在团体中所处位置的相对位置量数;取决于离差和标准差;可用于比较相对位置
无实际单位,平均数为参照点,标准差为单位
优点:不同情景和工具测得的数据转换成标准分,可比较,可加、便于获取标准分数在全体分数中的位置,意义更明确、心理测验题目难易程度不同,造成各题标准差相差较大,对测验总分影响不同;转换成标准分数有助于消除这类题目性质差异对总分的影响
异常值的取舍:[平均数-3*标准差,平均数+3*标准差]
差异系数(CV):标准差/平均数*100%
百分位数:又称百分位分数,是将一组数据从小到大排序,量尺上对应于某个特定百分比位置的原始分数。表明的是,百分之多少的个案低于此分数,因此,是累加的概念。
百分位差:位置百分之十P10所对应原始分数与位置百分之九十P90所对应原始分数之间的距离
它是上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。
平均差:原始数据与平均数绝对离差(差值的绝对值)的均值
描述数据的分布特点
推论统计
相关关系
卡方检验
两个或两个以上处于同等地位的随机变量间的相关关系
协方差(cov):(x-x的平均数)(y-y的平均数)的和/N
相关系数:r=(x-x的平均数)(y-y的平均数)的和/N*X的标准差*Y的标准差
有关系但不是因果关系;|r|接近1相关性特强
数据类型
积差相关:连续变量
皮尔逊相关:两个连续变量(正态)
等级相关:等级变量
斯皮尔曼等级相关:两列类别(顺序、称名)、等级变量
肯德尔等级相关:多列等级变量
质与量相关:一个类别一个连续
点二列:真二类+连续
二列相关:人为二分+连续
多列相关:多个等级的分类+连续
品质相关:两个变量被划分成不同的类别(连续/类别)
四分相关:两个连续变量被人为划分两种类别(可真可人为)(成绩(连续)被划分为及格与不及格(类别))
f相关:一个真二分一个人为划分
列联表相关:两个多分类变量之间的相关
概率分布
是指用于表述随机变量取值的概率规律
样本分布(抽样分布)(统计量分布)
样本统计量的抽样分布的标准差,称为标准误(SEc),容量越大,标准误越小
标准误:说明一个样本均值有多大程度上可以代表总体均值、标准误就反映了样本均值和总体均值之间平均有多大的差异。
t分布:总体平均数的估计,样本平均数与总体平均数差异检验、两样本平均数的比较(不要求大样本和总体方差已知)
样本容量大时接近正态分布(z分布)
F分布(两样本方差之比):方差齐性分析、方差分析(多个样本的平均数是否相等)(两个服从卡方分布的独立随机变量各除以其自由度后的比值的抽样分布)
c²分布(卡方分布)(方差的抽样分布):样本方差和总体方差的差异检验、计数数据的检验
可加减
自由度趋向无穷≈正态分布
服从标准正态
正态分布面积 ±1.96-95%;±2.58-99%
把等级数据转化为Z分数(也叫标准分数,以标准差为单位)-对比、比较两个不同题目的难度、划分等级确认人数
二项分布
猜测问题
参数估计
总体参数估计(用样本推论总体)
点估计(样本统计量)
区间估计
P值:拒绝零假设(H₀即没有差异)犯错的概率(实际)(参数)(认为它没有差异出错的的概率)、P<0.05-有显著差异(拒绝H₀接受H₁)
显著性水平:参数落入区间犯错的概率(理论)a(0.05)
置信区间:95%/99%
上下界-由样本的标准误(抽样分布有关)决定
方差区间分析(c²分布)、两总体方差之比(F分布)
对总体平均数的估计:1、计算样本的平均数与标准差 2、计算标准差 3、确定置信水平/置信区间 4、根据抽样分布,确定统计表 (t表、z表) 5、计算置信区间 6、解释置信区间
有了显著性差异,就说明参与比对的数据不是来自于同一总体
双侧检验:比较大小的差异,无方向;单侧检验:比较大小的差异,有方向
不能根据理论知识判断两种结果谁高谁低时,采用双侧检验;根据理论知识可知的采用单侧检验
推论统计
假设检验
判断总体参数间是否存在差异,是由抽样误差引起还是本质上有差别
检验样本统计量之间差异做出一般性结论,判断总体参数之间是否存在差异
H₀:没有差异/ H₁:有差异--双侧检验还是单侧(高于/低于)(强调差异)---对H₀做检验(假设H₀正确)(反证法(核心):通过否定H0,来检验H1的真实性。)
FP:认为H₁为假,实际接受H₁(H₁为真)一类错误a;FN:认为H₁为真,实际上拒绝H₁(H₁为假)二类错误b; 一型错误(a错误):H1是错的,但接受了H1; 二型错误(β错误):H1是对的,但拒绝了H1
TP:认为H₁为真,实际接受H₁(H₁为真); TN:认为H₁为假,实际拒绝H₁(H₁为假)
控制犯第一类错误的概率,即给定α,然后通过增大样本容量n来减小b
参数检验
已知总体分布规律
t检验(平均数)
n>30,t分布≈正态分布,Z检验-大样本/总体的均值检验
单个样本t检验
样本平均数与总体平均数(标准值)之间的差异比较
独立样本t检验(两份样本来自对立总体)(方差齐性)
自变量:类别变量(两分类)因变量:连续变量
相应样本t检验(两份样本一一对应)(不需要方差齐性)
方差
c²检验-样本方差和总体方差
F检验-两样本独立(双侧)
t检验-两样本相关
非参数检验
方差分析
应用:方差的齐性的分析;各组影响量的方差;多样本平均数之间的差异检验
方差可分解性
F检验--SPSS(一般线性模型)
H₀:m₁=m₂=m₃;H₁:至少有一组的平均数显著不同于其他组的平均数
总体正态;差异来源相互独立;方差齐性(齐性才可以做方差分析--分析因变量;齐性分析方差)
单个样本t检验(样本与总体平均数比较)(正态方差已知;大样本)
F值接近1,则说明各组均值间的差异没有统计学意义,若F值远大于1,则说明各组均值间的差异有统计学意义
统计学将差别是由抽样误差引起的,称为差别“无统计意义”;差别不是由抽样误差引起的(本质引起),称差别“有统计意义”。
判断总体参数间是否存在差异,是由抽样误差引起还是本质上有差别
误差来源:实验条件,即不同处理造成的误差SSb(组间);随机误差,如测量误差造成的差异成个体间的差异,称为组内差异SSw(组内)
总偏差平方和 SSt = SSb + SSw
完全随机设计
分成同质的若干组(无组间差异,方差齐性),分别接受不同的实验处理
因素
单因素方差分析
总方差=自变量方差(组间、处理)+组内个体间差异和误差方差(组内方差)
一个自变量的不同水平是否对因变量产生了显著影响(影响量)
两因素
总方差=自变量A方差(A因素的处理间方差)+自变量B的方差+A*B两因素的交互作用方差+组内方差
多因素:接受不同的实验处理
随机区组设计
使用区组方法减小误差变异,即用区组方法分离出由无关变量引起的变异,使他不出现在处理效应和误差变异中
被试分成不同质的若干组(有组间差异,无组内差异)(组内同质,组间异质),每个组接受所有试验处理,组内不是所有人接受所有处理
控制相应组的影响
因素
单因素重复测量
总方差=自变量方差(组间、处理)+区组方差+误差方差(组内方差)
双因素
总方差=自变量A方差(组间、处理)+自变量B的方差(组间、处理)+A*B因素的交互作用方差+区组方差+组内方差
步骤:1、建立检验假设:H0:多个样本总体均值相等、H1:多个样本总体均值不相等或不全等、检验水准为0.05即小于0.05显著;2、计算检验统计量F值;3、确定P值并作出推断结果
相关概念
主效应:某个因素的不同水平间,平均数的差异
交互作用:一个因素的不同水平,在另一个因素的不同水平上,表现出对因变量不一致的效应
简单效应(简单主效应):A因素取某一水平时,考虑B因素对因变量的影响
事后检验(比较)
找到差异的一组
完全随机和随机区组的异同
同:组间与组内变异的分解 (1)组间方差由实验处理(自变量)引起 (2)组内方差由被试间差异与测量误差引起的。
区组设计对被试间的差异做了控制,这部分被控制的方差(即区组方差)可以区分出来:(1)完全随机设计中,误差方差=组内方差。(2)随机区组设计中,误差方差=组内方差-区组方差。
两因素完全随机设计 V.S. 单因素随机区组设计 区别:前者考虑两因素间交互作用;后者不考虑研究所关心的因素与控制因素之间交互作用
通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小
线性回归
有相关性
回归分析与相关分析的区别:相关分析--联系程度;回归分析--建立函数关系式(先相关分析-后回归分析)
确定两种或两种以上变量相互依赖的定量关系
目的:建立回归模型,进行预测和分析
假设:线性关系、Y服从正态分布、独立假设一X与Y和另一组没有关系,误差等分散:每个x对应的一组Y的方差相等
回归方程:Y=a+b1*X +b2*X2+ e
一元线性回归--Y=a+bX
找出错误最小的方法用来预测
两个正态连续变量
检验方法:总方差=回归方差(处理方差)+误差方差;对回归系数进行显著性检验(H₀:b=0、H₁:b¹0);测定系数=r²(x对y的影响大小)
多元线性回归
多个自变量对一个因变量的影响
因变量:连续变量;自变量(多个):连续
模型检验方法:总方差=回归方差(处理方差)+误差方差;对回归系数进行显著性检验(H₀:b₁=b₂=......0、H₁:至少有一个偏回归系数不为零);测定系数=r²(x对y的影响大小)
模型检验:回归方程显著=方差分析显著¹偏回归系数显著
逐步回归(stepwise):按自变量的作用大小,从大到小逐个引入方程;每引入或剔除一个自变量,都重新对方程中其他自变量进行显著性检;重复以上引入和剔除步骤,直到无自变量可引入和剔除为止
复相关系数:p个自变量的线性组合与y之间的相关(0~1)
复相关:反映两个及两个以上的自变量同一个因变量的相关关系。
Y=a+b1*X +b2*X2+ e
虚拟变量(一般为多元)
自变量为间断变量--转变为连续变量
想将类别变量也投入到回归模型中
多类别-二分类-连续
未经处理:参照组
回归模型:对统计关系进行定量描述的一种数学模型;回归方程:表达式
回归方程
步骤:1、散点图 2、回归模型 3、显著性检验(回归系数--x与y是否存在显著的线性关系;测定系数--模型拟合程度)4、回归标准误并真值预测区间的估计
-回归系数的显著性检验(t检验)(说明:if显著=回归方程显著,有线性关系)--决定系数(测定系数)R²(Y的变异量中的由X引起的占比)
回归模型显著性检验(F检验)(说明:if显著=回归模型显著,X与Y有显著的线性相关)
模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量)--进入,否则逐步(逐个分析)
预测:针对样本,只考虑各y值围绕y^的波动,不考虑回归直线的波动; 针对个体,同时考虑各个体y值的围绕当前样本回归直线的波动和回归直线本身(因样本不同而变动)的波动