导图社区 行为科学统计精要(第8版)
超级详细的行为科学统计精要(第8版)的笔记!!! 吐血整理!!介绍详细,描述全面,希望对感兴趣的小伙伴有所帮助!
编辑于2024-01-01 23:38:46行为科学统计精要(第8版)
第一部分 入门和描述统计
第1章 统计学入门
1.1 统计、科学与观察
统计学的定义
统计学指的是一套 组织、总结和解释信息 的数学过程。
统计服务于两个主要目标
1.统计是用来 组织和总结信息 的,所以,研究者可以看到在研究中发生了什么,同时可以与其他人交流研究结果。
2.统计通过确定得到的结果中哪些结论是合理的,来帮助研究者回答想要研究的主要问题。
1.2 基础概念
总体与样本
总体
总体是特定研究中所关注的所有个体的集合。
样本
样本是指那些 从总体中 选出的个体,通常在研究中是被用来代表总体的。
变量和数据
变量
变量是对于 不同个体会变化 或有 不同值 的特征或情况。
变量可以是个体间有所不同的特征属性,例如高度、重量、性别或者人格特征。 变量也可以是变化的环境变量,例如气温、一天中的时间点,或者是进行研究的空间的大小。
数据
数据是 测量或观察 所得的结果,同时它常常被叫做 分数 或 原始分数。 一个 数据 是 一个单独 测量或观察结果。 一个 数据集 是 一系列的 测量或观察结果。
用来说明 变量 的 变化
参数和统计量
参数
参数是一个值,通常是一个 描述总体 的 数值。 参数可能是通过某种单一的测量得到的,也可能来源于一系列对总体的测量。
统计量
统计量是一个值,通常是一个 描述 样本 的 数值。 统计量可能是通过某种单一的测量得到的,也可能来源于一系列对样本的测量。
每一个参数 有一个相应的 统计样本, 而且大部分研究使用由 样本得到的统计结果 作为回答总体参数 的基础。
描述统计和推论统计
描述统计
描述统计是那些用来 总结、整理、简化 数据 的 统计方法。
比如 表格、图形、平均数 等
推论统计
推论统计包括能够用于 研究样本 并对样本所来自的总体 作出推论 的技术。(就是通过样本推论总体)
通常,一个 样本统计量 和相应的 总体参数 之间是有 差异的。 这个差异被称做抽样误差
抽样误差
抽样误差是一种差异,或是一些存在于 样本统计量 和 相应的总体参数 间的 误差。
选取不同样本会有不同数据差异呢~
粗略的实验步骤,两种统计分别承担的角色~
1.3 数据结构、研究方法与统计
个体变量
变量间的关系
数据结构1
相关法
定义
测量每个个体的两个变量,可以观察两个变量并考察它们是否有关联。
学生的起床时间和学业表现是否有关联 散点图(每个点1个学生),横轴起床~~,竖轴学业表现~ 整体看起床越晚,学业越差~
限制
不能解释因果,要因果得实验法。
数据结构2
实验法 and 非实验法
比较两组或多组的成绩(是分组了的!)
比较了两组 共有四个变量~如图所示~
举例来说,给一组小学生观看 30分钟包含大量暴 力内容的动作/冒险片,给另一组观看没有暴力内 容的喜剧片。然后在操场上观察两组学生的行为, 由研究者记录每一个学生发起侵略性行为的次数。
实验方法
特点
1 操纵
x → y (改变一个变量,观察是否改变第二个变量)
2 控制
控制研究情景,免去 额外变量 影响
手拿着钱 有止痛效应
在这个实验中,一群大学生被告 知他们正在参加一个手的灵巧度的研究。然后研 究者通过操纵参与者需掌握的实验材料的材质, 产生两种处理情境。一半的学生数一叠的钱,另 一半的学生数一叠白纸。在完成数数任务后,要 求被试将他们的手伸入一个装满水[122 华氏度 (50摄氏度。——译者注)]的碗里,并对他们的 疼痛感评定等级。那些数钱的参与者的疼痛感显 著低于数纸张的
要排除额外变量
通常必须考虑
被试变量
假如数白纸都是男,数钱都是女,这就不行,无法说明是否因为性别带来的差异
环境变量
假如数白纸在白天,数钱在晚上,这就不行,无法说明是否因为时间带来的差异
三种技术
随机分配
随机性别、时间等
匹配法
比如测试智商,保证每组智商相等
保持常量
比如实验只用10岁孩子(年龄是常量)
定义
在实验法中,研究者 控制一个变量,然后 观察并测量另一个变量。 为了在两个变量间建立因果关系, 实验要试着 控制所有其他变量 以避免它们影响结果。
实验法中的术语
自变量
实验者 操纵 的变量
被试所接受 的 处理条件
钱or白纸
因变量
实验者 观察的变量
评估可能 的 处理效应
疼痛等级
实验中的控制条件
实验方法中,实际上只测量了 一个变量。 相关研究中,要同时测量 两个变量。
控制组
不接受处理,但是会接受一个 中性的或者安慰剂 的处理
作用
是提供 比较实验处理的 基线。
实验组
接受处理
接受处理的才是在做实验嘛~
非实验法
类型
非等效组研究
性别不可控~非真实验研究
前后测研究
时间不可控~非真实验研究
非实验研究中的术语
术语与实验研究类似
定义 分组的变量 叫自变量, 分数叫因变量
but,性别不是真正自变量,不能控制,非实验研究中通常称为 准自变量
不能产生因果解释
1.4 变量与测量
构建和操作定义
构建
又称假设构建,不能被直接观察到的 内部特质(如智力、饿等),但是对描述和解释行为有用。
操作定义
定义一个测量过程(一系列操作)来测量一个 外部的行为,并将测量结果作为一个构建的定义和测量。(就是通过外部行为去 测量 内部特质,比如通过智力问卷测验智力等)
两个要素
第一,它描述了 一系列测量 构建 的操作;
第二,它根据 测量结果 定义了构建。
离散和连续变量
离散变量
由 分离的、不能分割 的数值组成,相邻的种类间 没有其他值存在。
例如骰子5、6之间没有其他可观察数值
通常是可计数的数值
一个班有18同学,只能一个一个,不可能出现18.5这样的
品质 不同的观察结果
性别(男性或女性)、
工作类型(护士、老师、律师等)
大学专业(艺术、生物、化学等)
连续变量
在任意 两个观察值之间 有无限多的可能值。 一个连续变量可以被 分割成 无限多的小片段。
例如时间、高度、重量等
测量 连续变量
任何 连续变量,都可以通过 一条连续的线 描绘
无数的点~
要点
1.测量一个连续变量,很少 有两个不同的个体 得到相同值 的情况。
比如两个人重量可能都150磅,但那只是粗糙的,你不知道一个会不会是150.23212另一个会不会是150.33565等~
2.测量一个连续变量,每个测量种类 实际上是一个必须由 边界定义的间隔。 (or:在连续变量 中 每个数值 都只是代表 一个区间)
比如上面例子,两个人体重差不多相同,150磅实际上是一个间隔,由149.5和150.5组成,他们体重在这个范围内,都可以说150磅。
精确界限
精确界限是 在 连续数轴上的分数 间隔的界限(竖着的线,148.5、149.5这些)。 精确界限 分开了两个相邻的分数,并且位于相邻分数中间(比如149.5位于149和150中间,/149+150/÷2=149.5)。 每个分数 有 两个 精确界限,精确上限在间隔上部,精确下限在间隔下部(149.5是150的精确下限;150.5是150的精确上限)。
适用于任何 连续变量 ,非整数也可以, 比如时间的,31.0秒、31.1秒、31.2秒等。 那么31.1秒的精确下限和上限分别是31.05(/31.0+31.1/÷2)和31.15(/31.1+31.2/÷2),这个精准界限记住是相邻两个数字的中间值,
一个观察对象可以得出不同类型变量
比如人的身高可以分成高与矮(离散)、但也可以测出具体的高度(连续)
测量尺度
类型
称名量表
称名量表包括一些不同名称的种类。 称名量表的测量对观察对象进行标注和分类,但是不做任何数量的区别。
比如学生的专业,这个分类可能是艺术、生物、商科、化学等。
不能判断差异方向与大小等,比如艺术不代表比生物多或者好啥的
可以用数字编码,但只是代替名字而已,不具备数量特征,比如男用1,女用0代表
顺序量表
顺序量表由 一系列按照 一定顺序组织的种类 组成。 顺序量表的测量 根据 事物的大小或者数量来排列 观测结果。
通常,顺序变量包括一系列等级(第一、第二、第三等),就像赛马中的顺序。
能确定两个个体是否有差别,以及这个差别的方向
但不能确定差别大小
例如跑马有第一第二、但不确定第一比第二好多少
等距量表
一个等距量表由 间距大小相等的 有顺序的 类别组成。 量表中数值相等的差异反映了大小相等的差异。(可加减、不可乘除) 但是,等距量表的零点是任意的(相对零点),不能说明测量值的量为0。(0以下还有意义)
如温度
等比量表
等比量表是有绝对零点的等距量表。(0就没了~啥都没了~) 在等比量表中,数值的比例反映了大小的比例。(可加减,可乘除)
如高度
一个例子
研究者对一组8岁的孩子进行了身高测量。 起初,研究者只是用厘米简单记录了孩子们的身高,得到的值是44、51、49,等等。这个测量是一个等比量表。0 值代表没有高度(绝对零点)。 同样,也可以用测量到的数值得到比例。 例如,一个 60 英寸高的孩子的身高是40 英寸高的孩子的1.5倍。 现在,假设研究者要通过计算每个孩子实际身高的区别和这个年龄组的平均身高,来把起初的测量转换到一个新的量表上。 一个比平均身高高1英寸的孩子现在得到的分数是+1;一个比平均身高高4英寸的孩子得到的分数是+4。(就是新的量表里,平均身高的数字是0,高1英寸就+1,矮2英寸就-2嘛~) 类似地,一个比平均身高矮 2英寸的孩子得到的分数是一2。 在这个量表中,0分代表平均身高。因为0不再说明没有高度,新的分数组成了一个等距量表。 注意,两种分数都包括英寸的测量,你也能计算区别和间距。 例如,在第一个量表上,两个孩子身高分别为 57英寸和 51英寸,他们之间有6英寸的差距。 同样,在第二个量表上得分为十3和+9的孩子身高的差距也是6英寸。 但是,你会注意到比例的比较在第二个量表上是不允许的。例如,一个身高得分为十9的孩子不比得分为+3的孩子高3倍
不是说称名量表就肯定是离散,等比肯定是连续,其实是两个概念,量表出来的数据都有可能是连续或者离散。 比如兄弟姐妹的个数,这个虽然是离散变量,但属于等比量表(因为可以加减乘除还有绝对零呢!)
统计和测量尺度
这本书介绍的主要统计方法是为等距量表和等比量表中的数值设计的。 对于绝大部分统计方法来说,它们两者的区别并不重要,因为两种量表都产生了数值,这些数值允许我们求差、求和、计算平均数。
称名量表和顺序量表的测量结果主要不是数值,不能进行很多基本的数值运算
1.5 统计符号
分数
一般字母X代表一个变量的分数。如果有了第二个变量,就用Y来代表。
测一个变量就有一个分数~
测两个变量就有两个分数...哈哈
大写 N
代表一个 总体 中 分数的数量
小写 n
代表一个 样本 中 分数的数量
求和符号
∑
一些例子
∑X=3+1+7+4=15 ∑X²=9+1+49+16=75(把每个X平方后,再相加) (∑X)²=15²=225(先计算了∑X,再把∑X的结果平方)
∑(X-1)=2+0+6+3=11(把每个X都-1后,再相加) ∑(X-1)²=4+0+36+9=49(把每个X都-1后,再平方,再相加)
∑X-1 = 15-1 = 14(这里没有括号,所以直接相加,然后减1就好~)
此表有4个人,每个人有xy两个分数的意思 ∑X=3+1+7+4=15 ∑Y=5+3+4+2=14 ∑XY=15+3+28+8=54(把每个xy相乘后,再相加)
第2章 频数分布
2.1 概述
频数分布
每个分数区间(一组数) 包含的 观测分数的个数 或者 每个观测分数出现的次数 的 整理表。 就是一个表,呈现了分数的个数或者次数等,不要管其他太复杂的定义
成分
1.原始测量数据的范围。
2.频数或者每个分数区间 被试的个数。
2.2 频数分布表
频数分布表 实例
x分数从高到低排列(顺序、等距、等比一般如此;称名可以随意排) f是频数也即次数or个数,就是x分数出现了多少个/次 上面表中还出现了5是为了举例,你看f是0,证明这个数没有出现过 ∑f=N(全部加起来就是总人数嘛~)
频数分布表中∑的计算
∑fX 能求出 ∑X 就是你原本∑X=5+4+4+3+3+3+2+2+2+1=29 但是∑fX=5+8+9+6+1=29能直接求出~其实原理是一样的。
比例和百分比
比例
比例主要测量 总体中 取得每个分数的人数所占的比例。
比如有X=4有2个,总数有∑f=10个人,即X=4的比例是2/10=0.20
公式
比例=p=f/N
百分比
百分比=p(100)=f/N(100)
就是算出比例,然后百分比就可以了
分组频数分布表
全距过大的时候,就要分组了
分的组叫“分组区间”
行数 = 最高分-最低分 + 1
行数不是分组的组数,是用来检验数据会分出多少行的,然后看需不需要分组 比如最大数为50,最小数为40,那就会分成50-40+1=11行嘛~ 1、50 2、49 3、48 4、47 5、46 6、45 7、44 8、43 9、42 10、41 11、40 看,这里就有11行了~
一些规则(不是绝对的要求)
规则1
大约10个分组区间
过大繁琐 / 过小缺失信息
规则 2
分组区间的间距 应该简单
例如2、5、10、20
规则3
每个分组区间的下限值 是组距 的 倍数。
例如,分组区间的组距是10,每个分组区间的下限值就是10的倍数。 因此,最低组的下限值为10,以此类推,20、30、40等。
规则4
有的分组区间应该有相同的组距,并且涵盖所有数据值。
例2.4 一位教师获得了一组 N=25的考试成绩。 为了整理这些数据,将它们列于频数分布表中。这些分数是(已整理): 53,58,60,61,64,69,70,72,73,75,75,76,78,80,82,84,84,84,87,87,88,89,91,93,94,
1 算全距
这里的行数有94-53+1=42行,太大了,需要分组
结合规则1和规则2,要分10组左右,而且组距要简单数值
要试出来的,这里看到组距为5最为合适
2 确定分组区间值(也就是组内的数据范围)
规则3下限是组距(这里是5)的倍数,所以最小区间的下限是50(也符合规则4,全部包含了) 组距是5,42/5≈9。所以分9个组。 组距是5,区间宽度也就是5,所以一组包含5个数字,最小区间包括5个值:50、51、52、53、54。 所以最小区间是50~54(实际上组距是最大数字-最小数字,这里实际是49.5~54.5,所以是54.5-49.5=5) 下一组是55~59,55刚好也是5的倍数哦~
一旦你列出了分组区间值,那么再添加一列频数就完成了该表。 频数列的数值表示落在该分组区间的分数的个数 会丢失一些信息,比如90~94,我们只知道有3个,但不知道他们的具体分数~ 例子的数字 53,58,60,61,64,69,70,72,73,75,75,76,78,80,82,84,84,84,87,87,88,89,91,93,94,
区间界限 和 频数分布
理论界限
一个分组区间是40~49,它包括了X=40到X=49的分数。 这些值被称为区间的理论界限
实际范围
39.5~49.5
2.3 频数分布图
频数分布图 就是 频数分布表 的信息图
描述 等距、等比数据 的 频数分布图
直方图
传统的直方图
矩形涉及每个X取值的限定范围,所以两个条形间没有空隙和间隔(数字连续不断) a.条形的高度 对应 数据的频数。 b.条形的宽度 代表 X值的实际限定范围。 矩形的宽度为区间的实际界限(最低分数的精确下限 和 最高分数的精确上限)。就是你能看到最左边其实是0.5/29.5,最右边是5.5/45.5 右边图的横轴上的“/ /”是代表省略了0-30的数据 图的高度 应该接近于它的 长度 的 三分之二 到 四分之三。
通常情况下,我们在X轴和Y轴交叉的地方均以零开始。 然而,当零是数据的一部分时,通常需要将零点从交叉处转换到其他地方,以防止覆盖。
修改的直方图
就是不用纵轴了,直接用方块显示,比如获得1分有1人、2分有3人
多边形图
a.每个点位于每个分数值的上方,并且每个点的垂直位置对应该数值或范围的频数。(就是对准横轴、对准纵轴的意思) b.连接各点,使其成为一条连续折线。 c.这幅图通过在每一个成绩区间的末端画一条到 X轴(频率为0)的线完成。 该折线左起 X的最低分,右到X的最高分。(意思就是你开头和结尾都要为0,贴着横x轴) 如果X是区间的话,取点在 组中值=(下限+上限)/2,比如右图的8~9就是(8+9)/2=8.5
描述 称名、顺序数据 的 频数分布图
条形图
与直方图类似,不过是有间隙的,因为这些数据并不是连续不断的
总体 分布图
在已经获得总体中每个分数的精确频数后,也可以建立直方图、多边形图和条形图,因为它们不只适用于样本,也适用于总体。(但总体很大,一般不会获得全部数据,下面说的特征好像都只是“大概”描述下总体~)
两个特征
相对频数
很难获得总体中每个分数的精确频数,但是经常可以获得相对频数。 例如,我们并不知道湖中有多少条鱼(总体),但是几年的养殖之后,我们可以确定翻车鱼的数量是鲈鱼的两倍。(虽然不知道总体但知道数据之间相对的关系) 在条形图中则通过使 翻车鱼条形的高度 是 鲈鱼 的两 倍 来表示相对频数。 注意:该条形图不能表示鱼的精确数量,只能表示翻车鱼和鲈鱼的相对数量。
平滑曲线
大概就是用平滑的曲线描述总体的大体分布啥的
2.4 频数分布图的形状
描述分布的三种特征
形状
对称分布
在对称分布中,通过 中点的垂直直线 将 分布图 分为对称的两半
偏态分布
在偏态分布中,分数堆积在分布图的一侧,而在分布图的另一侧逐渐减少 偏态分布图中分数堆积逐渐减少的那一侧被称为分布的尾端。(尖的那里是尾巴~) 尾端 位于右侧的偏态分布图叫做 正偏态,因为尾端分布趋向于 X轴的正值 尾端 位于左侧的偏态分布图叫做 负偏态,因为尾端分布趋向于 X轴的负值 (尾端指向正或负确定了是正or负偏态)
分布集中性
分布变异性
后面章节
第3章 集中趋势的测量
3.1 集中趋势的定义
定义
集中趋势是一种统计测量,通过使用一个值 来确定一个分布的中心。 或者说,集中趋势的目标是找一个值 作为整个数据分布的最好或最典型的代表。
在统计学中,平均分的概念或数据 代表被称为 集中趋势
目标是确定“平均的”或“典型的”个体。
测量集中趋势的三种方法
平均数
中数
众数
3.2 平均值
符号
总体:μ
希腊字母表达总体特征
样本:M或 x—bar
英文字母表达样本特征
定义
数据分布的均值是将所有 数据总和 除以 数据个数 所得的值。
平均值的另一个定义
将总体均分
就是把总体的数据平分到每个数字上,让每个数字变得一样
平均值是平衡点
N=5(1,2,6,6,10) 平均值在这个跷跷板上是个平衡点 均值以下的总距离 与 均值以上的总距离 是 相同的。 (5-1)+(5-2)=(6-5)+(6-5)+(10-5)=7 这个减法说的是距离,比如5-1就是1到5的距离,10-5就是5-10的距离, 平均值之下的距离总和与平均值以上的距离总和是相等的, 目的是为了凸显平均数这个均衡点~
公式
总体均值公式
μ=∑x / N
样本均值公式
M= ∑X / n
加权平均值
对两组数据进行组合以得到总得均值。
需要两个值
各组数据的总和
各组数据的个数
公式
总的平均值=M=(∑X1+∑X2)/(n1+n2) 就是两组数总和÷两组数总个数
注意
总体均值不是两个组原本均值的平均值,即不是(样本1的均值+样本2的均值)÷2
如果一个样本对合成组贡献更大,在确定合成组均值的时候就会占较大权重 比如一个样本有20个数,一个样本有10个数,最后合成组的均值和更偏向20个样本的均值
比如这里,第一个样本更大,最后6.4更靠近它
这里的加权平均值不是我之前学的那种,可以看例子
简单来说,加权平均值就是将各个数据值乘以相应的权重,然后将这些乘积求和,再除以权重之和。 这里的权重表示各个数据值在整体中的相对重要程度,权重大的数据值对平均值的影响更大。 举个例子,假设有一个学生的三次考试成绩分别为 80、90 和 95,学校规定平时测验占 20%,期中成绩占 30%,期末成绩占 50%。那么,这个学生的加权平均分为: 加权平均分 = (80×20% + 90×30% + 95×50%) ÷ (20% + 30% + 50%) = 90.5
根据频数分布表计算平均值
个数可以从∑f得出,即8 总分可以从∑fx得出,即66 最后就是66/8=8.25
平均值的特征
改变一个数据
改变样本中的一个数据 就产生了一个新的平均值。
引入一个新的数据 或 去除一个原始数据
增加一个新的数据或去除一个原始数据将使平均值发生变化。 例外的情况是增加的新数据(或去除的数据)恰好 等于 平均值。
每个数据 加上或减去 同一个常数
每一个数据加上同一个常数,则平均值也将增加 同样的常数。 每一个数据减去同一个常数,则平均值也将减去 同样的常数。
每个数据 乘以或除以 同一个常数
乘以和除以也是一样的效果
3.3 中数
定义
中数的目的是表示 分布的中点。 与平均数不同,没有专门的符号来表示中数,就用词语“中数”来表示。 另外,对于总体和样本中数的定义和计算方法是一样的。
中数是将 分布 等分为 两部分的数据。 分布中恰好有 50%个体的得分高于或低于中数。 就是中间的数啦
找到大多数分布的中数
中数是在分布中找到的大于50%第一个点。
中数可以等于 分数中的一个值,也可以是 两个分数之间的一个值。
奇数
从小排到大,中间的就是
3,5,8,10,11的8就是中数 n=5的50%是2.5,那中数在大于2.5这个位置
这个直接n/2,然后后一个数据就是,比如 1234567,7/2=3.5,那第四个就是
偶数
从小排到大,中间两个数相加再除二
1,1,4,5,7,8就是(4+5)/2=4.5 n=6的50%=3,中数在大于3这个位置
这个直接n/2,然后那个数和后面一个数相加再除2就行,比如 12345678,8/2=4,那么就是第四个和第五个加后除2,(4+5)/2
这个50%的说法在连续变量中重要
寻找 连续变量 中的精确的中数
n=8的样本:1,2,3,4,4,4,4,6。(离散变量的话4就是,但连续变量4指的是3.5~4.5) 连续变量实际上是无限分割嘛,所以得找50%的点; 这里是n=8,50%就是8*50%=4,中数到4个这个位置上。就是需要4个方块 到4那有4个方块,每个方块切出1/4那就相当于一个方块,那就刚好到50%那了(看右图) 4是3.5~4.5,区间是1,1的1/4=0.25,所以50%的位置是3.5+0.25=3.75这(阴影部分已经进入4的区间了,所以是4的最低下限加的0.25,即3.5+0.25,而不是3+0.25) 这种算法只能用在连续变量上,不能用在离散变量上,比如3.75可以说时间,但不能说人数。
中数、平均值和中点
2、2、2、3、3、12 平均值关注的是数据的距离,平均值之下的距离和 与 平均值之上的距离和 相同, 比如这里平均数是4,前后距离和是 (4-2)x3 + (4-3)x2 = 12-4 = 8 如果使用距离的概念来定义“中间”的话,那么,说均值位于分布的中心是合适的, 但是,我们应该意识到均值不一定位于数据分布的准确的中心(如图所示)。
中数从另一个方面定义了数据分布的中心的概念。 即中数的位置是精确的,使得分布中恰好一半的数据位于中数之上,另一半位于中数之下。 如对于上图来说,中数为X=2.5,此时恰好有3个数据位于该中数之上,有3个数据位于该中数之下。6*50%=3,即超过3个方格的位置,也就是2的最大上限处,2.5
总之,平均数和中数 都是界定和测量 集中趋势 的方法。 尽管二者都被定义为分布的中间,但是它们却对“中间”这个术语作了不同的阐释。
学习检查(课后习题)
2.如果你在一个80分的测验中得了52分,那么你可以肯定自己的得分位于中数上。(判断对错)
x,这是你自己测验的分数而已呀,你又不知道其他同学的分数,怎么能确定呢~中数是一组数的特征呀~
下列是 连续变量 测量结果的分布,找到精确的将分布切割成两半的中数。1,2,2,3,4,4,4,4,4,5
找这种连续变量的中数都可以做个方格图。 这里n=10,10*50%=5,就是中值在5个方格那。 第5个方格位于4那,把5个方格都分出1/5凑成1个,4的区间是3.5~4.5=1,1/5处是1x1/5=0.2 所以中数3.5 + 0.2 = 3.7
3.4 众数
定义
在一个频数分布中,众数即是频数最多的数据或数据类别。
和中数一样,没有专门的符号用来表示众数,也没有符号来区分 样本和总体的众数
众数一般用在 称名量表 上,这里Luigi's被提及最多,它是众数
在频数分布图中,最高的频数是图片中的最高点。 寻找众数时,我们仅需找到分布的最高点下面的分数。
虽然一个数据分布只有一个平均值和一个中数,它却可能存在多个 众数。
有两个众数的分布称为 双峰式分布,有更多众数的分布称为 多峰式分布。 有时,有多个相同峰点的分布被认为没有众数。
10和2都是众数,分主要众数(2),次要众数(10)
3.5 选择测量集中趋势的方法
平均值常被认为是集中趋势的三种测量方法中最好的一个。 然而在一些特殊的情形中,是不可能计算出平均值的,或平均值不是最合适的代表值。在这些情形中,可以使用中数和众数。
何时使用中数
极端值 或 偏态分布
这里有一个极端值100,如果平均数,实际上数据会膨胀 选中数会更好,中数不受极端数据影响 全国工资其实就是选中数会更好...但平均数好看...
不确定值
被试6没有完成拼图,所以得出了一个不确定值 因为不能求出∑x,没法得出平均数,但却有中数
空端分布
空端分布是指一组 没有 最高极限 或者 最低极限 的数据分布
这里“5或者以上”,开口组(其实也算是一种不确定值) 不可能算出平均数 所以选中数
顺序数据
顺序只知道方向,不知道数据距离,所以也无法算出平均数(不能加减乘除啥的) or 平均数的定义基于距离(平均数平衡了距离),但顺序量表不测量距离。
何时使用众数
称名数据
称名数据是不能计算均值和中数的。 因此,众数是描述称名数据集中趋势的唯一选择。
离散变量
这些数值只能得是正整数、零啥的,平均数出现的数可能会是2.4个儿童这样,这种情况不能用平均数。 由于众数通常确认的是最典型的类别。 使用众数,我们可以得出这样的结论:如“一般的或典型的情况是每个家庭有2个儿童,一套房子有5个房间”。
描述形状
由于众数需要的计算极少,甚至不需要任何计算,故它常作为均值或中数的补充。 就是和均值与中数一起对分布进行描述~
3.6 集中趋势和分布的形态
对称分布
如果分布是完美对称的, 中数与平均数将是对称分布的精确的中心, 因为恰好图形中的一半区域位于中心的一边,(中数) 数据分布的左侧的数据也恰好被中心右边对应的数据(镜像)所平衡。(平均数) 如果一个分布只是大致对称,而不是完美对称,平均数和中数都靠近分布的中心。 如果一个对称分布只有一个众数,那么它也肯定位于分布中心,此时集中趋势的三种测量方法将会得出同样的值。(a) 一个对称的双峰分布(b)的均值和中数只有一个,但是众数却有两个,且位于两边。 矩形分布(c)来说,由于所有X值都具有同样的频数,故它是没有众数的。
偏态分布
原理: 正偏态(a)的 众数的竖线并没有将分布等分为两部分。 为了能使中数两边各有50%数据,中数必须位于众数的右边。 最后,由于受极端值的影响,均值位于中数的右边。(负偏态同理) 结论: 正偏态分布,三个测量集中趋势的值从小到大(左到右)的顺序是众数、中数、均值。 负偏态分布,三个测量集中趋势的值从小到大(左到右)的顺序是均值、中数、众数。
课后习题
在完美对称分布中,平均数、中数和众数有同样的值。(判断对错)
错!完美分布..包括双峰啊..双峰的话众数在左右两边各一个
第4章 变异性
4.1 概述
定义
变异性
变异性是分布中分数间 差异的定量测量,它描述了分数分散或聚集的程度。
简而言之,如果某分布中的分数全部相同,那么该分布 没有变异性。 如果分数之间的差距小,则变异性也小;如果分数之间的差距大,则变异性也大。
身高就比较集中,离平均数(70)相差不远 体重就不太集中,离平均数(170)有远的~
变异性的好的测量需达到以下两个目标
变异性 描述了 分布
通常通过距离来确定变异性。 它可以说明某个分数与其他分数预期的距离有多大, 或者某个分数与平均数预期的距离有多大。
变异性 测量了某个分数(或某组分数) 代表 整个分布 的 吻合程度
在用相对较小的样本来回答关于总体问题的推断统计中,变异性的这一点相当重要。 为大多数成年男性身高分布在离 总体平均身高 几英寸的范围内(距离很小),选取距离 总体平均数 6英寸内的 个体身高 概率很大。 体重分布中的分数分布较为分散(距离较大),因而你选取的个体体重很有可能不在距离平均体重6磅的范围之内。 因此,当你使用某样本去代表总体时,变异性可提供 预期误差 有多大 的 信息。
测量变异性的方法
全距
标准差
方差
重要!
4.2 全距
定义1
全距是指分布中全部分数覆盖的距离,从最小分数到最大分数。 对连续变量的测量时,全距为最大值的精确上限和最小值的精确下限之差。
公式
全距 = 最大值(精确上限) - 最小值(精确下限)
定义2
例如,如果你在测量家庭中孩子的数量,数据从0至4中产生,那么就有五个测量类别(0、1、2、3和4),全距是5。根据这种定义,当分数都是整数时,全距可以通过下列公式获得:
公式
全距 = 最大值 - 最小值 + 1
定义3
全距简单地测量了最大值和最小值之间的差距,和精确界限无关。
公式
全距 = 最大值 - 最小值
全距没有考虑到分布中的所有分数,常不能对整个分布的变异性给出精确的描述。 因为这一原因,全距被认为是一种粗糙的、不可靠的变异性测量方法。 也因此,在多数情况下,无论使用哪一种定义来计算全距都是可以的。
4.3 总体标准差与方差
标准差
标准差测量的是 到 平均数的标准距离 标准差是用分布的平均数作为参照点,通过考虑 每个分数 到 平均数 的距离 来测量其变异性。 标准差描述了分数距离 平均数是 集中靠拢 还是广泛分散分布。 样本和总体标准差的基本定义相同,不过计算稍有不同。
平均数、标准差和方差 只适用于通过 等距和等比 量表测量得到的数值型分数。 标准差与方差 和 平均数 关系密切,平均数不能通过称名和顺序量表获得,自然也限制了标准差与方差
计算标准差的过程
步骤1
确定 离均差
离均差是指偏离 平均数的距离。
也即 每个分数 与 平均数 之间的 差距
公式
离均差=X-μ
例子
假设某分布的平均数μ=50, 如果你的分数是X=53,那么离均差为:X-μ=53-50=3 如果你的分数是X=45,那么离均差为:X-μ=45-50=-5
注意
每个离均差都是由两部分组成的,即符号(+/-)和数字。 符号(+/-)告诉我们偏离平均数的方向,也就是该值高于还是低于平均数。 数字表示到平均数的实际距离。 例如,某一分数的离均差为 -6 ,则意味着该分数 低于平均数6分。
步骤2
是“求”各 离均差的平均值
为此,首先应把 各离均差 加起来,然后 除以 N。
例子
假设某分布的平均数μ=50, 如果你的分数是X=53,那么离均差为:X-μ=53-50=3 如果你的分数是X=45,那么离均差为:X-μ=45-50=-5
注意
各离均差加起来和为0。 平均数是分布的一个平衡点。 位于平均数之上的距离之和(正) 刚好等于 位于平均数之下的距离之和(负)。 因此,所有的正向偏离恰好等于所有的负向偏离,全部离均差之和是为0。
作用
因为离均差的和总是为0,其平均数也总是为0,所以把它作为变异性的测量是没有意义的。 具体来说,无论分数是集中靠拢还是广泛分散,它总是0。 然而应注意的是,值恒定为0这一点在其他方面却很有用。无论何时处理离均差,你都可以通过 确认 离均差之和是否为0 来检验你的计算。
步骤3
求 总体方差
把离均差的平均数作为变异性的测量行不通,因为该值总为0。 很明显,该问题是由分布中正负离均差相互抵消导致。 解决此问题的办法是去掉数字前的符号(+和-), 完成此步的标准程序是给每个离均差分数取平方,然后用这些平方后的结果来计算平均数,该均值称为总体方差。
总体方差 或称为 均方差,方差 是 离均差平方 的 均值。
步骤4
求 平均差/开方
记住,我们的目的——是计算分数到平均数的标准距离。 方差是离均差的平方的平均值,并不是我们所确切需要的。 因此,最后一步就是通过简单地计算方差的平方根来得到标准差,测量分数到平均数的标准距离。
知道从 纽约到波士顿的距离的平方 是26244英里并没有什么特别的用处。 但是,当你计算平方根的时候,这个平方值就变得有意义了。 例如,从纽约到波士顿的距离是√26244=162 英里。
标准差是 方差的平方根 ,提供了到平均数的标准距离 或 平均距离的测量方法。
公式
标准差=√方差
例子
计算以下分数个数为5的总体的方差和标准差。(1,9,5,8,7)
1、求总体平均数 30/5=6 2、求 每个分数的 离均差 与 离均差平方 3、求 离均差平方 的 均值 = 方差 = 40/5=8 4、标准差 = √离均差平方的均值 = √方差 = √8 = 2.83
可以对自己的标准差进行估计, 这里最大的离均差是5,最小是1。标准差应该在1-5之间 如果运算超出这个范围,比如求出12,那可能就错了!
总体方差 和 标准差 的 公式
离均差的平方和 / SS
符号 SS 表示 离均差的平方和,简称平方和。
SS 的定义式
第一种公式叫定义式, 是从字面上来定义的, 即把各 离均差的平方 加起来,因而称为定义式。
定义式
SS=∑(X-μ)²
例子
N=4,∑x=8,u=8/4=2 x-u 与 (x-u)² 如列表所示 ss = ∑(x-u)² = 1+4+16+1 = 22
SS 的计算式
定义式不便于使用,特别是当平均数不是整数,离均差值包含有小数或分数时,计算将变得很困难。 因为这些原因,另一种计算 SS的公式得以发展。 这种公式称为计算式,它是采用原始分数(不是离均差)来计算的,因而可以降低小数和分数的复杂性。
计算式
ss = ∑X² - (∑X)²/N
例子
直接代入公式做就行
注意
注意,定义式和计算式求得的 SS的值是一样的,尽管公式看起来不同,但事实上它们是等价的。 定义式是 SS的概念最为直接的表达式,然而,该公式使用起来较困难,尤其是平均数含有小数或分数时。 如果分数较少,且平均数是整数,那么定义式是个不错的选择;否则计算式使用起来更为方便。
可能直接用计算式就挺好~~~
最终公式和符号
方差是 离均差的平方和(ss) 的 平均数
方差
SS/N
标准差
√SS/N
总体标准差 与 总体方差
总体标准差 = σ = √σ² = √SS/N
总体方差 = σ² = SS/N
标准差就是方差的开根,方差就是标准差的平方嘛~
tips
sigma(大写Σ,小写σ) 原来标准差符号和求和符号是同一个,一个大写,一个小写~学习了~
例子
直接代入公式做就行
4.4 样本标准差与方差
推论统计 的目的就是 利用样本中有限的数据 推出总体的大致情况。 由于总体样本的一些极端数据等,样本的变异性 会小于 总体 幸运的是,样本变异的偏差是恒定的,可预测的,这说明它是可以校正的。例如, 如果你车上的速度表总是比你实际行车速度慢5英里,这不能说明你的速度表是没有用的。这仅仅说明你每次读取速度的时候要稍作调整才能得知准确的速度。
公式
样本的离均差平方和
样本与总体的 SS 计算是一样的,有标注方面细小的变化
用M 代替μ 来表示 样本平均数
定义式(总体)
SS=∑(X-μ)²
定义式(样本)
SS=∑(X-M)²
用n 代替 N表示 样本分数的个数
计算式(总体)
ss = ∑X² - (∑X)²/N
计算式(样本)
ss = ∑X² - (∑X)²/n
样本 方差和标准差
这里需要校正样本变异性的偏差
总体
总体方差 = σ² = SS/N
总体标准差 = σ = √σ² = √SS/N
开方
样本
样本方差 = S² = SS/(n-1)
就是总体多减了个1,
样本标准差 = S = √s² = √SS/(n-1)
开方 样本变异性偏小嘛,除的数少点,那不就变大点咯!
例子
用计算式算,所以需要这些数据
计算式
这里是样本,记得n-1
标准差,就是对方差开方就可以~
样本变异性与自由度
自由度
例子
样本3个,你平均数是5, 那前面两个你确实可以随便取(比如2、9), 但最后一个就不可以随意了,得根据前面两个的数字去调整(得是4) 这样才能获得平均数5, 这里自由度就是3-1=2,有2个数可以自由取嘛(2、9),最后一个就不自由了(得是4)
定义
对于一个有n个分数的样本,样本变异的自由度或 df 可定义为:df=n-1。 自由度决定了样本中独立、自由变化的分数数量。
4.5更多关于方差与标准差的内容
在频数分布图 中呈现平均数和标准差
标准差可以一边或者两边都有
作为无偏估计的样本方差
无偏估计
所有 样本方差的平均数 即是对总体方差的精确估计。这就是无偏估计的含义。
如果许多不同样本的样本统计量的平均数 等于 总体参数,那么该样本统计量是无偏的(统计量的平均值来自样本大小为n的所有可能的样本)。 如果 样本统计量的平均数 低估或高估了相应的总体参数,那么该统计量是有偏差的。 就是某个样本统计量如果把他们所有可能性的结果都加起来后的平均数能得出总体的参数,那这个统计量就可以称为无偏估计的~(可看下例子~)
例子
某总体刚好包含6个数,它们是0、0、3、3、9、9。 通过简单地计算可以求得 平均数μ=4 , 方差σ²=14。 要获得n=2的样本,把所有n=2的样本都列出来~(就有9个样本了) 样本方差无偏的话要n-1算,有偏方差那直接用n算(对比一下以便理解~) 把所有样本平均数、方差(包括有偏与无偏)都算出来 发现平均数的平均数36/9=4,与总体一致,是无偏的 发现方差的平均数(n-1)126/9=14,与总体一致,是无偏的 有偏的(n)63/9=7,与总体不符合,是有偏的 样本平均数 和 样本方差(用n—1计算) 两者都是无偏统计的例子, 尽管 单个样本的平均数和方差 不大可能与总体刚好相等。但一般来说,样本平均数和样本方差可以精确地估计对应的总体参数。
有偏与无偏统计量的区别
一般情况下,有偏统计量 意味着 统计值 不能精确地表示 相应的总体参数,统计量的平均值趋向于高估或低估了总体参数。 一般来说,无偏统计量 是相应 总体参数 的 精确代表。
标准差和描述统计
标准差主要是一个描述测量,它描述了分数在分布中的变化和分散状况。 行为科学家必须研究人和动物的变异性。 人并不都是一样的,他们有着不同的态度、见解、天赋、智商和个性。 虽然可以计算这些变量的平均数,但描述其差异性一样重要。 标准差是通过测量到平均数的距离来描述变异性的。 在任一分布中,有些分数将会靠近平均数,其他的将相对地远离平均数,标准差提供的是到 平均数的典型的、标准的 距离。
描述 整体分布
例如,有一个平均数M=36,标准差s=4的样本。 虽然有很多方式呈现这些数据,但是最简单的方法是想象(或绘制)直方图,在图中用方块呈现每一个分数。 一般来说,在分布中大约70%分数距离平均数一个标准差之内,几乎所有的分数(大约95%)距离平均数两个标准差之内。 在这个例子中,到平均数的标准距离是s=4, 大部分方块到平均数的距离在 4 以内(大约70%)(一个标准差内) 几乎所有都在8以内(大约95%)(两个标准差内)
描述 个体分数的位置
分数的相对位置部分 取决于 标准差大小 a是总体分布,b是样本分布 如果某分数比a或者b的平均数大4, 在a上并不能算一个极端值,因为4是标准差8的一半 在b上就能算作一个极端值,因为4是标准差2的一倍
转换尺度
1.每个分值 加上 某常数,不改变 标准差。
如果你把它想成频数分布直方图,这种情况会看得更清楚。 例如,你给每个分数加上5,那么图中的每个分数将向右移动5个单位,整个分布移动到比原分布多5个单位的位置。 注意,平均数同分数一起移动,也增加5个单位。 然而变异性并不因此而改变,原因是所有的离均差(X-u) 没有发生变化。
2.每个分数 乘以 某常数,其标准差也要 乘以同样的常数。
某分布的两个分数, X=41 和 X=43 之间2分的差距 乘2后变为 X=82 和 X=86 之间4分的差距 是原距离的2倍。 每个分数乘以某常数,致使它们之间的距离也乘以某常数,所以标准差也要乘以相同的常数。
方差和推论统计
在推论统计中,样本数据的方差常常被定义为 误差方差。这个术语说明了样本方差代表了分数间不能解释和控制的差异。 总的来说,低变异性说明数据中存在的模式能被清晰地看到, 然而 高变异性使可能存在的任何模式 模糊不清。 其实大概要表达的意思应该就是 低变异性 易看清.. .高变异性 难看清 就是了...
在文献中报告标准差
先了解下,还不知道作用~嘿嘿
学习检查
在平均数是50、标准差是10的总体中,分数 X=58会被认为是极端值(远离平均数而在分布的尾端)吗? 当总体的标准差是3的时候呢?
标准差为 10 时,分数 X-58 将位于分布的中央部分(在1个标准差之内)。 当标准差是3 时,分数 X一58 是极端值,位于离平均数大于2个标准差的位置。
3.某总体平均数是70,标准差是5。 a.如果总体中每个分数都加上10,那么新总体的平均数和标准差是多少呢? b.如果总体中每个分数都乘以2,那么新总体的平均数和标准差是多少呢?
a.新平均数是 80,标准差仍是 5.
b.新平均数是 140,新标准差是 10。
这个方法不错,可以直接简化算数~虽然用工具算也可以不管哈哈,涨知识~
第二部分 推论统计基础
第5章 z分数:分数的位置及标准化分布
5.1 z分数的介绍
根据分数到平均数的标准差来测量分数在一个分布中的位置
运用平均数和标准差把 原始分数(X值) 转化成为 z分数或标准分数, z分数或标准分数 用于描述 每个分数 在分布中的 确切位置。
总体来说,把X值转化为z分数的过程有两大目的
1. 每个z分数告诉我们原始分数在分布中的具体位置。
2. z分数组成的标准化分布 可直接同其他转化为z分数 的分布相比较。
5.2 z分数及其在分布中的位置
z分数 定义
定义
z分数能指出每个X值在分布中的具体位置。 包含两部分(必不可少): 1、z分数的符号(+或-) 表示该分数在平均数之上还是之下, 2、z分数的数字表示该分数到平均数的距离 等于几个标准差。
例子
原始分数76可以转换为 z=+2.00 它代表原始分数 高于平均分(“+”), 且 距离等于2个标准差 (76-70=6 ; 6/3=2)。
那么原始分数X=76可以被转化为 x=+0.50, 它代表原始分数高于平均分(“+”), 但距离仅等于1/2个标准差(76-70=6 ; 6/12=0.5)。
大于平均数的 所有分数的z分数 都是正数, 小于平均数的 所有分数的z分数 都是负数。 z分数的符号可立即告诉你该分数是大于平均数还是小于平均数。 z分数+1.00 表示该分数 距 平均数 刚好一个标准差的距离, z分数+2.00 表示该分数 距 平均数 刚好两个标准差的距离。
学习检查
总体平均数为30、标准差为8,找出下列每个分数的z分数:
X=32
z=+0.25
X=26
z=-0.50
X=42
z=+1.50
思路就是x-u(求出距离), 然后除以标准差(距离等于多少个标准差), 比如32-30=2(求出距离), 2/8=0.25(距离等于多少个标准差), 所以是+0.25(答案)
总体平均数为50、标准差为12,找出对应于下列z分数的X值:
z=-0.25
x=47
z=2.00
x=74
z=0.50
x=56
思路就是z*标准差(求出距离与方向) 把距离加到平均数上(注意方向) 比如-0.25*12= -3(求出距离与方向) -3+50=47
不用太较真思路,如果能直接做出来也不错~不要死板~
z分数 公式
z=(x-u)/σ X-μ是离均差,它测量的是X到平均数的距离,并表明 X值是在平均数之上/之下。 X-μ除以σ是因为我们想以标准差 为单位来衡量 分数与平均数之间的距离。 (其实自己也能推理出)
例子
其实之前算的过程就是公式的过程了,不过公式能更好记住和理解吧~
根据z分数 确定原始分数
定义理解
某分布平均数是 60,标准差是 5,z分数为-3.00,对应的 X值是多少? z分数包含了方向和距离, 方向负号代表平均数之下, 3与标准差相乘得出距离即3*5=15(这个是离均差,即分数离平均数的距离) 然后把60-15=45,得出z=-3.00的时候,对应x值=45
总结公式
X=μ+zσ
公式中,zσ是X的离均差,它决定了原始分数X距平均数的方向和距离大小。 此处离均差是-15,或者说低于平均数15分。 公式简单地把 平均数 和 离均差 相结合 得到X的精确值。
z、X、μ和σ间的关系
在某总体中,平均数是65,某分数X=59 对应的z分数是-2.00。总体的标准差是多少? 59-65知道离均差=-6,z分数是-2.00代表平均数之下的两个标准差的距离,那用离均差除以两标准差即可知道一个标准差的数据即6/2=3,就知道标准差是3了,其实也可以通过公式倒推 z=(x-u) / σ -2=(59-65)/σ -2=-6/σ -6/-2=σ σ=3
有图更好理解~
某总体中标准差是6,某分数是33,对应的z分数是+1.50,那么该总体的平均数是多少? z(+1.50)代表此分数在平均数之上,且离平均数1.5个标准差 z*标准差 = 1.5*6 = 9(求出离均差9) 33-9=24(平均数=24)(注意,此分数是在平均数之上哦,就是平均数在它之后,要用这个分数减去离均差才能得出平均数~) 也可以用公式啦~反正都可以,就省略了
在一个总体分布中,分数 X= 54 对应z=+2.00,分数 X=42 对应x=-1.00。那么该分布的均值和标准差各是多少? 54和42相差了3个标准差嘛,54-42的距离是12嘛,那12有3个标准差的意思嘛,那12/3=4,就知道标准差是4了。 那随便代入一个咯,标准差4,那么x=54的离均差就是2*4=8,54-8=46,46就是平均数啦~
有图更好理解
5.3 使用z分数标准化某分布
z分数的分布具有以下特性
图例
结合图看特性哈!~
特性
1.形状
z分数分布 与 原始分数分布的 形态相同
只是把分数都转换了,位置没变的,所以形态不变的
2.平均数
z分布的平均数 总为0
代入公式直接变零了; 而且本来z分数就是根据平均数作为参照点去建立的嘛,他是最中心的零~
3.标准差
z分布的标准差 总是1
z分数本来就用来代表距离多少个标准差嘛,1个就1个,2个就2个嘛,标准差本身多少不重要,重要是多少个嘛,所以这里是1个作为最基础的~
当任意分布转换成z分数,其结果分布的平均数总为0,标准差总为1。 因为所有的分数分布的平均数和标准差 均相同, 因此z分数分布又被称为标准化分布。
注意
事实上,没有必要创建新的分布,你可以把z转换简单地想成重新标记X值。 也就是说,在z分数转换后你仍得到相同的分布,但现在每个值都是用z分数标记而不是用X值。 直接换数字就行啦~换种标记规则而已~本质没变
标准化分布
标准化分布是由一系列被转换的分数组成的,具有 确定的 平均数和标准差。 标准化分布常被用来比较 不同的分布。
z分数转换的示范
假设一个总体拥有N=6个分数,分别为:0,6,5,2,3,2。 该总体的均值为u=3,标准差为σ=2
把X值转换z分数
1.两个分布具有相同的形态。X的原始分布和z分数分布中具有相同的相对位置 2.进行z分数转换后,分布的均值变为了0 3.进行z分数转换后,分布的标准差变为了1
公式验证(可看可不看...就意义理解差不多了)
用z分数来比较
标准化优点是可以比较 不同的分数或不同的个体,即使它们来自完全不同的分布。 因为所有的z分数分布都有一样的均值(μ=0)和标准差(σ=1)。
例子
小明心理学60分(平均分50,标准差10),生物56(平均分48,标准差4),哪科成绩更好?
方法1
有了这些信息,你可以画出两个分布,并标出 Dave的分数在分布中的位置,进而比较两个分数的位置。
方法2
把两个分数转换成z分数来进行比较
心理学
生物
生物表现更好,因为比平均分高了2个标准差,更右,更高分
5.4 基于z分数的 其他标准化分布
基于z分数可以转换成其他标准的分布 比如一些智力测验平均数100,标准差15,可以根据要求转换
步骤
1.把原始分数转换成z分数。
2.把z分数转换成新的X值,并使其具有特定的平均数和标准差。
例子
某测验原始分数平均数是57,标准差是14 —转成— 平均数50,标准差10(以两同学为例去转换 - M原始分数64;J原始分数43)
步骤1 把每个原始分数 转换成 z分数
M原本64,转换后=+0.5
J原本43,转换后=-1.0
步骤2 把z分数转换成标准化分数
把数据转成平均数为50,标准差是10的要求 比如M标准差是+0.5,就是比平均分高0.5的标准差嘛,把这概念搬到新的分布数据就行,就是在新的要求里也是比平均分高0.5就行,新的平均分是50,标准差是10,那就是50 + 10*0.5=55 J同理,-1.00,搬过去,50 + 10*-1 = 40
把所有分数都转换后,分布还是没变的,大家相对位置都是一样的
学习检查
b处,可以相互转换,其实思路一样的,旧的怎么到新,新的就怎么到旧(位置都不变的呀,大家本质一样的) 新分布X=65,那其实也是求出Z嘛,(65-50)/10 = 15/10 = 1.5 旧分布,1.5*6 + 44 =58
5.5 计算样本的z分数
其实和总体的内容一样的,就是公式字母不同
标准化样本分布
和总体一样的
1.z分数的样本分布的形状与原始分数的样本分布是相同的。
2.z分数的样本分布的均值为0。
3.z分数的样本分布的标准差为1。
注意
样本在求方差的时候,记得SS/n-1哈
其余转换的逻辑与总体一致
方差:(0-3)²+(2-3)²+(4-3)²+(4-3)²+(5-3)² / 5-1 =9+1+1+1+4 / 4 =16/4=4 标准差:√4=2 反正涉及样本的方差计算都记得n-1,这里后面求z分数的方差为了是证明z分布的标准差是1而已
5.6 推论统计展望
研究者会抽取一个样本并对该样本进行处理。 然后,研究者把样本 同 原始总体 进行比较。 如果样本个体明显不同于总体,研究者有证据证明这种处理方法有效。 如果样本个体与总体没有明显的不同,那么很可能该处理无效。
可以通过z分数去判断处理是否有效, 经过注射生长激素的老鼠涨到418。它的z是0.9,并不是极端值,处理不显著 如果是450,它的z是2.50,是极端值,证明处理是有效的。
第6章 概率和正态分布
6.1 概率简介
概率是总体与样本的桥梁
总体通过概率可以推测样本 样本也可以通过概率反推总体
概率 定义
在一种可能有不同结果的情境下,我们将概率定义为任何可能的结果的比例(概率是一种比例)。 如果可能的结果被定义为A、B、C、D等,那么: A的概率=分类为A的结果的数量 / 所有可能结果的数量 符号是: p( ),后面的括号里注明特定的结果。 例如,你从一副纸牌中抽取一张,有52种可能的结果。 抽到红桃K的可能性为p(红桃k)=1/52, 抽到 A的可能是 p(A)=4/52, 因为一副纸牌中有1个红桃k, 4个A。
反正概率是比例,比例也可以是概率啦,同一个事情不同的表达形式而已 当然表达形式不一样哈,比例是xx/xx,概率是xx%,但可以互相转换的。
概率值
就是把比例转换成小数或百分比
p(黑桃)=13/52=1/4=0.25=25%
p(头像)=1/2=0.50=50%
通常,概率值被表示为小数, 但是这三种形式都是可以的。
值域
所有可能的概率值都有一个值域。 在一个极端,如果一个事件永远不可能发生,概率为0或者0% 另一个极端,如果事件总会发生,概率为1或者100% 例如,假设你有一个罐子,里面有10个白球。 抽到黑球的概率为:p(黑球)=0/10=0 抽到白球的概率为:p(白球)=10/10=1
随机抽样
1 简单随机样本要求 总体中的每个个体 有相等的机会被选入样本,
每个个体被选的概率相同,不然不能使用概率的概念, 比如抽取你城市人口的样本时,只去学校或酒吧抽取得到就不是随机样本, 也因为每个结果出现的可能性不相同,这里不可以使用概念的概念
再比如,买彩票,你有两种可能结果,1中了,2不中,看起来好像是p=50%,但这两个可能性不相等(不中的可能性大多了),所以也不可以使用概率的概念
2 且如果样本的数量大于1,则每次选取个体被选中的概率 不变(独立)。
从一副完整的纸牌中选择两张。 第一次,得到方片J的概率为:p(方片J)=1/52(抽完不放回去) 现在,抽第二次,得到方片J的概率是多少呢? 有两种可能; p(方片J) = 1/51 (第一张牌抽的不是方片J。) p(方片J) = 0 (第一张牌抽的是方片J。) 为了保证独立性,第一次抽的卡应该要放回去
所以为了保持每个概率不变,所以要放回样本,这种方法叫放回抽样
但随机抽样还有其他定义,也会出现样本不放回的操作,反正有许多不同的技术
概率和频率分布
我们用很简单的例子,它只有N=10个分数,分数值为:1、1、2、3、3、4、4、4、5、6。 如果你从中选择了一个 n=1的随机样本,得到的分数大于4的概率为多少? 用概率符号表示: p(X>4)=2/10=0.2=20% p(X<5)=8/10=0.8=80%
学习检查
依然是10/40,概率是独立不变的,而且随机抽样 抽出的样本需要放回
6.2 概率和正态分布
正态分布
定义
正态分布是对称的,中间有一个峰。 如果从任何方向远离中心,频数都将减小。 统计学家经常用z分数来定义正态分布的各部分。 我们可以根据比例 定义正态分布,即当且仅当一个分布包含所有正确的比例时,这个分布是正态的。(就是所有正态分布都是这些比例~!) 平均数(z=0)到大于平均数一个标准差(z=1)的部分占了总分数的 34.13%同样,总分数的13.59%在大于平均数1到2个标准差的区间里等。
例子
SAT考试分数符合均值μ=500、标准差σ=100的正态分布。 从该总体中随机抽取样本,其 SAT分数高于700的概率是多少,p(X>700)=? 700分的z是2.00,p(X>700)=p(z>2.00)=2.28%
单位正态分布表(标准正态分布表)
表
有完整的表格(书本在344页),这里截取一部分 可结合右边图理解,左边图里的 A就是z分数 B是主体的比例(z分数会把分布化成两半,大的部分是主体) C是尾端的比例(z分数会把分布化成两半,小的部分是尾端) D是均值 与 z分数 之间分布的比例 主体与尾端的比例相加=1~ 例子 一条在正态分布中 z=+0.25 处的垂直线将分布分为两部分, 大的部分(主体)包括 0.5987(59.87%)分布, 小的部分(尾端)包括 0.401 3(40.13%)分布。 另外,在均值 和 z=+0.25 之间有 0.098 7(9.87%)分布。
注意
1 主体与尾端只和大小有关,与方向无关
不管在左边还是右边,主体总是与分布中大的部分相联系。同理,尾端总是小的部分,而不管它在哪边。
2 正态分布是对称的,左右比例相等
标准正态分布表 不列出负号的z,如果要有得找对应正号的z,反正确定位置后,大的部分就是主体,小的部分就是尾端,然后就能得到相应比率
3 比例总是正的
概率、比例和z分数
为特定的z分数值 找到 比例/概率
正态分布中z分数值大于z=1.00的比例/概率
1、先画出草稿(任何情况都要画个草图,准确非常多!),确定下主体、尾端啥的,尾端是我们要求的范围 2、对照标准正态分布表找z值1的数据,尾端比例是0.158 7 3、所以是p(z>1.00)=0.158 7 / 15.87%
正态分布,选到小于1.50的z分数的概率是多少
这里求主体的数据 p(z<1.50)=0.933 2 / 93.32%
正态分布有多大比例 小于z=-0.50
左右是对称的,找到z=0.5的尾端数据即可 即p(z<-0.50)=0.308 5 / 30.85%
通过特定比例 找相应的 z分数位置
正态分布,哪个z分数值能分割顶端的10%
在C列(尾端)找到10%或者在B列(主体)找到90%,即可找到对应的z 有可能找不到准切的值,但可以找最接近的,比如0.100 3,那么z=1.28 分割10%可以在左或者右,如果在左那么z=-1.28,但我们偏向找右边~
正态分布,哪个z分数值形成了中间的 60%的边界
这里可以用表中的D列 思路1:因为在中间嘛,所以60%左右分别是30%,中间分开的线是均值。 均值到z分数的30% / 0.300 0(表没,最接近是 0.299 5)对应的z分数是0.84, 所以边界分别是-0.84与+0.84 思路2:60%中间,左右分别是20%,找0.200 0(表没,最接近是 0.200 5)尾端对应的z分数也是0.84~
6.3 正态分布中分数的概率和比例
已知一个IQ分数的正态分布,μ=100,σ=15。 根据已知条件,随机选到一个小于120的IQ分数的概率是多少?
先求出120的z分数,(120-100)/15=1.33 即要求p(X<120),左边阴影部分,是主体,查表中的B列 p(X<120)= 0.908 2(或 90.82%)
找到位于 两个分数间的分数的 概率/比例
公路部门进行了一项研究,测量了当地州际公路的驾驶速度。 他们得到的平均速度是μ=58 英里/小时,标准差是σ=10,分布大致是正态的。
根据已知条件,多少比例的汽车以 55~65英里/小时 的速度行驶?
求55与65的z值,分别是-0.30与+0.70 可以用主体与尾端来求,也可以用分数到均值间来求。 -0.30与+0.70到均值的概率分别为0.1179和0.2580。 相加起来就是阴影部分,即 p(55<X<65)=p(-0.30<z<+0.70)=0.117 9+0.258 0= 0.375 9
根据已知条件,多少比例的汽车以 65~75英里/小时 的速度行驶?
65、75 的z分数 = 0.70、1.70 1、用75到均值的比例 - 65到均值的比例,即 p(65<X<75)=p(0.70<z<1.70)= 0.197 40.4554-0.2580=0.1974 or 2、用0.70的尾端-1.70的尾端,即 p(65<X<75)=p(0.70<z<1.70)= 0.2420-0.0446=0.1974
找到与特定比例或概率 相联系的分数
美国人口统计局(2005)报告显示,美国人每天上班花费的时间均值为μ=24.3分钟,假设该分布服从标准差σ=10 分钟的正态分布
那么你每天至少花费多长时间上班才能进入最高的10%范围?
要求的是阴影部分(尾端),大于10%嘛,然后通过尾端10%找z值 最接近的是0.1003,对应的A列的z分数是1.28,根据题意知道z分数是高于平均数(最高的10%嘛),即符号为+ 通过z分数,反求x值,即1.28x10 + 24.3=37.1
分布中部 90%范围的分数是?
多种思路,可以用主体或尾端,或分数到均值间求,例题用分数与均值间求 中间90%,意味着两边都是45%,但是最接近45%的是0.4495和0.450 5,理论上都可以,但0.4505可以涵盖45%,所以选用0.4505(但都可以哈) 通过表D列找0.4505对应的z分数是1.65,即左边是-1.65,右边是+1.65 然后把z分数转换成X, 左边:-1.65*10 + 24.3 = 7.8 右边:1.65*10 + 24.3 = 40.8 那么该分布中间 90%部分界于分数7.8至40.8之间。 因此,90%美国人每天上班花费的时间在7.8到40.8分钟之间。 仅有10%人花费的时间少于或多于这个范围。(不要和上面例子的混了,这里说的是1-90%后剩下的人,即左右各有5%,上面题目关注的是高于10%的,反正不要扯在一起就行)
概率、比例和百分等级
百分等级 定义
一个特定分数的百分等级被定义为分布中小于或者等于这个特定分数的个体占多少百 分比。(就是某个分数包括它即以下占有多少百分比)
例如,个体中 等于或者低于 X=45的占有 70% ,那么,45分的百分等级是70%
百分位数 定义
当一个分数 用它的百分等级表示时,它叫做百分位数
例如,x=45的百分等级是70% x=45被叫做第70百分位数。
一些问题可以换个方式问
“随机选到一个小于120的IQ分数的概率是多少?” 相同的问题可以被表述为: “IQ分数为120的百分等级是多少?”(即少于且等于 120 的概率多少) 在例子中,我们找到与小于等于120分相联系的分布中的比例。
“在美国人上班时间分布中达到最高的10%分数是多少?”(也可以理解为,处于百分等级90的数大于90%,即达到最高的10%了嘛~) 因为这个分数将最高10%与剩下的90%分离开来,这个问题可以被重新表述为: “上班时间分布的第90百分位数是多少?”(这里处于百分位数90%的是37.1,所以90百分位数的是37.1)
百分等级描述的是,这个数及其他数以下 占比多少 百分位数则是用“百分等级”描述这个数,描述这个数处在何等级 就是同一件事两个方向嘛
学习检查
记得画图,正态分布两边分别是50%嘛,这个60%的话,就到左边了,所以z分数是负数哦~~其实不难~
哈哈...这是正偏态..你算个屁呢...哈哈哈...有趣这出题..
6.4 推论统计展望
上一章我们用超过z分数=± 2.00 作为处理效应的检验,但这是不严谨的 用概率会更好。我们可以设置"边界"中间95%即为高频率值,而5%是极端值(即两边各2.5%,都是尾端) 0.025对应的z分数是1.96,即两边的分界线是-1.96与1.96 只要数据超过了 ± 1.96,那么都可以看作是极端数据,极不可能出现的(p=0.05or更小) 也就是说如果一个接受处理的被试在z=±1.96 边界之外,我们能有把握地说这个被试显著不同于 原始总体,即它提供了实验存在处理效应的证据。
表的数据~看看咯~
第7章 概率和样本:样本均值的分布
7.1 样本和总体
抽样误差
抽样误差是 样本统计量 与 相关的总体参数 间的 差异或者误差 总和。
怎样才能确定哪个样本是对总体最好的描述? 你能预测一个样本有多好地描述了总体吗? 一旦我们建立了样本与总体联系的规则,这些问题就能被很好地回答了。
7.2 样本均值的分布
抽样分布 定义
抽样分布是 通过从总体中 选择一定大小的随机样本得到的统计量的分布。 就是通过样本来的分布嘛,抽样的分布嘛~
样本均值的分布 是抽样分布的一个特例。事实上,它经常被叫做M的抽样分布。
样本均值的分布 定义
样本均值的分布是 所有来自总体的样本量 为n 的随机样本的样本均值 的分布。(就是所有可能样本的均值的分布)(直接看下面的实例去理解也可以)
预测样本特性的能力 基于 样本均值的分布。
样本均值的分布包括了所有可能的样本
如果你想要建立样本均值的分布,你首先要从总体中选择一个样本量为n的随机样本,计算样本均值,然后将它写在一张纸上。接着从总体中选择另一个样本量为n的随机样本,同样计算样本均值并将它写下来。重复以上的过程。最后,你将得到一系列可能的随机样本,你在纸上写下的均值将会形成样本均值的分布。
样本均值的分布 特征
1.样本均值 围绕 总体均值 分布。
样本并不能完全等同于总体,但是样本是能代表总体的。 因此,大多数的样本均值大致等于总体均值。
2.样本均值的分布 大致是正态的。
从逻辑上来看,大多数样本的均值都 接近于总体均值,仅有少部分的样本均值 明显偏离总体均值。 因此,样本均值应围绕在总体分布的中心位置(总体均值),且其频数应随着与总体均值 的距离增大 而降低。这是一种正态形状的分布。 就是说大部分样本的均值是靠近总体均值的,少部分远离,那就导致分布是中间多,两边少嘛,那就是正态分布的形状
3.一般来说,样本量越大,样本均值 越接近 总体均值。
从逻辑上来看,大样本应比小样本更能代表 总体。 因此,大样本的样本均值应 更向总体均值 靠拢; 而小样本的样本均值的分布应该更分散。
样本均值的分布 实例
考虑一个只包括4个分数的总体:2,4,6,8。
取n=2的样本,把所有可能样本列出来,并求样本均值 以上就是样本均值的分布
如果n=1,标准误=总体标准差,我理解的意思是,n=1的样本均值分布的话,取哪一个样本都有可能在总体分布任意位置中出现嘛,那误差就很大吧,很散。 如果n=max,那它的标准误就可以进一步缩小了,就很集中在中心了,抽出的均值和总体的均值基本是相同的了,但其实还会有一定误差,因为标准误是源于“抽样”时候的误差~(就是你抽的时候总会有点小混乱还是啥的)
建立频数分布柱状图,发觉符合特征1、2,即围绕中心与正态分布
中心极限定理
中心极限定理
对于任何 均值为μ,标准差为σ 的 总体, 样本大小为n的样本均值的分布的均值 为 μ, 标准差为σ/√n,(就是所有样本均值分布后 它们的均值与标准差) 并且当n(样本容量)趋近于无穷大时,接近 正态分布。
定理的 价值
第一,它描述了任何总体的 样本均值的分布,而不管 总体的形状、均值、标准差。
第二,样本均值分布非常接近正态分布。当样本大小达到n=30时,分布几乎是很标准的正态了。
中心极限定理通过定义 分布的三个基本特性:形状集中趋势、变异,来描述样本均值的分布。
样本均值的分布的形状
满足 任一条件,都是标准的正态分布
1.样本来自的总体是正态分布。
2.样本大小n相对较大,大于或等于30。(达到这个条件,原始总体无论形状如何,样本分布几乎都是标准的正态分布了)
样本均值分布的均值:M的期望值
样本均值的分布的均值 总是等同于 总体均值。这个均值被叫做M的期望值(就是样本均值分布的均值就是 M的期望值)。 就常识而言,样本均值被“期望”接近 总体均值。(我们肯定期望样本均值接近总体均值啊,那代表误差小啊,兄弟!所以叫期望值嘛!) 当我们得到所有可能的样本均值时,其平均值将与μ(总体均值) 等同。
样本均值是无偏统计量的例子,它意味着平均起来样本统计量的值 与 相关的总体参数 等同。在这里,所有样本均值的平均数 与 μ 等同。
样本均值分布的标准差:M的标准误 就是样本均值分布的标准差的另一种称呼就是M的标准误,注意字眼
定义
标准误 描述 样本均值能 多大程度代表 未知总体均值的推论性统计量
这个好~
标准误测量了一个 样本统计量 精确代表 总体参数 的 程度。
这个好!
样本均值分布的标准差σM 被称为 M的标准误。(他是样本均值分布的标准差啊!不是总体标准差哈!注意一下~) 标准误测量了偶然因素(抽样误差)造成的 M(样本均值) 和 μ(总体均值) 之间差异的 平均量(差异的典型程度)(可以不用管这个平均量啥意思,就理解为样本和总体均值的差异就是xx平均量就可以~xx就是标准误,你当作一个单位就可以)
标准误(Standard Error)是一个统计学概念,它衡量的是样本均值(M)与总体均值(μ)之间差异的程度。 标准误主要用于描述样本均值的不确定性,即抽样过程中随机波动的影响。 在实际应用中,我们通常使用样本均值来估计总体均值。然而,由于抽样过程中的随机性,样本均值可能与总体均值存在差异。标准误就是用来衡量这种差异的程度的。它反映了样本均值与总体均值之间差异的典型程度,帮助我们了解抽样过程中随机波动的影响。
标准误符号
样本统计量和对应的总体参数之间总是存在一些差异或误差。 现在我们能够精确地计算 误差有多大。 对于任意样本量(n),我们能够计算标准误,测量样本均值和总体均值之间的平 均误差。
哦,那就可以通过标准误的公式直接求某个样本均值分布的标准差(标准误)了呀!
实在对标准误的一些概念不理解就算了,后面知道怎么运用就好了,慢慢来吧~
好像慢慢理解了~
新思路,这是后面章节的d分数(检测效应大小的) 我可不可以理解就是这个标准误实际上类似这个,就是样本均值在总体均值这里左右移动呢?小的话就靠近总体均值那就标准嘛,大了的话,就远离总体均值那就差异大了嘛~
作用
1.标准误 描述了 样本均值的分布。
它提供了对 各样本之间的变异 的测量。 当标准误很小时,说明所有的样本均值都很接近。 当标准误很大时,说明样本均值的分布比较分散,各样本之间的变异 很大。
2.标准误 测量了一个样本 能否较好地代表 总体的分布。
标准误测量了一个样本能否较好地代表整个分布。 它提供了对样本均值和整个分布的均值之间距离的合理性的测量。 但是,由于整个分布的均值等于μ,标准误也能提供某样本均值(M)与总体均值(μ)之间的距离。 说明一个样本均值在 多大程度上准确估计了 总体均值,即μ和M之间有多少误差。
标准误的大小 由两个因素决定
样本量
我们从直觉上可以推测,样本大小将影响到样本代表总体的准确性。 特别地,一个大样本 应当比一个小样本更准确。 总的来说,随着样本大小的增加,样本均值 和 总体均值 之间的误差 减小。 这个规则被叫做大数法则。
总体标准差
如果样本n=1的时候,样本均值的分布就是原本的分布(1个数自己的平均值就是它自己呗,就是把所有数重新列了一遍嘛~),这时候出现了最小的样本量和最大的标准误,而且这时候的 标准误=总体分布的标准差, 可以把标准差看作标准误的起点(就是最大的标准误就是标准差,随着样本增加,标准误会越来越小,目前不用过度联系标准误和标准差的关系,就姑且理解是一种巧合嘛~) n越大,标准误越小,
样本量越大,标准误越小, 最大的标准误是样本量仅为1的时候,这时候标准误等于总体的标准差; 研究者可以通过增加样本量到n=30左右来减小标准误。 但是,当样本量增加到30 以上后,再增加样本量对于提高样本的代表性的作用就不是很大了。
公式
1、标准误 = σM = σ / √n
注意,这个公式满足了标准误概念的所有要求。 a.随着样本量(n)增加,标准误 减小。(样本量越大越精确。) b.当n=1时,标准误 等于 标准差。
2、标准误 = σM = σ / √n = √σ² / √n = √a²/n(标准差=方差的开方嘛)
三个不同的分布
1.首先,分数的原始分布。
这个总体包含成千上万的个体数据,并拥有自己的形状、均值和标准差。 例如,IQ分数的总体包含上百万个体的IQ分数,呈正态分布,均值为μ=100,标准差为σ=15。
2.其次,从该总体中抽取的样本分布。
样本包含抽取到的用来代表 总体的个体的分数。 例如,我们抽取一个样本量n=25的样本,所得到的 25个IQ分数就构成了一个频数分布,我们能从中计算样本均值和样本标准差。注意,这个样本也有自己的形状、均值和标准差。
3.第三个分布是样本均值的分布。
这是对于某个特定样本量的所有可能的随机样本的样本均值的理论分布。 例如,样本量n=25的IQ分数的样本均值(b的均值) 服从 均值(期望)μ=100, 标准差(标准误)σM=15/√25=3的正态分布(c的均值)。它同样拥有自己的形状、均值和标准差。 b的样本均值与其他所有n=25的样本均值共同组成样本均值的分布。
某个样本的分数(b)是从总体分布(a)中得到的, 这一样本的均值(b)是样本均值的分布(c)中的一个值。 因此,这三个分布是相互联系的,但又是不同的。
学习检查
一个均值为65,标准差为16的总体。
a.描述来自该总体的n=4的样本均值的分布。(描述形状、集中趋势和分布的变异。)
b.描述来自该总体的n=64的样本均值的分布。(描述形状、集中趋势和分布的变异。)
对于一个均值为40、标准差为8的总体,其样本均值的标准误不可能大于8。(判断正误)
对,因为如果n=1,标准误最多也就是8
7.3 概率和样本均值的分布
样本均值的分布 呈现了所有可能的M
SAT分数形成了一个均值为 500,标准差为100的正态分布。 如果你抽取了一个n=25的随机样本,样本均值大于M=540的概率是多少?
基于 中心极限定理
a.因为 SAT分数的总体是正态的,所以样本均值的分布也是正态的。(or取样大于或等于30)
b.因为总体均值是 500,所以样本均值分布的均值也是500。(M的期望值)
c.分布的标准差是 20(M的标准误)
公式过程
求概率
我们对阴影部分感兴趣,和之前z分数求概率一样 求出z分:540-500 / 20= 2(标准误的用法和标准差一样,其实标准误就是标准差,只不过是属于这个样本均值分布的标准差而已,然后用标准误给予称呼而已) 因为是正态分布,可以用表找出z分为2的尾端的概率:p=0.0228(2.28%) 即,抽取了一个n=25的随机样本,样本均值大于M=540的概率是2.28%
样本均值的z分数
概述
每个M 在 样本均值分布 中的位置 能用z分数定义(样本均值分布 是由 全部M 组成的嘛,可以用z分数看 某个M 在 样本均值分布 的位置) 其实和之前学习的差不多,只是换了些符号
例子
SAT的分数形成了一个均值为 500,标准差为 100的正态分布。 如果抽取n=25的随机样本,最有可能得到哪种 样本均值(确定80%的范围)。
首先期望值肯定=500的, 也能知道标准误=100/√25=20 80%的范围则左、右各40%,通过分数到均值间那列可找到z=±-1.28 即可知道 ±-1.28=x-500/20,那x=474.4与525.6(或者20 x ±1.28 + 500也可得到474.4与525.6) 所以可能得到样本均值从474.4到525.6 也即:如果我们选择一个n=25名学生的样本,我们能有80%自信说,样本的平均分数在474.4到525.6这个范围内。
7.4 更多关于标准误的知识
标准差与标准误的区别
看来是有点难理解,嘿嘿~不过实在抓不准,就用标准误咯~
抽样误差与标准误
1、抽样误差:样本的统计量与总体参数间 总会出现一些偏差,如图中每个小方柱,有50%的样本均值会低估总体均值,也有50%的样本均值会高估总体均值。 2、标准误:一些样本围绕中心相对精准,另一些离中心远的则较不精准。 标准误提供了一种测量 样本均值和总体均值之间平均或者标准距离 的方法。 因此,标准误提供了一种定义和测量 抽样误差的方法。 标准误向研究者们解释了他们的样本数据 有多准确地代表了 所研究的总体。 例如,在很多研究情境中,总体均值是未知的,研究者选择一个样本来得到关于未知总体的信息。样本均值 提供了关于未知的总体均值 的信息。
例子
近期对当地一所大学的学生所做的调查包含如下问题:你每天观看电子视频(网络、电视手机、平板等)的时间是多少? 得到的调查结果显示平均为μ=80分钟,且该分布服从标准差σ=20的近似正态分布。 我们从这一总体中抽取一个样本,并想要知道样本均值 代表 总体均值 的准确性。 具体来说,我们想知道下面三个不同样本量的样本代表总体的准确性 分别如何: 三个样本的样本量分别为n=1、n=4、n=100。
当样本只包含一个学生,其样本均值就等于学生的分数,即M=X。 因此当n=1,样本均值的分布 等同于 原始总体的分布。 这里样本均值的分布的标准误 就等于 原始总体分布的标准差。 (σM = σ/√n = 20/√1 = 20) 期望样本均值 和 总体均值之间的 平均差异为 20分
σM = σ/√n = 20/√4 = 10 也就是说,M和μ之间的标准距离为 10分。 你会注意到,该分布的样本均值比起 n=1 时更接近 总体均值。
σM = σ/√n = 20/√100 = 2 n=100的样本比起n=4或n=1的样本,其样本均值能够更准确地代表总体均值。 当n=100时,M与μ之间的误差非常小。具体来说,总体均值和样本均值之间的平均差距只有2分。
都是正态分布,你脑海中复现的那个可能是标准正态分布,就是均值0、标准差1的,正态分布根据标准差不同也会有宽窄的区别 总的来说,这个例子说明了在最小的样本量(n=1)下,标准误和总体标准差是相同的。当样本量 增大,标准误随之减小,样本均值就更接近 μ。
报告标准误
科学杂志在提到标准误时有所区别,但是都使用符号 SE 和 SEM(均值的标准误)。
不同的报告图
报告的是标准误
长方形是均值, 那个丨——丨,是标准误的浮动范围,这里标准误是5,即-5 到 +5 的范围 这样不仅能看到均值,还能看到他的误差范围~
黑点是均值 上下浮动的是标准误
7.5 推论统计展望
对以下两者进行比较(可以任意取n=25的,样本均值的分布包括了所有n=25的): a.处理组:接受实验处理的样本。(这组需要处理后保留,拿来比较嘛~) b.未处理组:未接受处理的样本。(这组好像不用特意选取,因为求出来的标准误就适用所有n=25的样本~) 如果 处理组样本 显著不同于 未处理组,那么我们将有证据证明处理 有作用。 另外,如果我们的 处理样本 与 未处理样本 相似,那么我们会得出结论,处理看起来没有任何作用。 样本均值的分布和标准误能帮助研究者作出这个决定。
n=25只 未处理样本的 样本均值的分布 将有以下特征: 1.因为原始总体是正态的,它是正态的。 2.因为总体均值是400,它的期望值是400。 3.因为总体标准差是 20,样本大小是n=25,它的标准误是σM=20/√25=20/5=4 我们可以用z分数,给样本均值加个范围,比如确定95%(左右47.5%),根据z分数找到临界值 -1.96 —— +1.96,对应样本均值的 392.16和407.84 因此,未处理样本 几乎保证了(95%可能) 样本均值在 392.16~407.84 然后求 处理后的样本均值,如果在392.16~407.84间,那处理无效,因为没什么不同 如果落在这个392.16~407.84外的,处理则有效~
学习检查
2.一个总体是均值为40,标准差为8的正态分布。
a.从该总体中抽取n=16的样本,其样本均值为M=36。那么这是一个相对典型的样本,还是一个极端的样本?解释你的答案。
这里n=16的标准误是2,但注意,这里比较的是 M=36 与 样本均值分布(u=40) 的相对位置,即要用(36-40)/2=-4/2=-2。 M=36是样本均值分布的其中一个样本均值而已,要比较的是他们俩的关系~
4.从一个均值μ=50,标准差σ=12的正态分布中抽取一个n=16的样本。该样本经实验处理后的样本均值为M=57。这个样本均值能否说明实验处理的有效性?特别地,该样本均值处在95%可能范围内吗?
这里求出95%范围内是44.12-55.88(+/-1.96 x 3 + ),处理样本均值是57,不在这个区间,所以处理有效
随机抽取一个分数,这个等于抽取一个n=1的样本嘛~灵活变通点~
我们同时运用样本均值的分布、z分数和概率来提供对未处理样本的合理期望值的描述。 然后,我们通过处理组样本 是否显著不同于 未处理组样本 来评价实验处理是否有效。 这个过程构成了假设检验这一推论统计方法的基础,假设检验在第8章会有所介绍,并贯穿于教材余下的内容中。
第8章 假设检验介绍
8.1 假设检验的逻辑
假设检验 定义
假设检验是一种统计方法,它使用样本数据来评估 一个关于总体参数的假设。
假设检验主要用于研究的前后。 即一个研究者完成了一项研究,然后使用假设检验来评价结果。
假设检验 逻辑
1.首先,我们提出一个关于总体的假设。
通常,假设 关注于总体参数的值。 如,我们可能假设在每年的感恩节和新年期间,美国成年人的体重平均增加μ=7磅。
2.在选择一个样本之前,我们利用假设来预测 样本应当有的特质。
例如,如果假设总体均值μ=7磅,那么,我们可以预测 样本均值将在7磅左右。 记住,样本应当与总体相似,但总会有一定的误差。
3.接下来我们从总体中得到一个随机样本。
例如,我们可以在美国成年人中选择一个n=200的随机样本,计算他们体重变化的平均值。
4.最后,我们比较得到的样本数据 和 做出的假设。
如果样本均值与预测一致,我们将得出结论,假设是合理的。 如果数据和预测之间有较大的差异,我们认为假设是错误的。
未知总体
研究的目的是确定对 总体中每个个体 进行处理后 会发生什么。 为了简化假设检验的情境,我们对处理效应作了一个基本假设:如果处理效应 存在,每个个体的分数会 增加/减少一个常量。 每个分数 增加/减少一个常量 仅仅会改变 平均数,不会改变 总体分布的形状、标准差。因此,我们假设 处理后的总体 与 原始总体 有相同的形状和标准差。
研究中的样本
虽然假设检验目的是研究总体每个个体效应,但太大,所以要选择一个样本研究(除非你可以对整个总体进行检测...) 从已知的原始总体 抽取一个样本进行处理(左) 通过 处理后的样本 去推断 未知处理后的总体(右), 处理后的样本 与 未知的处理后的总体 所得到的样本 是等价的 假设检验 就是用右边的接受处理后的样本 来检验图中 未知的处理后总体 的 假设。
假设检验 步骤
检验对大脑顶叶进行电流刺激是否对学习数学有帮助, 总体在该测验得到的分数为正态分布,平均数为μ=80,标准差为σ=20。 研究者计划得到一个n=25的样本
第一步:提出假设
根据总体参数 提出两个相反的假设(只能对一个,不能并存)
注意:两个假设是根据 总体参数 提出的。
1、虚无假设/原假设
处理后没有效应,总体中没有 变化、区别、关系。 即在一个实验中,H0 预测 自变量(处理) 对 因变量 没有作用。 虚无假设的符号是H0(H代表假设,0代表零作用,即虚无)
例子中的虚无假设是,大脑受到的电流刺激对学生总体的数学学习技巧没有影响。 符号表示是:H0:μ有刺激=80 (即使有刺激,测验的平均成绩仍为80。即没效果嘛)
2、备择假设/科学假设
备择假设(H1)指出,总体存在 变化、区别或者关系。 在实验中,H1预测 自变量(处理) 对 因变量 有作用。
例子中备择假设,预测刺激影响学生总体数学的学习,从而引起 平均分的变化。 符号表示是:H1:μ有刺激 ≠ 80 (因为有刺激,平均分不等于80。)
有刺激不代表有方向,就是不确定是正向还是负向的影响(无方向的检验), 也可以进行有方向的检验,如,研究者可以假设刺激能 提高测验的平均分(μ>80)。
第二步:为下结论 设立标准
概述
研究者最后将使用样本的数据来评价 虚无假设 的可信性。 如果数据和假设间存在很大的差异(即有效应咯),研究者将得出结论,虚无假设是错误的。反之,正确
对于我们的例子,零假设/虚无假设认为刺激没有作用,总体均值仍为μ=80。 如果该假设为真,则样本的均值应在80左右。 如果虚无假设为假,样本均值则显然不等于80。
本例是虚无假设为真时(μ有刺激=80),n=25的样本均值分布 样本均值分布被分为两个部分,如图, 1、高概率(H0为真时 可能得到的样本均值,即 接近 虚无假设的总体均值;) 2、低概率(H0为真时 不可能得到的样本均值,即不接近 虚无假设的总体均值。) 这样就可以通过求样本均值 与 虚无假设进行比较,从而得出虚无假设是否正确了。
α水平
为了找到区分 高概率样本和低概率样本的 界限,我们通过选择一个特别的概率值来达到,它被叫做 假设检验的显著性水平或者α水平。
α值是一个小概率,它用来确定 低概率的样本(α值就是属于非常不可能的结果~落在这就可以拒绝虚无假设了,就是,这么不可能的结果都发生了,那就是处理效应出现啦~)。 经常使用的a水平是 α=0.05(5%) α=0.01(1%) α=0.001(0.1%) 例如,当a=0.05时,我们的样本均值的分布就分为高概率区(95%)和低概率区(5%)了
α水平 提供了 拒绝域 ,如果样本均值落在拒绝域,虚无假设不成真(即处理是有效果的),反之,成真(处理无效果)
拒绝域的界限
为了确定 拒绝域界限 的确切位置,我们将使用α水平概率和单位正态分布表。
例子
例如,α=0.05,即5%嘛,左右各一个就是左右各2.5%,中间就是95%, 我们可以通过尾端等于2.5%查到z分数是1.96。即左右是-1.96和1.96 所以如果数据<-1.96,或者>1.96,那就是落在拒绝域啦~ tips: z分数越小,其实越靠近 均值,更接近 高概率区 z分数越大,其实越远离 均值,更接近 低概率区
学习检验
如果一个研究者在a=0.02水平下进行假设检验,那么拒绝域的界限值z等于多少?
注意,a是被分成左右两端的,去查表的时候,别忘记除2,所以这里应该查0.01的尾端,即z=+/- 2.33
第三步:收集数据,计算样本统计量
概述
就是对样本 进行操作 然后获取数据呗,注意这步得在假设和决策标准后,不然可能就为了结果去修改决策标准(事实上...应该不少吧,,,) 通过数据获取样本均值
比较数据和假设(假设检验的核心)
通过对比样本均值相对于H0假设的总体均值的位置(即z分数)来完成比较,即看是否落在拒绝域 通过比较 处理的样本 和 未处理的样本组成的样本均值分布/H0所假设总体的样本均值分布 做出决定 H0假设的总体均值也是基于H0假设的样本均值分布的期望值呀,所以可以求出样本均值的相对位置,也就是靠不靠近这个总体均值咯~
求z分数 公式
分子:测量 数据 和 假设之间 有多大的区别 分母:测量 样本均值(处理样本均值) 和 总体均值(H0假设的总体均值) 间的标准距离。 H0是对 未知的处理后的总体 提出假设哦~别忘记~ 和之前求z的本质一样
第四步:下结论
1.样本数据 在 拒绝域
样本和 H0不一致,拒绝H0。 即处理对于样本中的个体确实存在作用。
例子
假设例子中学生样本接受电刺激后的均值M=89(忘记题目可以看看标注) 标准误是20/√25=4 求该M的Z分数 = (89-80) / 4 = 2.25 决策决定α=0.05,界限是-1.96与1.96,2.25>1.96(落在拒绝域) 所以与虚无假设不一致,即处理有效 - 对脑的电刺激对数学技巧的学习有作用。
总体在该测验得到的分数为正态分布,平均数为μ=80,标准差为σ=20。 研究者计划得到一个n=25的样本
2.样本数据 不在 拒绝域
数据合理地接近H0(在分布中间),不能拒绝虚无假设。 这个结论意味着处理显得没有作用。
例子
假设例子中学生样本接受电刺激后的均值M=84 z=(84-80) / 4 = 1,并不在拒绝域 与虚无假设不一致,即处理无效 - 对脑的电刺激对数学技巧的学习没有作用。
一般来说,我们通过比较 处理的样本 和 未处理的样本组成的样本均值分布(H0所假设就是没有处理效应嘛,其实是同一个含义) 做出决定。 如果处理后的样本和没有接受脑电刺激的样本是一样的,我们可以得出结论处理没有作用。 另一方面,如果处理后的样本明显不同于大部分未处理的样本,则我们认为处理有作用。
8.2 假设检验中的不确定性和误差
在一个假设检验中,可能会犯两种不同的错误。
第一类错误
定义
当研究者在 虚无假设为真 时拒绝 虚无假设,就发生了第一类错误。 第一类错误意味着当处理效应不存在时,研究者得出结论,处理效应存在。
严重结果的错误~因为本来不存在处理效应你却说有,无中生有,如果其他人听取了,会造成资源浪费
例子
例如,在之前的部分中,我们考察增加脑部顶叶刺激影响新的数学技能学习的研究。假设研究者选择了一个n=25的学生样本,这些学生在学习之前就已经有了高于平均水平的数学技能。即使刺激(处理)没有作用,这些学生仍会在标准化的测验中取得更高的分数。在这种情况下,研究者很可能得出结论,处理效应 存在。而实际上它不存在。这就叫做第一类错误。
第一类错误发生的概率
当研究者在不知情的情况下使用了一个极端的、没有代表性的样本的时候,就会犯第一类错误。 假设检验的α水平是 虚无假设为真时,导致 第一类错误的概率(没有处理效应时,样本数据 却落在拒绝域的概率)。 α水平 决定了犯第一类错误的概率。(可以设严格点,那就减少犯错的概率)
第二类错误
定义
当研究者没有拒绝 错误的虚无假设时,就发生了第二类错误。 研究情境中,第二类错误意味着假设检验不能识别 一个真正存在的处理效应。
没那么严重结果的错误~最多说没效或者效果少嘛,起码不会造成过多的资源浪费啥的~
例子
第二类错误意味着研究数据没有显示出研究者希望得到的结果。研究者可以接受这个结果,得出结论说处理效应不存在或者是处理只有很小的效应,不值得研究。或者,研究者也可以重复实验(通常要经过改进,例如增加样本量),然后试着证明处理效应真的存在。
第二类错误发生的概率
不像第一类错误,我们不能为第二类错误确定一个单独的确切的概率值。 第二类错误的概率取决于许多因素,是一个函数,而不是一个特定的数值。 虽然如此,第二类错误的概率也可以用希腊字母β表示。
没有却说有,第一类错误; 有了却说没,第二类错误;
选择一个α水平
两个非常重要的功能
1 α通过定义非常不可能的结果,帮助我们确定了拒绝域的界限。
2 α决定了在 虚无假设为真时 第一类错误的概率。
最主要的关注点
最主要的关注点是,通过选择α的值来减小第一类错误的概率。 因此,α水平应当是一个很小的值。根据惯例,最大的允许值是α=0.05。当不存在处理效应时,a水平为0.05意味着有5%危险,或者1/20的概率拒绝虚无假设,犯第一类错误。 因为犯第一类错误的后果很严重,很多研究者和科学出版物要求更严格的α水平,例如0.01或者0.001来减小一个错误的报告被发表成为部分科学成果的风险。
当α水平减小时 拒绝域的界限是如何移开的
越小 越靠边 拒绝域越小,需要的处理效应越大 α水平为005、0.01、0.001被认为是很合理、很好的值,因为它们提供了一个相对小的错误概率并且没有对研究结果有过多严格的要求。
8.3 关于假设检验
假设检验小结
假设检验的4个步骤 结合8.1的假设检验 步骤
步骤1 提出假设,选择α水平
对于上面例子,没有处理的总体的平均测验成绩为μ=80,σ=20。 因此,假设如下: H0:μ有刺激=80 (脑部刺激没有效果) H1:μ有刺激≠80 (脑部刺激有效果) 我们设定a=0.05。
步骤2 定位拒绝域
当α=0.05时,那些x分数值超过 ±1.96 的样本均值形成了检验的拒绝域。
步骤3 计算检验统计量(z分数)
步骤4 做出决定
根据z分数是否落在拒绝域中,对虚无假设做出判断
假设检验的报告
发表假设检验的结果有一个特别的术语和符号系统。 例如,当你阅读一本科学杂志时,它不会明确地告诉你研究者用z分数和α水平为0.05的检验统计来评价数据,也不会告诉你“拒绝虚无假设”。 你将看到与下面类似的表述: 对顶叶的电刺激对数学测验成绩有显著的作用,z=2.25,p<0.05(右边探讨这三个的意思)。
显著
当虚无假设,极不可能的结果 发生时(落在拒绝域,就是有处理效应),我们说一个结果显著,或者统计上显著。 即 假设检验的结果是拒绝 Ho,那么处理效应显著。
z=2.25
表示z分数作为检验统计量,被用来评价 样本数据,它的值为2.25。(一般α=0.05的话,界限是±1.96,超过1.96就可以~)
p<0.05
这部分描述是确定用做假设检验的α水平的传统方法。 它同样是犯第一类错误的可能性(概率)。 更明确地说,研究者报告处理有效应时,也承认这是一个可能错误的报告。 即尽管脑部刺激没有作用,样本均值也有可能落在拒绝域中。 p实际上就是z值对应的尾端概率嘛~
在统计结果不能拒绝H0时,报告可以这样表述:
样本数据没有提供足够的证据证明脑部刺激对数学测验成绩有作用,z=1.30,p>0.05。(一般α=0.05的话,界限是±1.96,这里没超过1.96~)
区别p的方向
p>α,就是说没落在拒绝域,不能拒绝虚无假设嘛,它落在高概率区 p<α,就是说落在拒绝域了,它能拒绝虚无假设嘛,它落在低概率区 p>α 就是 z分数的概率 大于 α的概率,所以落在了高概率区,不是极不可能事件嘛,所以不能拒绝虚无假设 p<α 就是 z分数的概率 小于 α的概率,所以落在了低概率区,就是极不可能事件嘛,所以就拒绝了虚无假设 (正态分布是越靠近中间,概率越大,越两边,概率越小哈~可以看正态分布的定义的那张图~)
p值也可以报告具体的数,而不是用>或<号, 如一个研究者的报告可能指出,处理效应显著,z=2.45,p=0.0142。(这个p的标准远远低于0.05的要求,所以效果还是蛮显著的~) p值其实就是概率啊,这里z=2.45,尾端的概率是0.0071。 比较的时候记得,α的0.05是两边的尾端的相加(一边各0.025嘛~1.96的界限也是从0.025来的),所以这里的0.0071如果拿来和α相比,那记得也要加起来(即0.0142),要不就和α的一半即0.025去相比。
使用z分数的假设检验的前提
随机样本
假设得到样本数据的被试是随机选择的。 样本应当能代表它来自的总体。随机样本帮助我们确定它是具有代表性的。
独立观察
样本的值 必须是由独立观察 组成的。 如果第一个事件的发生 对 第二个事件发生的概率 没有影响,那么两个事件(或者两个观察)是独立的。 随机抽样可满足此条件
例子
硬币
假设硬币是均质的,每个硬币抛出有50%可能得到正面或反面。 更重要的是,每次抛硬币都是独立的。(下一次结果不会被上一次影响) 例如,第五次抛出,不管前四次的结果如何,都有50%几率得到正面;硬币不会记住前面抛的结果,也不会被影响。 (注意,许多人不相信独立事件。例如,在连续4次得到反面之后,很容易让人猜测得到正面的概率会增加,因为该轮到正面了。这是错的,被称做“赌徒谬论”。硬币不知道之前的投掷发生了什么,也不能被之前的结果影响。)
儿童
一个研究者想考察儿童的电视偏好。 为了得到一个n=20名儿童的样本, 研究者选择了 A家庭中4名儿童, B家庭中3名儿童, C家庭中5名儿童, D家庭中2名儿童, E家庭中6名儿童。 很明显,研究者没有得到20个独立的观察。 在每个家庭中,儿童可能有同样的电视偏好(至少他们看同样的电视节目)。 因此,每个儿童的回答可能与他们的兄弟姐妹相关。 比如A家庭4个儿童,第1个儿童肯定会对2、3、4个都会有影响啊,并不会独立~ 或许每个家庭都只选一个儿童才会独立~
不放回抽样
如果样本是通过不放回抽样获得的,那么就违背了独立观察的原则。 例如, 第一次选择,如果你选择一个 20个个体的样本,第一个个体有1/20的机会被选择。 第二次选择,当第一个个体被选择后,只剩19个个体,这时,被选择的概率变为1/19。 因为第二个被选择的概率 依赖于 第一个的概率,两次选择不是相互独立的。
σ(标准差)的值 不被处理改变
假设检验中,样本来自一个未知总体,实际上这个未知总体并不知道 标准差 为此,我们得做出假设,未知总体 与 处理前的总体 的标准差 相同。 之前也有过一个一般假设,就是处理效应是总体的每个分数加上/减少一个常数,这个做法会改变平均值,但不会改变分布的形状(即标准差),只是分布可能左右平移。 (书本说~但这是理想化的假设~)
正态样本分布
为了用z分数评价假设,我们需要使用 单位正态分布表 来确定拒绝域。 只有样本均值的分布是正态时,才能使用这个表。
进一步研究z分数
作为方子的 z分数公式
作为比例的 z分数公式
基于是前面内容的重述、我觉得可不看~ 但有一点可以再深化下,就是z分数是某分数与均值的距离嘛, 所以, z分数越小,其实越靠近 均值,更接近 高概率区 z分数越大,其实越远离 均值,更接近 低概率区
影响假设检验的因素
分数的变异性
感性上
第四章的 “方差和推论统计” 这里也显示了, 变异性太大,会看不清模式,导致不利于发现显著的处理效应
理性上
上面的研究(可看标注),总体均值=80,标准差σ=20。 使用n=25的样本时,标准误σm=4,样本均值为89,z分数为2.25,结果显著。 假如这里标准差增大到σ=30 标准误 = 30/√25=6, z分数等于(89-80)/ 6=1.5,那么这里<1.96(α=0.05),就不显著了 就是变异性越大(标准差越大),导致分母越大的话,除出来的数就越小嘛,那就越不利于落在拒绝域。
检验对大脑顶叶进行电流刺激是否对学习数学有帮助, 总体在该测验得到的分数为正态分布,平均数为μ=80,标准差为σ=20。 研究者计划得到一个n=25的样本 假设例子中学生样本接受电刺激后的均值M=89。
样本中分数的个数
总体均值=80,标准差σ=20。 用n=25的样本时,标准误σm=4,样本均值为89,z分数为2.25,结果显著。 还是可以套用公式,如果n=100的时候, 标准误=20/√100=2 z分数为(89-80) / 2 = 4.5,那么这里>1.96(α=0.05),就显著了 就是样本大了,标准误就会变小,那么分母变小,结果自然变大,就更容易落入拒绝域了。 实际上样本大了,变异性当然会减少(本来标准误就会随着样本变大而减小~),就是你“证据”更多嘛,自然更“稳定”
学习检查
如果其他因素不变,σ=2和σ=10,哪种情况下更可能拒绝 虚无假设?
标准误公式:σ / √n 标准差越小,分子越小,结果就越小,标准误越小 样本均值的z分数公式:M-u / SE 标准误越小,分母越小,结果就越大,Z分数越大 z分数越大,越远离均值,即容易在低概率区上。反之就在高概率上,所以标准差越低越有利于拒绝虚无假设(和上面说的变异性越低,越好拒绝虚无假设同理) 其实无论标准误还是标准差都是越小,越好拒绝 虚无假设,(因为他们都和变异性有关,当然越小越好嘛~)
8.4 有方向的假设检验(单侧检验)
单侧检验 定义
单侧检验
在 有方向的假设检验 或者 单侧检验中, 统计假设(虚无假设和备择假设)定义了总体均值的增加或者减少。 即它们做出了关于效应方向的陈述。(就是在假设的时候,假设了效果的方向,比如增多了?还是减少了?等)
以上都是双侧检验(拒绝域在两边嘛~),双侧更广泛
结合例子学习
在之前的例8.1中,我们讨论了一个研究,来检验对顶叶的电刺激对学生数学技巧的学习的作用。n=25的样本中的每一个个体每天在做标准化数学测验时,顶叶接受 30分钟的电刺激。对一般的学生总体(不接受脑电刺激)来说,测验分数形成了一个平均值μ=80,标准差σ=20的正态分布。(不用细看~) 对于这个例子,预期的效应是对顶叶的刺激可以提高测验成绩(方向)。如果研究得到一个n=25,M=87的样本,结果可以证明刺激有效果吗?
一个有方向检验的假设
H0:测验分数 没有提高。(处理没有效应) 符号表示(是≤哦~): H0:μ≤80(加以刺激后,平均成绩不高于80)
目的是“提升”,但 虚无假设 要反着来~就是要不会“减少”,要不“没反应”
记得假设是对总体提出假设哦,所以均值是比较 总体的均值哦!这里是80
H1:测验分数 会提高。(处理有效应) 符号表示: H1:μ>80(加以刺激后,平均分数高于80)
有方向检验的拒绝域
基于虚无假设总体出来的样本均值的分布, 它的期望值是80,标准误是4(20/√25=4。) H0是≤80嘛,所以只要落在右边的拒绝域就可以拒绝H0了(远大于80~),(不是>80就可以拒绝,得到拒绝域才可以~) 原本双侧检验α的0.05要分成两半,就是要根据0.025去求界限,但是单侧检验不用分(只有一个拒绝域),所以直接根据0.05去找界限就行,这里是 z=1.65 所以处理后的样本均值的z分数落在1.65外就可以拒绝H0了~(例子的M=87,求出来的Z分数是1.75,即可以拒绝H0) 在文献中,这个结果可以报告如下(注意,报告要注明使用的是单侧检验) 刺激可以显著地 提高成绩,z=1.75,p<0.05,单侧检验。
注意
一个有方向的检验(单侧检验) 需要在假设检验的过程中 做两个步骤的改变
1.在假设检验的第一步,在假设中加入有方向的预测
2.第二步,拒绝域由分布的一个尾端来定义。
单侧检验和双侧检验的比较
主要区别是拒绝虚无假设的标准。(α都不一样,单侧检验直接拿0.05的Z分数了~) 单侧检验在 样本和总体 差异相对较小时 拒绝虚无假设,因为差异在特定的方向。(z分数没那么严格嘛~) 双侧检验在 样本和总体 差异相对较大时 拒绝虚无假设,差异与方向无关。(z分数相对严格嘛~) 其实本质就是概率的不同,双侧分开两端,单侧集中一段~
一些争论~
一些研究者认为双侧检验更严格,因此比单侧检验更可信。 因为需要更多的证据来拒绝虚无假设,因此提供了处理效应存在的更强的证明。 另一些研究者认为单侧检验更好,因为它们更敏感。 即一个相对较小的处理效应可能单侧检验 显著,但是双侧检验不显著。
总的来说,在没有 明显期望的方向或者存在两个有竟争的预测时,通常使用双侧检验。例如,当研究中一个理论预测分数增加,另一个理论预测分数减小时,使用双侧检验较为合适。 另外,只有当实验之前作出有方向性的预测,或者有正当的理由作出有方向的预测时,才能使用单侧检验。 特别是当一个研究中双侧检验不能得到显著结果时,你不能使用单侧检验作为使其显著的补救方法。(哈哈哈,谁知道呢?~(*^__^*) 嘻嘻……)
8.5 关注假设检验:测量效应的大小
局限
关于α的争论——实际上,发表的研究中犯第一类错误的概率比假设检验使用的α水平 更高(书本143页专栏8-2有说明,了解就行~)
另一个局限是一个显著的处理效应并不意味着一个大的处理效应。 统计显著并没有获得 处理效应大小 的真实信息 实际上处理效应是来源于对H0的拒绝,就是假如没处理效应,结果不太可能发生,本质是对不太可能发生做出拒绝,并不就是有很大的处理效应。(理解理解就行)
例子
首先,我们得到一个总体的分数,它是正态分布,μ=50,σ=10。从总体中选择一个样本并对它施测。处理之后,样本均值M=51。这个样本提供了处理效应在统计上显著的证据吗?
n=25
z分数0.5并不能拒绝H0
n=400
z分数2.00拒绝了H0
一个小的处理效应在统计上也可能显著。 如果样本量足够大,任何 处理效应,不管有多小,也足够拒绝虚无假设。 所以实际上,也不可以选太大的样本呀,缺少说服力。
测量效应大小
效应大小 定义
效应大小提供了对处理效应大小的具体测量,计算中使用独立的样本量 大小。 ???
Cohen's d系数
定义
Cohen(1988)建议,效应大小能通过 以标准差测量 均值距离 来标准化。(以标准差为单位嘛,然后通过比较两个均差的差异再除 标准差,就知道移动了多少个标准差了,就是通过标准差的变化来判断 效应的大小)
公式
μtreatmeng - μno treantment / σ 对于z分数假设检验,均值差异来源于 处理之前的总体均值 和 处理之后的总体均值 的差异。(但由于 处理后的总体均值 并不清楚,所以用下面的公式,通过样本比较)
Mtreatmeng - Mno treantment / σ 通过比较,两个不同处理前后的总体的样本均值 差异来得出效应大小 (这里是期望 样本均值可以代表 总体,所以也可以理解为是总体的均值,所以除 标准差,而不是标准误) (样本均值的期望值本来也等于 总体均值呀~) (标准误代表的是样本均值与总体均值的标准距离呀,你拿均值差异除这个干嘛,逻辑也说不通)
Cohen's d 与 标准差的影响
(a)与(b)的均值差异都是15,但是因为标准差的不同, (a)的d = 15/100 = 0.15(小效应)(处理效应 = 0.5个标准差,分布往右边移动了0.5个标准差) (b)的d = 15/15 = 1.00(大效应)(处理效应 = 1 标准差,分布往右边移动了1个标准差) 所以标准差越小,效应越大 用z的公式也可以理解,标准差大(分母大),那z分数就小嘛,就靠近 高概率区了嘛~自然效应小~
用Cohen's d系数评价处理效应
就是根据d的多少 可以归类 大中小~
Cohen's d与样本容量 关系(上面的例子,可看备注)
首先,我们得到一个总体的分数,它是正态分布,μ=50,σ=10。从总体中选择一个样本并对它施测。处理之后,样本均值M=51。这个样本提供了处理效应在统计上显著的证据吗? 一个样本量为25,一个样本量为400
Cohen's d系数 比较 处理前后的两个均值,所以与样本容量 无关, n=25和n=400处理后的均值都是41,所以他们的d都是 41-40 / 10 = 0.1(很小的效应~)
学习检查
一个研究者选择了一个均值μ=70,标准差σ=12的总体的样本。对样本中的个体施加处理后,研究者计算得出Cohen'sd系数=0.25。求样本的均值。
0.25*12=3(可以通过公式理解哈) 所以另一个均值和70差3,但这个差3可以在左也可以在右,就是73 or 67 所以课本的公式可能漏了个绝对值,因为课本公式本来就是用 处理后 的减去 没处理的嘛,所以这里按课本公式应该是73,因为67就是负数了~ 上网查确实是说可以拿绝对值的。 也对,不太应该拿负数,因为这个d系数要说明的就是处理效应的大小嘛,要不就没,要不就多少嘛,和正负也没啥关系~就是减少或者增加都不影响啊,就是增加了 “多少”,减少了“多少”而已嘛,关注的是这个多少。
8.6 测量检验力
统计检验的检验力
定义
另一种 检验 处理效应 的方法 统计检验的检验力是检验正确拒绝一个虚无假设的能力。 即检验力是检验确定一个处理效应 真实存在的概率。
当 有处理效应时,假设检验有两个可能的结果:接受H0 或 拒绝H0。 因为只有两种结果,两种结果相加的概率应等于1。 当 有处理效应时, 接受H0 被定义为第二类错误(有效应 却说没),其概率p=β。 拒绝H0 的概率为1-β(即可以正确拒绝H0的概率),也即假设检验的检验力 求出β需要通过检验力,就是得先求出1-β的值,才能反推β~ 检验力一般在实验前通过假设获得,就是比如研究者假设 处理效应有8分。
例子
一个正态分布的总体,均值μ=80,标准差σ=10。 一个研究者想从该总体中选择一个n=25的样本,并对样本中的个体施测。 研究者预计处理会产生8分的效应(这里含义是已经假设存在 处理效应了哦!),也就是说处理会使每个个体的分数提高8分。
上图横轴的都是M值,这些分布是样本均值的分布(由n=25的均值组成的)~ 样本分布均值的期望值是μ哦,虽然也存在于M中 所以这里的Z公式是 M-μ / σM,哈哈~对之前知识的精准化~ 我们这里的目的是要求出如果存在8分的效应,检验力是多少(即右边阴影部分,这里都能正确地拒绝H0,即1-β) 左边是虚无假设的样本均值分布,拒绝域(α=0.05)仍在±1.96两边; 标准误=10 / √25 =2 右边是假如存在应8分效的图,每个个体增加8嘛,那就是平均值也增加8,所以向右平移8,均值在88处。 我们的目的是求右边阴影部分的概率, 1、先求在左边分布,处于1.96的分数是多少,即1.96*2 + 80 = 83.92(这里是临界值,只要超过83.92分数都能拒绝虚无假设) 2、然后再求83.92在右边的分布里的z分数,然后这个z分数的主体概率就是检验力,即z = 83.92 - 88 / 2 = -2.04 ,此处的主体概率= 0.9793 结论: 如果处理有8分的效应,97.93%样本均值都会落在拒绝域中,使我们拒绝虚无假设。换句话说,检验力为97.93%,这在实际研究中意味着研究一定会成功。 如果研究者选择了一个n=25的样本,处理引起了8分的效应,那么假设检验97.93%的机会会得出有显著效应的结论。
影响检验力的因素
结合着图看
效应大小
随着效应大小的增加,右边的样本均值将会离 中心更远(就是比如例子中的效应是8,你就说大点比如10,右边的整个分布都会向右移动,拒绝域变大了呀~),因此它们中更多的值将会超过z=1.96 的界限。(结合图看看) 因此,随着效应大小的增加,拒绝虚无假设的概率也增加,这意味着检验力 增加。 Cohen's d系数和检验力的测量,都提供了处理效应大小和强度的测量。
样本量
如果n=4,标准误变成5了,那么在左边分布的1.96的分数是,1.96*5 + 80= 89.8 得超过89.8分数的才能拒绝H0,n=25的时候,超过83.92就可以, 此刻,89.8在右边分布的z值是89.8-88 / 5 =0.36 z分数对应的尾端概率是0.3594,即检验力只有35.94%。(89.8都超过右边88的均值了,那阴影部分当然是尾端啦~)(n=25的检验力可是有97.93%哦~) 就是如果样本量变小(就是标准误变大)的话,位于临界线的分数就会变大(往右移),拒绝的概率就降低了 感性认识嘛,反正样本量增大,效应会越明显嘛,自然这种检验力就越厉害啦, 所以样本量增大也有助于 检验力就是了~
α水平
图中展示的是α=0.05时的拒绝域界限,这时拒绝域界限为z=1.96。 如果α水平变为0.01,界限将会向右移至z=2.58。 对应z=2.58的分数变成了2.58*5 + 80 = 92.9 了(上面样本容量的例子是89.8),拒绝的概率进一步减少了 感性认识嘛,α变严格了,拒绝率肯定就低了呀(z往右边移),检测力就降低了(阴影减少)
单侧检验 和 双侧检验
图中呈现了α=0.05的双侧检验的拒绝域界限,右界限为z=1.96(0.025的概率) 当变为单侧检验时,拒绝域界限将左移至z=1.65(0.05的概率) 界限左移左边分布的拒绝率 变大嘛,右边的阴影会变大嘛~因此增加检验力
学习检查
一个研究者从均值为μ=60,σ=12的正态总体中选择一个n=16的样本,并对样本中的个体施测。假设处理可以增加4分,那么在α=0.05水平下的双侧检验的检验力是多少?
标准误为 3 时,拒绝域界限 z=1.96 对应的样本均值M=65.88。 效应值为4 时,样本均值分布的均值为μ=64, M=65.88的样本均值对应的z=0.63,检验力为p(z>0.63) = 0.2643
第三部分 使用t统计量推断总体均值和均值差异
第9章 t检验介绍
9.1 t统计量:z分数的替代形式
z分数的问题
我们想用z分数来获得关于未知总体的信息,但在计算z分数前,我们必须知道总体信息。 幸运的是,有一个相对简单的方法可以解决这个问题。当总体方差未知时,我们使用相应的样本数据来代替。
t 统计量介绍
估计标准误(SM)
概述
当σ的值 未知时,估计标准误(SM) 是 真实标准误 σM 的估计值。 它是由样本方差或者样本标准差 计算得到的,它提供了样本均值 M 和 总体均值μ 之间标准距离的估计。
M的估计标准误(SM) 更多使用方差的公式
SM=√s²/n 样本方差要 ss / n-1 估计标准误不用n-1哦~; 注意√里的分子是方差哦,不是标准差~
t检验统计量
t统计量 定义
当σ的值未知时,t统计量被用来检验 关于未知总体均值μ的 假设。 t统计量的公式 与 z分数公式有相同的结构。 但是 t统计量的分母 使用的是估计标准误。
t统计量 是 z分数的一种替代。 它们之间的基本差异是 t统计量使用样本方差,z分数使用总体方差。
t统计量 公式
t = M-μ / SM
t统计量 和 自由度
自由度(df)
自由度描述了样本中 可以自由变化的分数个数。 因为样本均值 限制了样本中的一个分数,所以样本自由度为n-1 (见第4章)。 就是n-1个数可以自由取值,但为了最后可以得到均值,最后一个数被限制了(不自由了~)
样本的df值越大,样本方差就越能更好地代表 总体方差,t统计量就更接近 z分数。 这很有意义,因为样本量越大,样本就越能代表总体。(df越大代表样本量越大嘛,它是n-1哦~)
t分布
样本从正态分布的总体中来;或样本量≥30; z分布就是接近正态的 这些情况下,t分布也近似 正态分布(t统计量近似于z分数) t有多接近正态分布,由自由度决定,n(样本容量)越大,df(n-1)越大,t分布越接近正态分布
t分布 比 z分布 变异性 大
因为z分数的分母不变(方差来源总体,总体不会变)
t分数的分母会变(方差来源样本,样本会变)
确定t分布的比例和概率
查表
(t分布表节选) 单侧的比例(右图5%尾端的阴影)、双侧的比例(两个5%的尾端加起来 - 10%)会在表首列明 df在第一列(右图是df=3的) 表中的数值是在分布中将尾部和主体 分开的t值 (比如这里 单侧0.05/双侧0.10 对应的df=3的值是 2.535,注意包括±2.535的哈。也就是界限值嘛~) (可看作这里的比例都是描述尾端的比例~求主体的比例要1-尾端~)
自由度增加,t分布接近正态分布
图片小,可看文字描述(或放大) 比如这里,z分布的话,α=0.05的时候,界限是1.96嘛~ 如果t分布的df足够大,最后它的值也会接近1.96(也就是正态分布~) 这个表列出了自由度为40和60的t值(也是不全的),但是没有列出40~60 之间的值。偶尔,你可能会遇到你所需要的自由度的t值不在表上的情况。这时,你应当查找在你的自由度 周围自由度的t值,并且使用较大的值。例如,你的自由度为53(不在表上),查找自由度为40和60的t值,然后使用较大的t值。如果你用样本得到的t统计量 大于 较大的t值,那么可以确定数据在拒绝域中,你也能自信地 拒绝虚无假设。
学习检查
拿b来说,中间95%就查表的 双侧0.05/单侧0.025(这里描述尾端的值) 的,t值是分开主体与尾端的值呢~
9.2 t检验的假设检验
概述
和假设检验基本思路一样的;t值就是用求t值的方式咯~
未知总体
t检验即可以用在一个有已知总体(前面章节), 也可以用在一个没有已知总体作为标准的假设检验中(具体来说,t检验不要求关于总体均值和方差的任何先验信息)
注意,研究者对总体均值 没有任何先验信息,只是根据逻辑 来陈述假设。
例如,很多调查利用评定量表来研究人们对矛盾问题的看法。 被试会看到一段陈述, 然后在1—7的量表上回答他们的观点, 分数1表示强烈同意, 分数7表示强烈不同意。 分数4位于中间位置,即没有 倾向性的观点。 在这种情况下,虚无假设认为人们的观点没有倾向性,H0 : μ=4。
假设检验的例子
题目
研究者给1到6天大的新生儿呈现两张女人的照片(其中一个比较美)。 婴儿被放在呈现照片的屏幕前,当婴儿对两张照片的注视总时间达到 20 秒时,照片消失。记录婴儿对高吸引力照片的注视时间。 假设研究使用的是n=9的样本,样本均值M=13秒(这里应该是对好看的注意时间),SS=72(注意,所有可用的信息都来自样本。具体来说,我们不知道总体的均值和标准差。)
步骤
步骤1
提出虚无假设 并设定α水平。
尽管我们没有 总体分数的信息,还是可以通过逻辑对μ做出假设。 提出虚无假设,婴儿对两张面孔没有偏好。也就是说婴儿会把20秒的注视时间平均分配到两张图片上。用符号表示为:H0:μ有吸引力=10秒 提出备择假设,婴儿对其中一张照片是存在偏好的。一个有方向的单侧检验会指出婴儿偏好的是哪一张照片。没有方向的备择假设用符号表示如下:H1:μ有吸引力≠10秒 留意:这个总体是没均值的,求t值的均值是来自于我们对总体的假设,这里μ=10s 我们将显著性水平设为双侧检验α=0.05。
步骤2
定义拒绝域。
因为总体方差 未知,所以检验统计量为t统计量。 因此,为了得到拒绝域,必须计算自由度:df=n-1=9-1=8(然后查表呗~) 对一个0.05显著水平的 双侧检验 和 8的自由度,拒绝域包括t值大于+2.306或小于-2.306的部分。
步骤3
计算检验 统计量。
1 首先,计算样本方差。
记住,总体方差是未知的,你必须使用样本值(t检验代替z分数检验的原因)。
2 然后,使用样本方差来计算估计标准误。
估计标准误测量在没有处理效应(原始数据)的情况下,样本均值和相应的总体均值之间有多少合理的误差。(就是标准误的概念啦~只是求出来的方式不同~)
3 最后,计算样本数据的t值。
估计标准误作为分母~求t分数的落点~(和z分数概念一样)
步骤 4
做出关于虚无假设的决定。
得到的t值3.00在t分布右边的拒绝域中。 我们的统计决定是拒绝虚无假设,并且得出结论: 婴儿对有吸引力和没有吸引力的脸孔确实存在偏好。 具体来说,婴儿对有吸引力图片的注视时间是显著不同于10秒的(拒绝 H0:μ有吸引力=10秒),如果没有偏好,注视时间会等于10秒。
t检验的假设
两个前提
1.样本的值 必须是相互独立的。
如果第一个事件的出现 对于 第二个事件出现的概率 没有影响,两个事件(观察)就是独立的。(之前章节有过,可看超链接~)
2.总体必须是正态的。
这个假设是t统计量和t分布表所依据的数学基础中的必要部分。 但是,违背这个前提对于得到的t检验结果几乎没有实质性的影响,特别是当样本量相对较大时。 当样本量很小时,一个正态总体分布是很重要的。 样本量较大时,违背这个前提不会影响 假设检验的效度。如果你怀疑总体分布不是正态的,使用大的样本是较安全的。
样本量 和 样本方差 的影响
方差s²越大,估计标准误SM 越大(分子大),t越小(分母大),越难拒绝,靠近高概率 大的方差 意味着 分数会更加分散,让研究者不能看到 数据中的模式和趋势(看不到规律) 样本量n越大,估计标准误SM 越小(分母大),t越大(分母小),越易拒绝,靠近低概率 样本量大反正就是好出结果,啥研究都是~本来就是人越多越精准嘛~(而且n越大,df越小)
9.3 测量t检验的效应大小
估计的Cohen's d系数
定义
t检验的总体均值与方差都不知,所以要用样本的信息和假设的总体均值(H0) 因此t检验的d系数也叫作 估计的d值,或 Glass's g或者 Hedge's(第一次这样用的人)
公式
t检验效应大小,d系数的公式~(内涵和假设检验的一样~) 分子:样本均值 与 未知总体均值(H0假设的均值) 的差异 分母:样本标准差 记住概念是以标准差为单位,求样本均值与总体均值的距离~
例子(婴儿注视)
研究者给1到6天大的新生儿呈现两张女人的照片(其中一个比较美)。 婴儿被放在呈现照片的屏幕前,当婴儿对两张照片的注视总时间达到 20 秒时,照片消失。记录婴儿对高吸引力照片的注视时间。 假设研究使用的是n=9的样本,样本均值M=13秒(这里应该是对好看的注意时间),SS=72(注意,所有可用的信息都来自样本。具体来说,我们不知道总体的均值和标准差。)
样本均值M=13,总体均值μ=10(H0假设),s=√ss/df = √72/8 = 3 d系数=13-10 / 3 =1 (刚好等于 1个标准差~d是以标准差为单位的哦~) 感性认识可看图,标准差就是3,13比10大3,那不就是刚好1个标准差嘛~ (这个图把9个bb的注视时间都放进去了,先不管,是r²例子要用的)
测量变异的解释比例,r²
概述
另一种测量效应大小就是,确定 处理 引起 多少分数变化(增加 或 减少)
例子(婴儿注视)
研究者给1到6天大的新生儿呈现两张女人的照片(其中一个比较美)。 婴儿被放在呈现照片的屏幕前,当婴儿对两张照片的注视总时间达到 20 秒时,照片消失。记录婴儿对高吸引力照片的注视时间。 假设研究使用的是n=9的样本,样本均值M=13秒(这里应该是对好看的注意时间),SS=72(注意,所有可用的信息都来自样本。具体来说,我们不知道总体的均值和标准差。)
1
这是样本里9个bb分别的注视时间(注意这里是 有处理效应的样本,也就是这些分数都是 有处理效应的分数,这个实验的处理可以理解为美女照片的刺激,哈哈~) 小tips一下: 这里的M=13,是这个样本的平均值。 n=9的所有样本均值的分布,他们的均值是期望值呀,别忘记这个概念,就是等于总体的均值哦~
2
a是有处理效应样本的数值分布,连线是各数据与平均数的直观距离~(可看到数据很多偏离均值,集中右边) b是各数据都把处理效应都删掉的分布(处理效应=样本均值与总体均值的差距,这里是13-10=3)(数据围绕均值)
3
计算 有处理效应 的 和没处理效应的 SS(离均差平方) 153-72=81,81属于 解释处理效应的变异 / 解释的变异(不理解文字意思就理解数字概念把~反正就是处理过后的一些数值差异的意思~) 但报告的方式通常使用:解释的变异 / 总变异 = 81 / 153 = 0.5294(52.94%) 移除处理效应 减小了 52.94%变异。这个值(52.94%)叫做解释的变异 百分比,被定义为 r²。(不理解文字概念就记住数字概念~)
更简便的方法
概述
r是相关符号,后面章节会再提 r²叫做解释的变异 百分比,经常用希腊字母ω²表示
公式
r²可以通过上面的方法求,但有更简便的方式,通过t值求(图中公式)
这个例子的t值(3)已经知道,直接代入公式,得出结果与上面一样
解释r²
例子中的r²=0.5294,属于大效应~ 样本量对假设检验影响大,但对r²影响小(基本原理和前面章节所说差不多,不用深究,非要想用 解释的变异 / 总变异 的算法想,不要用那个 更简便的方法 的算法想) 样本方差既影响假设检验,也影响效应大小(样本方差大。拒绝H0可能性小,也代表效应小~)
估计的μ的置信区间
概述
另一种描述处理效应大小的方法是计算处理后的总体均值。 例如,如果处理前的均值μ=80,处理后的均值估计值为μ=86,我们可以说处理效应的大小是6。 置信区间估计的是处理后的总体均值的范围嘛~也可以理解为一种处理效应了~
置信区间 定义
置信区间是一个区间,或者说是一个范围内的值,以样本统计量为中心。 置信区间的逻辑是样本统计量,如样本均值,应该接近于其所对应的总体参数。 因此,我们可以合理地认为参数值应该落在 置信区间内。 就是比如求出 样本均值,我们认为 样本均值 应该是接近 总体均值的嘛, 我们可以认为总体均值 就落在 样本均值的置信区间(一段范围内)~
构建置信区间
概述
总体均值是不知道的,我们可以用t值找~ 比如n=9,df=8,找对应的t值(如果以双侧0.2为例),±1.397为界限,中间是80%,那总体均值有80%的概率落在这里。(这也是总体均值的80%的置信区间)
公式
μ = M ± t*SM 原公式的转换,更方便求均值(和z那里思路类似,这里不过是拿样本均值 ± 数 去求范围~样本均值是区间的中心,因为是依据样本去求数值,所以用标准误哦~)(这里的t用的是置信水平的t(边界),不是用来检验的t!)
例子
一个n=9的样本,M=13,SM=1
最常用的置信水平是95%、80、90、99%的也很常用。这里用80%(t=±1.397) 代入公式:μ = M ± t*SM = 13±1.397 = 11.603 和 14.397 即有80%的信心认为总体均值会落在11.603-14.397这个区间(样本均值M=13是这个区间的中心)
影响 置信区间 宽度的因素
置信水平
取大的置信水平(置信水平是中间的概率哈,不是尾端的概率),t值更大,置信区间更大,相反就越小。 比如图中df=8,0.01就比0.50大得多(0.01 - 99%中间 / 0.5 - 50%中间)
样本量
样本量越大,区间越窄 感性认识就是:样本量越大,关于未知总体的信息就越多(就是估计能越集中,区间自然窄)
样本方差
方差影响标准误大小,方差大,标准误大,置信区间越宽(变异性大就越不好估计嘛)
关于效应大小
因为置信区间受到样本量的影响,所以它们并没有为效应大小提供绝对的测量,也不能完全取代 Cohen's d系数和r²。 尽管如此,它在研究报告中还是可以用来描述处理效应的大小。
报告t检验的结果
前面例子求出了了t统计量为3.00,df=8,我们决定在0.05的水平上拒绝虚无假设。 还得到了SD(标准差)=3.00;r²=0.5294(52.94%) 这里可以报告如: 被试在20秒的时间里平均花M=13秒注视有吸引力的面孔,SD=3.00。 统计分析表明,婴儿对有吸引力的面孔的注视时间显著多于平均时间, t(8)=3.00,p<0.05,r²=0.5294。 t(8)的8是df,自由度 可以加入置信区间(CI)来描述效应值进行报告: t(8)=3.00,p<0.05,80% CI [11.603 , 14.397]
关于p的报告
计算机程序还会给出p的具体数据,比如p=0.017,那报告可以把这个p附上,而不是p</> 0.0x 当效果很显著的时候,会出现p=0.000的情况,这是因为计算机只报告前三位,拒绝力度非常大!也可以报告成p<0.001~
学习检查
1和3都会用的t值,但是 1的t值是用来求显著的; 3的是用来找置信区间的 可以看作t的两种用法,先不用过度联系
9.4 有方向的假设 和 单侧检验
单侧检验 例子
研究者给1到6天大的新生儿呈现两张女人的照片(其中一个比较美)。 婴儿被放在呈现照片的屏幕前,当婴儿对两张照片的注视总时间达到 20 秒时,照片消失。记录婴儿对高吸引力照片的注视时间。 假设研究使用的是n=9的样本,样本均值M=13秒(这里应该是对好看的注意时间),SS=72(注意,所有可用的信息都来自样本。具体来说,我们不知道总体的均值和标准差。)
步骤1
提出假设,选择α水平
假设
H0:μ有吸引力 ≤ 10秒 (对有吸引力的面孔的注视时间不多于10秒 - 一半的时间)
H1:μ有吸引力 > 10秒 (对有吸引力的面孔的注视时间 多于10秒 - 一半的时间)
α水平
我们将 显著性水平 设定为0.01。
步骤2
定位拒绝域
当n=9时,t检验的自由度df=8,使用a=0.01,你可以得到拒绝域的值为t=2.896。(这里不用考虑α要不要除2啥的,单侧本来就只有一端嘛,直接看表就可以~) 只要t值>2.896,就可以拒绝H0
注意
在确定拒绝域前可以先检测均值差异的方向是否一致,不一致就可以停止计算了 比如这里的愿望是检测“有效果”的,如果均值差异出来是“负数”,那可以直接停止了,因为方向错了,后面就不用做了~ 方向是对的话(均值差是正值),才开始计算准确的t值,看是否显著(比如这里均值差异是3,方向是对的,可以继续做)
步骤3
计算t值
单侧检验和双侧检验的t值的计算一样。 我们发现这个实验的数据产生的t检验统计量为t=3.00。
步骤 4
做出决定
婴儿对有吸引力的面孔的注视时间显著 多于 没有偏好时的预期时间, t(8)=3.00,p<0.01,单侧检验。 注意报告明确指出研究中使用了单侧检验。
第10章 两个独立样本的t检验
10.1 独立测量设计/组间设计 概述
有些情况研究的问题关注于两组数据的均值 差异。(如比较 两种教学方式;治疗前后)
比较两组数据的差异一般有两种研究方法。
1.两组数据来自两个不同 总体。
例子
例如,研究可能比较男性样本和女性样本。 或者比较一个拥有电脑的学生样本的成绩和一个没有电脑的学生样本的成绩。
学名
独立测量 研究设计 / 组间设计
定义
对每种处理条件(或者每个总体)使用一个独立样本的研究设计 (就是每个总体有它自己的样本)
图示
使用两个单独的样本来回答两个总体(两种处理)的问题。
2.两组数据来自同一总体。
例子
例如,研究者可能在一组病人接受治疗前得到他们的抑郁指数, 然后在他们接受治疗6周后得到他们的另一组抑郁指数。
学名
重复测量 研究设计 / 组内设计
两组数据来自同一个样本
11章
10.2 独立测量研究设计的t检验
一些符号
独立测量包含两个样本,所以符号进行区分,其实就加个下标1、2
独立测量的检验假设
H0:μ1-μ2 = 0(两个总体均值 没有差异)
独立测量目的测量两个 总体均值 是否有差异,相减=0就是没有效果,两个一样
也可以用 μ1 = μ2 表示,但μ1-μ2会产生数值,建议用减法的
H1:μ1-μ2 ≠ 0(两个总体均值 有差异)
也可以用 μ1 ≠ μ2 表示
独立测量假设检验的公式1
t检验公式的区别
单样本t检验公式(第九章的)
只有一个样本
独立测量t检验公式
两个独立 样本的数据 分子:用了 两个样本均值的差异 来评价 两个总体均值的差异。 分母:标准误 - 测量了 样本均值差异 来代表 总体均值差异 时 的 误差总量。 (就是测量 样本均值差异 与 总体均值差异 之间的 误差~) 虽然是S(M1-M2),,,但其实里面的公式是加号耶,哈哈...
单样本t统计量,组内、间测量,都可以简化成如此
可对比学习~
估计标准误(独立测量t检验公式的分母)
估计标准误的解释
两种解释
一
标准误被定义为 样本统计量 和 相应的总体参数之间 的 标准化的平均差异。
H0为真时,总体均值 差异为零(U1=U2嘛)
二
H0为真时,标准误测量了 两组样本均值之间的合理差异。(总体均值变0了嘛,那就只剩下M1-M0的差异了~)
总体均值变0了嘛,那就只剩下M1-M0的差异了, 换了个表达方式而已
没啥用...浅看下就好
估计标准误的计算(n1=n2)
单样本就是√S²/n 独立测量的样本 就是把 两个样本的标准误 加起来咯~ 得出 两个样本均值 与 两个总体均值 的 误差总量
估计标准误的计算(n1≠n2)
合并方差(Sp²)
概述
原因
上面的公式运用的前提是两个样本容量n相等, n越大,得到信息越精准,标准误越小(就是越能精确估计到总体的标准差),所以如果两个n不平等,得出的数据是有偏差的 因此两个n不相等的时候要 合并方差
公式
合并方差符号是Sp² 就是把两个 样本方差 合在一起处理 合并方差实际是两个样本方差的平均值, 但在均值计算的过程中,大样本的方差占据了更大的比重(看下面例子)。
相同样本量
可以发现合并方差 是 两个样本方差的平均 (10+6) / 2 = 8
不同样本量
第一种公式
如果这样算的话,结果接近 大样本的方差6(样本2的n=9)
第二种公式
分子:就是两个样本方差分别与自己的自由度相乘再相加 分母:两个样本的自由度相加 比如上面例子, 样本1,df=2,方差=10 样本2,df=8,方差=6 即20+48 / 10 = 68 / 10(结果是一样的~)
因为大样本容易更大的df值,所以在平均时会有更大的比重
使用合并方差后的最终公式(相比n1=n2的公式,方差用的是合并方差)
独立测量t检验最后的公式和自由度
公式
总公式
分母
合并方差(两种求法)
不同分数的变异性
独立测量的t检验的公式,分子是均值相减,而分母是方差相加,看起来矛盾,实际可以理解 比如总体2的变化范围是30-20=10;总体1的变化范围是70-50=20; 而两个总体共同存在的时候,差异就是50-20=30 (因为其中20并没有数据落入嘛~就是等于总体1的范围加上总体2的范围嘛~20+10=) 所以其实是相加的~
自由度
t统计量的自由度 = df1 + df2 = (n1-1) + (n2-1) = n1+n2 - 2
10.3 独立测量t检验的假设检验和效应大小
双侧假设检验
例子
想探究 童年看没看过《芝麻街》 与 高中成绩 的关系
tips
这个研究是 非实验研究,因为研究并没有进行“操控”的行为 也即,我们不能得出因果关系(就是看了《芝麻街》就肯定有更高成绩), 其中可能和父母受教育水平、经济条件等有关。 但这两者中间是存在关系的。
步骤
步骤1
提出假设,选择α水平
假设
α
α = 0.01
步骤2
自由度
根据 自由度 与 α水平 确定拒绝域
步骤3
计算检验统计量
1 合并方差
2 估计标准误
3 t值
步骤4
做出决定
t值=4,落在拒绝域外~即,看过《芝麻街》的学生成绩更高
效应大小
Cohen's d系数
公式
分子:样本均值差异 就能对 总体均值差异 进行估计,所以用样本的均值 差 分母:标准误用合并方差的开方(因为这里是两个样本的方差加,所以要开方处理)(注意:用的是合并方差,而不是估计的标准误哦~)
上方例子的 d 系数
M1=93,M2=85,合并方差=20 d=1.79,拥有很大的处理效应
r²
通过 SS 求
把两个样本合并在一起,并且求出他们组合的平均值(89) 和 SS(680)
看过《芝麻街》原样本均值是93 没看过《芝麻街》原样本均值是85 把他们的处理效应都去掉(就是让他们原样本的均值 变成 组合的平均值) 即把看过组的(M=93)的每个数都 减4(M=93-4=89) 把没看过组的(M=85)的每个数都 加4(M=85+4=89) 注意: 1、这里虽然都同时±4,但只是巧合,如果没看过组的M=84那就是加5了,目的是为了变成平均数! 2、没看过也可以理解为一种处理呀,就是 负增加 而已嘛,就是不看成绩变拉了~ 现在处理完的数的SS=360
把 处理解释的变异 与 总变异 对比得出47%
通过 公式 求
t已知= 4;df=18
r² = 0.47也是一个很大的效应。 即看与不看《芝麻街》的成绩,有47%的处理效应,来解释他们的变异
估计的μ1-μ2的置信区间
公式
用 样本均值差异 M1-M2 来估计 总体均值差异μ1-μ2
例子
题目
构建一个 总体均值差异 的 95%的置信区间。
已知数据(之前已求)
看过《芝麻街》的学生的平均分M=93, 没看过《芝麻街》的学生的平均分M=85,
df=18
t值(查表df18,双侧α=0.05%) = ±2.101
代入公式
[3.798,12.202],我们有95%信心认为 均值差异的真值 在这个区间之内
置信区间 和 假设检验
图例
可以用置信区间去进行假设检验
1、根据相关条件求出95%置信区间后,根据H0得出,u1-u2=0,发觉0 不在置信区间内(3.798-12.202),所以可以拒绝H0,H0为假~ 即: 0值 在 95%置信水平下 不被接受 or 0差异 在 95%置信水平下 是被拒绝的
2,、求出置信区间后,如果发觉u1-u2=0是处于置信区间内(比如-1 - 4),那就不能拒绝H0了,H0为真~
报告独立测量t检验的结果
APA格式
看过《芝麻街》的学生的高中成绩(M=93,SD=4.71) 比 没看过节目的学生成绩(M=85,SD=4.22) 更高。 这个差异是显著的,t(18)=4.00,p<0.05,d=1.79。
如果电脑计算,p给出具体概率值那就附上
如果用置信区间描述效应大小,需要紧跟 假设检验的结果
看过《芝麻街》的学生的高中成绩(M=93,SD=4.71) 比 没看过节目的学生成绩(M=85,SD=4.22) 更高。 这个差异是显著的,t(18)=4.00,p<0.05,95%的置信区间为[3.798,12.202]。 书本这里虽然用了置信区间后删除了d值,但实际上你可以都报上~无所谓~
有方向的假设 / 单侧检验
例子
题目
预测是小时候时看过《芝麻街》的儿童 在高中时期 会有更高的分数。
步骤
步骤1
提出假设,选择α水平。
步骤2
定位拒绝域。
当df=18时,a=0.01的 单侧的拒绝值为t=2.552
tips:
可以先检测样本均值差异是否与我们预测方向相同(93-85=8,方向是对的~)
步骤3
收集数据,计算检验统计量。
t值已求 = 4.00
步骤4
做出决定。
4.00超出2.552,因此拒绝H0,得出结论,儿童时期看《芝麻街》的学生的高中成绩显著高于儿童时期不看《芝麻街》学生的高中成绩。
报告形式
看《芝麻街》的学生的成绩显著更高,t(18)=4.00,p<0.01,单侧检验。
tips
单侧检验 拒绝虚无假设 所需要的样本差异 比 双侧检验要小, 所以只有当 理论 或者 前人结论能 清楚地支持预测时才使用。
影响假设检验的因素
因素
两个样本均值之间的差异
差异越大,拒绝H0可能性越大
变异性
标准误 和 样本方差 成正比(分子越大,数值越大), t值就越小(分母大,数值小),拒绝H0可能性小 感性理解:差异性越大,越难预测
样本量
标准误 和 样本量 成反比(分母越大,数值越小) t值就越大(分母小,数值大),拒绝H0可能性大 感性理解:样本量越大,数据越精准
例子
1
变异性小,差异明显,t=8.62,落在拒绝域 d=4.10,r²=0.82,效应大
2
变异性大,差异不明显,t=1.59,不能拒绝H0 d=0.75,r²=0.136,效应小 尽管和上面一样,均值差异都是5,但方差不同,结果就不同 总的来说,大的样本方差能够使数据中的任何均值差异变得模糊,并且降低在假设检验中得到显著差异的可能性,同时减小 效应值。
10.4独立测量t检验的基本假设
公式前提
1.每个样本的观察必须是独立的。
2.样本来自的两个总体必须是正态分布。
但是样本量足够大,就不是很重要
3.为了得到合理的合并方差,样本来自的两个总体必须有相同的方差。 (也可叫 方差的同质性) (注意,方差同质性是为了合理的样本方差!) (然后是两个总体有相同方差,不是样本,样本是可以有一定误差的~)
第8章中对于分数假设检验有一个相似的前提。对于这些检验,我们假设处理效应是每个分数加上(或者减去)一个常量(变异性不变,只是左右移动)。结果,处理后的总体标准误与处理前 一样。(就是总体性质没变呀,只是考察 处理效应) 现在我们提出的前提本质上是与这个一样的,只是将它用方差来表述。 也可理解处理效应只会改变 左右移动,不会改变 形状,改变形状那就性质 不一样啦~ 本来只是比较两个样本通过不同处理的对比而已嘛,就是左右移动的对比而已,两个总体理应是一样的形状、性质(方差)啥的,不然 怎么对比处理效应呢?~ 书本例子:将你的体重 和 一英镑能买多少葡萄 平均就没有意义。
具体地,样本来自的两个不同的分布 必须 有相同的方差。
检测 方差同质性的满足条件
1、观察两个样本的方差
如果两个总体方差 相等,那么两个样本方差应当很相似。 如果 一个样本方差大于 另外一个样本方差 3-4倍,就值得怀疑了!
2、Hartiley 的 F-max 检验(Fmax)
概述
F-max检验基于的原理是,样本方差提供了总体方差的无偏估计。 该假设的虚无假设是总体方差是相同的,因此样本方差应当很相似。
大多数 假设检验的目的是拒绝 虚无假设从而说明存在处理效应或显著的差异。 然而,在做方差同质性检验时,我们希望接受虚无假设,意味着两个总体方差之间没有显著差异,同质性前提得到了满足(就可以计算独立测量的t检验,否则 不可以进行)。 如果觉得太绕,就别管这个什么假设不假设,只要出来的值小于临界值就OK可以~
步骤
1 计算样本方差,对于每个独立样本,S²=SS/df
2 选选择最大和最小的样本方差,并且计算
如果F-max值大,表现样本方差差异大,暗示总体方差存在差异,违背同质性前提 如果F-max值小(接近1.00),说明样本方差是相似的,同质性前提合理
3 样本数据计算的 F-max值要与表中的临界值比较。
比较需要的条件
k=独立样本数。(对于独立测量的t检验,k=2。)
对于每个样本方差df=n-1,Hartley检验假定所有样本量相同。
α水平。表提供了α=0.05和α=0.01 的临界值。 一般来说,同质性检验 会使用大的α水平。
如果样本值 大于 表中的值,你能得出结论:方差不同,同质性前提不能被满足。
例子
两个 独立样本,每个n=10,样本方差为12.34和9.15
代入公式
条件α=0.05,k=2,df=n-1=9,表中的临界,值为4.03。
结论:1.35比表中小,所以没有违背同质性前提
替代 合并方差的一种方法(可不需要 方差同质性)了解就行
求 标准误的公式
标准误通过这个方式求,就是两个标准误的简单相加
求 自由度的公式
调整后的df值会变小,扩大 拒绝域的界限,因此检验更苛刻,从而校正一些偏差问题
注意
很多用来进行统计分析的软件(如 SPSS)都会报告两个版本的独立测量t检验, 一个使用合并方差(假设 方差具有齐性/方差同质性)计算的, 另一个是用这种校正的方法(不假设 方差具齐性/方差同质性)得到的。
第11章 两个相关样本的t检验
11.1 重复测量设计/组内设计 概述
定义
重复测量设计就是对一个样本进行同一因变量的两次或两次以上的测量研究, 即在所有的处理条件下都使用相同的样本,也常常被称为组内设计。
优点
不存在两个样本有本质差异的情况(不需要 方差同质性)
匹配设计
定义
在被试匹配研究中,一个样本中的个体 与 另外一个样本中的个体 相匹配。 被试匹配可以使两个个体在研究者想控制的特殊变量上 等值(或接近等值)。
例子
例如,一个研究语言学习的研究者可能有必要确认两个样本的被试在智商和性别上是匹配的。 在这个实验中,一个IQ为120 的男性被试应该 与另一组样本中的IQ为120 的男性被试相匹配。
作用
匹配的过程是为了尽可能地模仿 重复测量研究设计。 在重复测量设计中,匹配是完美的,因为每一个被试都出现在不同的实验条件中。(就是都是同一些人接受不同的处理而已,而匹配设计就是希望能找到“复制人”,减少点工序咯~)
相关样本设计
重复测量设计 与 匹配设计 都是 相关样本设计,他们实验数据是一 一对应的(就是同一个被试的两次得分嘛~) 重复测量的技术 也可以用在 匹配设计上(匹配设计本来就是模仿 重复测量的技术嘛)
重复测量假设检验的整个过程
从总体中选择n=4的样本,对样本中的每个个体测量两次,一次在处理条件1下,一次在处理条件II下,因此,每个被试有一个差异值(D)。 注意,我们正在用样本差异值代表总体差异值,同样注意,总体差异值是未知的。 虚无假设提出,对于一般总体,两种处理条件是一致的,没有系统差异的,即总体差异值μD=0(每个个体都测一次D,然后D的均值~)。
11.2 重复测量研究设计的t检验
相关样本 研究的数据:差异值
题目
对比某感冒药的副作用,测试服药前后的反应时
差异值
通常是第二个分数(处理后) 减去 第一个分数(处理前)
D反应了变化方向,比如A被试反应时变快了,B变慢了~
差异值(D值)是假设检验需要用到的样本数据,所有的计算都需要用D值。 例如,为了计算t值,需要D值的个数n 和 样本均值(M),还有D值的SS。
相关样本 检验的假设
概述
研究者想知道两种不同的处理条件在一般总体中是否存在差异。 注意,研究者关注 总体之间的差异,也就是说,每个总体的每个个体都要经过两种条件的不同处理,然后计算其差异值(D)。
总体差异值 的 均值(均值旁边的D代表我们计算D值的均值,而不是X的均值)
假设
虚无假设
两种处理条件下,总体差异值的平均数 为0。用符号表示为 μD=0。 总体之间 无差异,没有处理效应,个体的差异值趋向0。
uD=0的 总体差异值的分布图,(两个总体间,每个个体的差异值 的 分布图) 虽然 总体差异值的均值为0(H0真),但不是每个个体的差异值 都是0, 根据这个假设,有些被试差异值是负的(左分布),有些的差异值是正的(右分布),差异值是随机的、非系统的,他们趋近于0(不会每个减了就等于0,肯定就有一些偏差,正如分布图嘛,有些是正的,有些是负的,加起来就是0了。)
总体 与 样本 有误差哦~
备择假设
两种处理条件下,总体差异值的平均数 不为0。用符号表示为 μD≠0。 总体之间 有差异,有处理效应,个体的差异值 不趋向0。
处理效应方向一般都相同,这里是uD>0,就是总体间每个个体的差异分数大多都>0 如果是<0的,那每个个体差异分数也<0哟~(你对每个个体施加同样的处理呀,方向都相等~) 两种处理条件下的一致的、有预测性的差异。
重复测量中H0和H1的类比
H0
H0:智力是个体稳定的特征。 但可能测7天,每天都不同,会因为情绪、睡眠等随机因素有偏差(时高、时低) 虽然有随机因素,但长远看,差异值 趋向0(有高与低,相加=0啦~),
H1
H1:评估被试在一款新游戏上的表现。 测7天,每天分数可能都有微小的变化,但是分数变化不是随机的,会因为每天的练习表现除总体升高的趋势。 变化是系统的、可预测的,均值不趋向为0。
相关样本 的 t检验
公式结构
和之前的公式结构类似,不过这里是求的是差异值D,所以符号有所差别~ MD 是 样本差异值的平均数, uD 是 H0假设的总体差异值的平均数(H0的UD=0,两个总体一样嘛,没处理效果)
标准误
这里的估计标准误的计算 和 独立样本t检验的计算方式相同
步骤
1、计算样本差异值D的 方差(或标准差)
2、利用 样本方差(或标准差) 和 样本量n 计算 估计标准误
注意
所有计算的基础是差异值(D),并且是每个被试一个D值。 样本量为 n,就有n个 D值, t检验的自由度df=n-1。 这里的n是指 差异值的个数,而不是原始值X的个数。
11.3 重复测量设计的假设检验和效应值
假设检验和效应值 例子
题目
比较疼痛的时候,说脏话会不会减轻疼痛感~ 这里的SS用的是另一种求 离均的差平方和 的公式~一样的~
步骤
步骤1
陈述假设,选择显著性水平。
该研究是显著性水平α=0.05的双侧检验。
步骤2
定义拒绝域。
n=9,t检验的自由度为df=n-1=8。 根据t分布表,临界值为+2.306和-2.306。
步骤 3
计算t值。
MD=-2.0,SS=32。
1.计算样本方差。
2.计算估计标准误。
和独立样本T一样哈~
3.计算t值。
uD是虚无假设呀,没差异,就是=0
步骤 4
做出决定。
在拒绝域~拒绝H0,重复中性词相比,骂脏话对疼痛的感知有显著影响。
效应值
Cohen's d 系数
公式
总体数值未知,用样本均值估计~
计算
根据题目的数值代入计算~
解释的变异比例 r²
计算
公式与 单样本t检验 和 独立样本t检验 一样。 解释:差异值52.9%变异 可以由骂脏话的效应 来解释。
估计的μD的置信区间
公式
UD = MD ± t * SMD
例子
题目
上述例子中,研究讨论了咒骂对疼痛感知的影响。 两种处理下 分数差异的均值为 MD=-2, 差异均值的 估计标准误是 SMD=0.667。 现在,我们为 总体差异平均 构建 95%水平的置信区间。
步骤
求df
样本量n=9时,重复测量t检验的df=8
求t值
根据t分布表,df=8时,95% t值应在t=-2.306和t=2.306之间。
代入公式
结论:我们有95%信心确定 差异的均值 在 0.462到 3.538 这个区间内
tips
置信区间影响因素
处理效应大小的影响
置信水平越高,置信区间越宽。
样本量越大,置信区间越窄。(D和R²不太受影响)
置信区间中心是-2(0.462 - 3.538)
我们有95%信心确定总体差异均值不为0。 这和在0.05水平下 拒绝虚无假设 的结论是一致的。
如果95%置信区间包含μD=0, 那么假设检验的结论是在0.05水平下接受 虚无假设。
报告
M是均值,SD是标准差哦~
假设检验的报告
重复测量t检验中的样本方差和样本量
差异均值越大,拒绝虚无假设的可能性越大,效应值越大
标准误 和 样本量 成 反比(样本量越大,标准误越小), 样本量越大,t统计量会越大(远离 0),拒绝虚无假设的概率越大。
标准误 和 样本方差 成 正比(样本方差越大,标准误越大)。 方差越大,t值越小(接近0),得到显著结果的可能性越小。
变异对处理效应一致性的测量
左边数据的变异性小,较为集中,处理效应容易放大,容易显著 右边数据的变异性大,较为分数,处理效应难以观察,较难显著 和之前的内容差不多
有方向的假设 和 单侧检验
题目
被试骂脏话时 比 重复中性词汇时 感知到的手 放在冰水中的疼痛程度 要轻。
步骤
步骤1
陈述假设,选择显著性水平。
步骤2
定义拒绝域。
可以先检测方向,MD=-2,与检测方向一致~那继续测吧~ (如果不一致,可以直接停止了~)
df=8,α=0.01,单侧检验,临界值为2.896。 因此,如果t>2.896,则拒绝 H0。
步骤 3
计算t值。
MD=-2.0,SS=32。
1.计算样本方差。
2.计算估计标准误。
和独立样本T一样哈~
3.计算t值。
uD是虚无假设呀,没差异,就是=0
步骤 4
做出决定。
需要注明单侧检验
11.4 重复测量t检验的使用和假设
重复测量 和 独立测量设计
区别
独立测量使用两个独立的样本,各进行一种条件处理 重复测量就是对 同一个样本进行 不同条件的处理
被试数量
重复测量设计 相对 独立测量设计 需要的样本 较少。(同一个样本处理嘛~)
跨时间的变化研究
重复测量设计非常适合研究 跨时间的,如学习、发展 等的其他变化。
被试间 差异
被试特征的差异 主要是指个体间年龄、IQ、性别、人格 等之间的差异。
重复测量的主要优点就是 减少或消除 被试间差异带来的问题。
1、比如两个测量的平均差异值都是5, 但是独立测量可能是因为本来John和Tom之间本来就存在差异,导致效果失真, 而重复测量不存在这个问题,被试都是同样的 2、独立样本方差会更大(比如还要合并方差啥的), 且重复测量的方差会更小,被试同一个嘛~
时间相关因素 和 顺序效应
时间相关因素
重复测量的缺点,被试因为前后两次测试会有时间间距,这段时间可能会受到其他因素的影响(比如睡眠、健康、天气等)
顺序效应
就是练习效应,第一次熟悉后可能会影响第二次的效果
解决方法:平衡
平衡处理条件的顺序
比如: 一组被试 先接受 条件1的处理,然后 再接受 条件2的处理。 而另外一组被试 先接受 条件2的处理,然后 再接受 条件1的处理。
当时间相关效应和顺序效应很强时,最好的办法就是不选择 重复测量设计, 而是使用 独立测量研究(或者是匹配样本设计), 即每个被试 接受一次一种条件处理。 匹配样本设计也是两组呀~不同的人,只不过是人之间的差异很小~
相关样本t检验 的 假设
1.每种处理条件下的观测值是独立的。(就是随机抽样啊,抽样放回那些)
2.差异值(D)的总体分布 服从正态分布。(大样本(n>30)的情况下,这个假设可忽略)
学习检查
重复=20-1=19(只有一个样本) 独立=20-2=18(两个样本呀~)
哪种方法 适用于当前的研究情景
1.单样本t检验中(第 9章),
只有一组被试,每个被试只有一个分数。 t检验用唯一的样本均值和样本方差 检验 未知总体均值的假设,并估计总体均值的置信区间。
2.独立测量t检验中有两组被试,因此有两组分数。
每一组分数 有 一个均值和方差,因此共有 两个均值 和 两个方差。 计算合并方差以后,t检验用 两个样本均值的差异 检验 两个总体均值差异的假设,并估计总体均值差异的置信区间。 虚无假设认为 两个总体均值之间 没有差异
3.重复测量t检验中只有一组被试,但是每一个个体都会在不同的时间或不同的处理条件下 测试两次。
然后要得到每一个被试 两次测试的分数差值,并计算 分数差值的平均值和方差。 t 检验用 样本差异值的均值 和方差 检验 关于总体均值差异的假设,并估计总体均值差异的置信区间。 虚无假设认为总体分数差异为0
第四部分 方差分析:检验两个或多个总体均值的差异
方差分析 与 t统计量
t- 单or双个样本
方- 双or多个样本
第12章 方差分析介绍
12.1 概述
方差分析(ANOVA,Analysis of Variance)
用于评估 两个或多个 处理条件(或总体)之间平均数差异 的一种假设检验方法。 与所有的推断统计程序一样,ANOVA使用 样本数据 来推断 关于总体的结论。
其实和上面差不多 两种解释: 1、总体(或实验处理)之间事实上不存在差异。样本观察值之间的差异 仅由于偶然因素(抽样误差)造成。(就是不显著) 2、总体(或实验处理)之间事实上存在差异,并且这些总体平均数的差异,是 样本观察值间存在差异的部分原因。(就是显著)
ANOVA 的术语
自变量
A→B,A是自变量
准自变量
A→B,但A是不被控制的自变量,比如性别
统称自变量也可以,没必要那么细分
因素
在方差分析中,自变量或准自变量 被称为 因素。
因素的水平
是指该因素可以取的不同的值或状态。 因素的水平通常用于描述和分析实验或调查中的不同条件或处理。 例如,一个考察 三种不同电话情境下 被试驾驶表现的研究,电话情境这个因素就有三个水平。
设计类型
ANOVA可以用于 独立测量设计 或 重复测量设计。
还可以用在 多因子设计
因子1:治疗技术。每个组使用一种治疗技术(独立测量)。 因子 2:时间。每组在三个时间点都进行了测量(重复测量)。 先独立,后重复嘛~就是聚合交叉设计嘛~ 这里是 两因子设计 / 两因素设计
NOVA 的 统计假设
题目
考察三 种手机使用条件(驾驶时不打电话、驾驶时打免提电话、驾驶时手持电话)下 驾驶表现。
假设
零假设
驾驶打不打电话都一样,没有效应 也就是说,三种手机使用条件下的总体均值是相同的
备择假设
没必要把全部情况列出来,比如全部都不一样,或者前两个一样,后一个不一样等, 只要选择一个一般的形式就可以~(如图)
ANOVA 的 统计检验
概述
与 独立测量t检验 十分相似。
因为三个以上样本,很难计算出平均数差异(谁减谁呢?),所以用r²来算
因此,我们用F值算(和t值的结构一样。)
第一类错误 和 多重假设检验
两种α水平
检验α水平
一个单独的假设检验 中选择的犯错误的可能性
实验α水平
所有独立的检验所犯第一类错误累积后的犯错总概率。 随着独立的检验次数的增加,实验α水平也随之增加。
例子
例如,对于一个涉及三个处理情况的实验来说, 你需要进行三次t检验来比较全部的均值之间的差异: 检验1 - 比较处理1和处理2。 检验2 - 比较处理1和处理3。 检验3 - 比较处理2和处理3。 如果均使用α=0.05 这里是0.05x3=0.15,第一类错误的可能性也就0.15(第一类错误概率=α)
方差分析的优势在于它在一次实验中同时进行三个均值差异的比较。(相比t检验) 因此,无论需要比较的均值有多少,ANOVA在一个水平下使用 一个检验 来估计均值差异,从而避免了 实验α水平 的膨胀。
这也是为什么三种处理条件以上,选择方差分析而不选择T检验
12.2 方差分析的逻辑
图例
总变异 分成 处理间差异(3个样本间) 和 处理内差异(某个样本内部) 分析 - 意味着把整体 划分为 小部分 / 方差分析 就是把 总变异 划分为 间与内变异~
处理间方差
两种解释
1.处理间差异 不是由处理效应引起的,而是自然发生的、随机的、非系统性的。 也就是说,差异是抽样误差的结果。
2.处理间差异时由 处理效应引起的。例如,如果使用手机确实会干预驾驶的表现,那么在使用手机条件下的驾驶表现分数会系统地低于不使用手机条件下的分数。
为了系统阐述处理效应 是否真的存在,我们必须证明 处理间差异 显著大于仅由随机因素造成的差异。 为了此目的,我们首先要知道当 处理效应不存在时,差异应该有多大~
处理内方差
比如处理1(没有电话的样本1)的被试,都严格地同等对待,接受同样的处理,但他们的分数依然不相等; 他们的差异都是随机的、非系统的。
F比值:ANOVA的统计量
F比值结构
换句话 ↓
处理间的方差本来 包含了,处理效应 + 不处理效应(随机因素) 处理内方差本来就是随机因素的,不存在处理效应的~(因为都接受同样的处理)
分母 测量的仅是 随机、非系统的变异,分母被称为误差项。 分子 包含 随机、非系统的变异,也包含了处理效应产生的系统性差异
F比值判断
处理效应 不存在
分子(处理间的差异) 全部 是 随机的、非系统的,0代表处理效应不存在嘛 因为分子、分母都是随机差异,所以他们的值接近1, 也就是F如果越接近1,越没处理效应
处理效应 存在
有处理效应的话,分子 会大于 分母~ F也会>1,越大,越显著~
12.3 方差分析的符号和公式
图例
符号(可结合图例)
因素水平 的 个数,这里3个处理嘛,所以=3 对于独立测验研究来说,也可以代表有多少个独立样本
某个处理包含的个数,这3个处理都n=5(也可能每个处理的n不一样,不是都一样的) 可以用n1、n2、n3表示。
就是所有个数相加,这里N=5x3=15
就是某个处理的总分和,比如处理1的就是4+3+6+3+4=20 可以加下标,比如T1、T2等
所有处理的总分和
其他:SS、M、∑X²(得分的平方和,就是每个分数的平方,再相加)
也有其他学者用其他符号
ANOVA 的公式
公式结构
1、F = 处理间方差 / 处理内方差
2、 处理间方差 / 处理内方差 均使用 基本的样本方差公式
图例逻辑
SS的分析
图例
SS总
有两种方式计算SS嘛,这是其中的计算式(之前惯用的是定义式)
可以用G²代替(∑X)²,G是所有处理的总分和(就是∑X) 图例 : 106 - 900/15 = 46
SS处理内
把每个处理的SS 相加就可以 图例:6+6+4=16
SS处理间
方法一
直接 SS总 - SS处理内 即可 46-16=30
方法二
n相等
求 SS均值(处理间样本均值的SS) 图例:分别的均值=4、1、1,这组数据的SS均值=6 然后把SS均值 * n,6x5=30 这个公式比较笨拙,只能用在所有样本量都相等的情况
更nice的
T是某个处理的总分和 G是所有处理的总分和? n是某个处理的样本容量 N是所有处理的样本容量
图例
自由度的分析(df)
总变异
总变异,计算所有数目的SS嘛,所以 df=N-1,图例=15-1=14
处理内变异
处理内变异,计算是某个样本内的SS(df=n-1),然后有k个样本,就有k个(n-1),要把他们相加。所以,df=∑(n-1)= N-k (n全部相加=N嘛,1全部相加=k嘛~;我觉得∑(n-1)的思路更清晰点~),图例=15-3=12
处理间变异
处理间变异,计算是样本间的SS,这里看有多少k个样本咯~所以是k-1~,图例是3-1=2
通常情况下,df值是用于计算 SS 值的项目个数 减去1
方差(MS)的计算 和 F比值
符号
方差分析中,均方(MS) 代替 方差(S²)(算术原理一样,为了更好区分吧~)
F比值计算
计算MS处理间
计算MS处理内
计算F比值
F=11.28 表明 F比值的分子 显著大于 分母。 (远>1~处理效应明显耶~)
ANOVA 总结表
就是把计算的结果放到一个表里 SS和df,都是 “间”+“内” = 总计 MS是SS/df呀~方差呀~ F是 MS间/MS内 呀~(要比较处理效应(“间”一部分)是否在随机因素(“内” + “间”一部)中显著嘛,所以“间”是分子哦~)
12.4 F比值的分布
F比值特征
F比值由两个方差(比值的分子和分母)计算得出,故 F值永远是正的。(方差没负数)
当 H0 为真时,F比值的分子和分母测量的是同一个方差。所以F值接近1.00
F比值分布
所有F比值的分布(就是所有,别鸡巴管怎么来的,F分布都这卵样) H0为真时,f分布从0开始,1到达峰值(F只有正数) df越大,所有的f比值越集中于1.00,分布形状越陡峭(样本容量越大,越精准嘛,自然越集中) df越小,分布形状越平坦(样本越分散,数据越散嘛,就平坦了~)
F分布表
表
截取一部分
数字解读
处理间(分子)的df在顶部; 处理内(分母)的df在左侧; 上α=0.05 下α=0.01
例子
这里的分子df=2;分母df=12 看表是,3.88(α=0.05)与6.93(α=0.01) 所以如果要显著,F值要大于3.88(取0.05)或6.93(取0.01) 例子求到的F比值=11.28,远远超于这两个临界值
12.5 假设检验的例子和 ANOVA 的效应值
ANOVA例子
题目
比较考试前的学习策略;
步骤
步骤1
出假设并且确定一个α水平
使用α=0.01
步骤 2
确定F比值的临界区域
df总
24-1=23
df处理间
4-1=3
df处理内
(6-1) x 4 = 20
本组数据的F比值自由度为 df = 3,20 求出临界值:4.94
步骤 3
计算 数值
SS
SS总
SS处理内
SS处理间
MS
MS处理间
MS处理内
F比值
步骤 4
做统计决断
6.45在拒绝域上
注意
结论只能说这组实验确实有处理效应,但没明说是哪些效应 是提出自己的问题不同于使用事先准备好的问题,还是重复阅读不同于只读一次?不幸的是,这些问题是没有得到回答的。(只是确定至少存在一个处理均值 与 其他 不同) 后面会解决这个问题
方差分析的测量效应
公式
η²(方差解释的比例;代替r²)
也好理解,就是处理效应在总的里面占比多少嘛~
例子的效应
报告方差分析结果
F的( )里是df间/内 ; 后面是p ; 然后效应大小 p在一些统计软件里可能会被输出为准确数据(比如p=0.003)
关注ANOVA的概念
处理间的概念
图
处理1和处理2的平均值一样(T=8)
概念
处理1和处理2的平均值一样(T=8),所以处理1和处理2的差异为0,即SS处理间=0; 所以,MS处理间=0; 也就,F比值=0 其实 处理间差异大小,反映着效应 大小,这里0,η²也等于0 处理间差异越大,η²的效应也会越大
处理内的概念
数据图
两个实验; 两个实验分别又有两个独立样本(左处理前;右处理后);
分布图
平均值差异是12-8=4,这是处理间的差异(F比值分子) 两组数据都围绕 平均数 附近(SS小)。这代表处理内的差异小(F比值分母) 通过计算F比值=83.96 非常显著~
平均值差异是12-8=4,这是处理间的差异(F比值分子)与实验A同样 两组数据都分散 平均数 周围(SS大)。这代表处理内的差异大(F比值分母)随机差异太大咯,覆盖了处理效应 通过计算F比值=1.39 不显著~
tips
正如我们在前面章节里注意到的,高变异性使得我们很难从数据上看出任何模式来 实验A中,由于样本的变异非常小,故处理之间4分的差异很容易看出来。 实验B中,由于样本变异非常大,则处理之间4分的差异就不能这么来推断了。 一般来讲,我们可以将变异看作数据中的“噪音”或“干扰”。当存在很大的变异,即存在大量噪音或干扰时,我们将很难看出数据的任何模式来。
MS处理内 和 合并方差
MS处理内的合并方差就是把SS全加起来,再除 df全加起来(可以理解求 处理内 方差的平均~)(和t检验的合并方差结构其实是一样的~) 比如SS分别有:20、20、14、8 ; 自由度都是5,即20+20+14+8 / 5+5+5+5 = 3.1 其实这个算法不就是求MS处理内的公式嘛?~不深究了~没啥用~
一个样本量 不相等的例子 (其实没啥区别...就是处理间那里可能注意下,但spss...直接pass)
题目
实验是求三个专业的作业量; 3个样本的样本容量都不一样~
步骤
步骤1
提出假设,确定α水平。
步骤2
确定拒绝域。
为了确定拒绝域,我们首先需要确定 F比值的df值 α=0.05,临界值(2,17)=3.59
步骤3
计算F比值。
SS
SS总
SS处理内
SS处理间
第一种方法:SS总-SS处理内
第二种方法:用公式处理;需留意T对应的n 丢...直接spss
MS
F
步骤4
做出推断。
由于算出的 F比值不在拒绝域内,故我们不能拒绝 H0(2.95<3.59)
12.6 事后检验
定义
事后检验是 ANOVA 后 的又一个 假设检验,以准确地确定哪些均值差异是显著的,哪些 不是显著的。
使用情况
拒绝了才有必要弄清楚; 如果只有两个,就没必要弄了,直接知道了。
事后检验 和 第一类错误
对偶比较法
比如,当k=3时,我们将比较μ1与μ2、μ2与μ3、μ1与μ3的均值显著差异(就是都比一比)
在对偶比较法中,会涉及多个假设检验,实验α水平会提升(把所有假设检验的α水平相加)
减少实验α水平的方法
Tukey的可靠显著差异法(HSD检验法)
HSD
Tukey 的 HSD检验法使我们可以计算出一个值,来确定足以使处理之间均值差异显著的最小值。这个值称做可靠显著差异,或 HSD,该值用来比较任何两个处理情境之间的差异。(有点类似最小可视差的概念~)
公式
q值在附录表中找(不会也行,无所谓了,spss) 找q的前提得知道: 1、k 2、MS处理内df 3、α水平 4、各处理样本容量要一致
例子
求出 HSD = 2.36 对比不同处理的均值差异,(绝对值就可以)大于HSD就 显著差异 处理A与处理B,5.44-3.00=2.44,大于HSD,差异显著 处理A与处理C,7.00-3.00=4.00,大于HSD,差异显著 处理B与处理C,7.00-5.44=1.56,小于HSD,差异不显著
Scheffé 检验法
概述
Scheffe 检验法在所有的事后检验方法中被认为是最安全的一种。
例子
图
1、比较 处理A 与 处理B
MS处理间
SS处理间
MS处理间
这里df采取的是3个样本间的df(3-1),而不是仅比较的两个~这样显得更严谨~
MS处理内
使用与ANOVA一样的分母~这里的 MS处理内=4.00;df=24 所以可以理解为就是把要对比的两个样本与本来的一些数据去比较嘛(说得可能太抽象...)
F比值
df=2,24,a=0.05时,F的临界值为F=3.40,这里的F小于临界值,不显著
2、比较 处理B 与 处理C
省略过程,求出F=3.40,刚好是临界值,不存在显著关系(≤临界值都不显著哦!)
3、比较 处理A 与 处理C
省略过程,求出F=9.00,大于临界值,存在显著关系
特征
Scheffe 检验法 比 Tukey 更加严格,所以可能有些数据在Tukey显著,在Scheffe不显著
处理A与处理B 不显著 处理B与处理C 不显著 处理A与处理C 却显著 看起来好像矛盾,但其实每个样本可能差异的量不一样,(管它呢,数据说话)
12.7 ANOVA和t检验之间的关系
F = t²
在实践中,这两种方法没有差异。 两种统计方法总会得出相同的统计结论。
t检验比较的是差异:两个样本均值的差异分子)和标准误的差异(分母)。 F比值比较的是方差,方差为差异的平方。 因此,F和t的关系为:F=t²
t检验的自由度 等于 F 值分母的自由度(df处理内)。
一个 ANOVA检验的F比值的自由度为df=1,34。t检验的自由度为34(F值处理内)
独立测量 ANOVA 的假设
与t检验一样
1.每个样本内的观测值相互独立。
2.总体必须服从正态分布。
3.总体的方差齐性。
样本量足够就不用考虑了~
第13章 重复测量 和 双因素方差分析
13.1 概述
1.重复测量 ANOVA
同一个样本 接受 多种处理 (独立:多个样本单独接受处理)
2.双因素 ANOVA
两个或多个自变量(因素) 对 一个因变量(响应变量)的影响。 (单因素分析,是 一个因素/自变量 对 一个因变量 的影响)
假设我们想要研究两种不同的肥料(因素A:肥料类型) 对 植物生长(因变量:植物高度)的影响,同时考虑 施肥时间(因素B:施肥时间) 的影响。
13.2 重复测量方差分析
概述
独立样本可能会存在个体差异的情况,就是有些差异是源于样本本来的差异,比如可能样本1的人就是比较聪明点,所以分数高~ 重复测量没这个问题~
单因素、重复测量设计 研究情景 (12章的 独立测量例子 都是 单因素的~)
1.实验研究。
对同一样本 前后进行多次自变量的操控,观察因变量
比如每个被试都进行了三次干扰的实验
2.非实验研究。
观察 同一群被试 在 两个或多个时间点的测量。(无操控)
这里依据是时间点,依据 时间点观察,并 无操作 (治疗前都是计分前的了,这些时间节点里面并没有任何操作!)
重点是一个有操控,一个无
重复测量方差分析的假设
与 独立测量设计方差分析 相似
零假设
任何平均数之间的差异 不是处理造成的,而是来自随机的、非系统差异。
备择假设
为处理之间存在着不同的效应。
重复测量方差分析的F比值
结构
与独立的差不多
F比值中的个体差异
独立与重复的区别
独立样本包含了个体差异(比如样本的性别、智商的差异) 重复样本不包含个体差异,因为样本都是同一批~
重复测量的方差分析可以把个体差异 分离出来
它的F也可以这样描述 分子的处理间变异 不包括个体差异,因为被试都是同一批 分母的处理内差异 可以分离个体差异,因为也是同一批被试,个体差异可以预测并分离(如下方的例子所示)
比如A的分数普遍比B的分数平均低了10分~ (这就是个体差异嘛~这样就可以稳定预测了~)
最后把个体差异 剔除后,就是 处理间变异 比上 误差变异~
重复测量方差分析的结构
图例
阶段一和独立的一个意思 阶段二,不用纠结太多,你就理解是把个体差异 分离出来就可以!(注意这是被试间差异,不是处理间差异,新的概念!)
残余误差 或 误差变异
在重复测量方差分析中,F 比值的分母被称为残余误差或误差变异(个体差异剔除了嘛~剩下一些抽样、随机的误差), 测量的是如果没有系统的处理效应以及个体差异,分数变异的期望值。(就是剔除了个体差异后的没有处理效应的误差~)
重复测量方差分析的表示方法和公式
图表
这里的N是分数的个数哦~不是人数的个数~ T是一个处理 所有被试的分数 加在一起(比如 只读一次 这个处理,所有被试加在一起就是3+3+4+6+6+8=30) P是一个被试所有的分数加在一起(比如 A被试,所有分数 加一起就3+5+8+8=24)
重复测量方差分析的第一阶段
SS总
SS处理内
SS处理间
重复测量方差分析的第二阶段
SS被试间
其实∑P²/k 就是 求被试间的∑X²(不深究)
这是独立样本的(处理间)
就是SS的公式嘛,其实和独立样本的概念一样,符号不同而已,也可以不用深度理解 这里的值,求的是 被试间的差异,也就是求出了 个体差异, 不要把 被试间差异 看成 处理间差异啊,笑死我,这就是求出 每个被试他们分数的SS嘛,也就是 每个人的分数 离平均数 的离散程度嘛,这个离散的程度就是个体差异~
TIPS
SS被试间 与 SS处理间
被试间 和 处理间 的SS公式是一样的。 处理间求的是 不同处理间的SS(求:实验的有效性),这里是T 被试间求的是 不同被试间的SS(求:个体的差异),这里是P 要理解含义,有时候可能行和列会互换,不要用位置记~比如可能被试在行 列出来,也可能在列 列出来
SS误差(=剔除了个体差异的SS处理内)
SS误差(分母)=SS处理内(原) - SS被试间(个体差异)
求出了个体差异后,我们要在F比值的分母(原SS处理内)中把它也去掉~ 这一步就是把原本在 SS处理内 的 个体差异 剔除掉嘛~
目的是要将个体差异从 F比值的分母中 分离出去 分子 不存在 个体差异了,因为被试一样的~
自由度df
df被试间
例子中,n=6(6个被试),所以6-1=5
df误差
1
对应SS的公式 df处理内=N-k=20 df被试间=5 df误差=20-5=15
2
也可以直接套用这个公式
变异的计算(MS值) 和 F比值
MS处理间
MS误差
F比值
个体差异被剔除,这是重复测量的F比值所包含的含义~
重复测量的F比值查表格式,注意这里是df误差,而不是df处理内了哦~ F比值的df=3,15, α=0.05时,F=3.29; α=0.01时,F=5.42。 无论在α=0.05水平下,还是在α=0.01 水平下,都显著~
本例的 重复测量方差分析总结表
以上数据的总结,但报告基本不用这种格式了~
重复测量ANOVA的 效应值测量
η²
公式
1
重复测量的分子(处理间)是 不包含个体差异的, 所以分母也要剔除掉(被试间), 这样才能得出准确的效应值~ SS总=SS处理间+SS处理内
2
SS总=SS处理间+SS处理内 但我们目的是要剔除分母的个体差异嘛,SS误差就是剔除个体差异的SS处理内了~ 所以这里分母可以是 SS处理间+SS误差
例子
结果表示 处理间差异 解释了 数据总变异(去除了个体差异) 的 81.1%
重复测量方差分析结果的报告
报告 至少有处理平均数、标准差、表格或图(就是要带上这个表~)
重复测量方差分析的事后检验
Tukey的 HSD检验法和 Scheffé检验法 同样适用, 注意公式里的 MS处理内 换成 MS误差 就可以(略)
子主题
重复测量ANOVA的假设
1.每种处理条件内的观测值相互独立。
2.每种处理条件的总体分布正态。(与之前相同,只有在样本量较小时,正态分布的假设才重要。)
3.每种处理条件下的总体方差齐性。
此处与独立一样
4.协方差同质性
协方差同质性指的是在 每个处理条件下 每个被试的相对位置 相同(书本说太复杂...跳过了~~哈哈)
重复测量设计的优势与不足
需要被试少
剔除个体差异
但处理效应可能是因为“时间”因素导致(就是下次测验可能有练习效应、或者灯光、天气这种都有可能影响)
重复测量 ANOVA 和 重复测量t检验
F=t²
t检验的自由度 和 F 比值分母的自由度 相同。
知道就行,没啥用~
13.3 双因素方差分析(独立测量)
图
两个因素 因素A是 自尊高低 因素B是 有无观众 测试这些学生在这些因素下的考试成绩(双因素实验设计、独立样本)
假设
A效应
1.高自尊和低自尊的被试相比,他们的平均数之间是否有差异?
B效应
2.当观众存在或被去除后,均值差异会如何变化?
主效应 解释
AXB交互作用
3.自尊和观众进行特定结合后,均值是否有变化?(例如,观众对 一个 低自尊被试的影响很大,而对 高自尊被试的影响很小。)
交互作用 解释
使用同样结构的F比值
主效应 和 交互作用
图
例子的一些数值
主效应
定义
一个因素的各水平之间的平均数差异,称做该因素的主效应。
例子
因素A、自尊的主效应是8-4=4(就看低自尊的平均数和高自尊的平均数的差异即可) 因素B、观众的主效应是7-5=2(就看没有观众的平均数和有观众的平均数的差异即可)
假设
因素A:两种自尊水平比较
H0
两个不同水平之间没有显著差异(自尊对结果没影响)
H1
不同水平情况下,有显著差异(自尊对结果有影响)
因素B:不同观众条件比较
H0
两个不同水平之间没有显著差异(有无观众对结果没影响)
H1
不同水平情况下,有显著差异(有无观众对结果有影响)
F比值
因素A
因素B
交互作用
定义
定义1
属于双因素一起产生的独特效应。 当被试处理情境之间或单元之间的平均数差异 不同于因素的全部主效应时,双因素之间的交互作用就发生了。(就是相比 主效应“多余” 出来的,不能被主效应解释的,就是 交互作用,看例子就清晰了)
定义2
如果两个因素没 交互作用,彼此独立的话,其中一个因素就 不会影响 另一个因素。 如果其中一个因素会受到另一个因素的影响,就存在着交互效应。
图片例子
1没有交互作用
自尊的主效应是8-4=4,你发觉他们里面的维度相减也是=4(7-3=4,9-5=4),就是没有多余的,主效应能解释。 观众的主效应是7-5=2,里面的维度同样=2(9-7=2,5-3=2),主效应能解释。
没有交互作用,图例是平行的~
2有交互作用
有无观众的主效应,7-5=2,低自尊和高自尊维度相减分别是10-6=4,和4-4=0,这两个均值差异都与主效应的均值差异不同,即不能被主效应所解释,也就是“多余”的,有交互作用。 自尊的主效应,8-4=4,各自维度,6-4=2,10-4=6,也是多余的,有交互作用的~
有交互作用的时候,图例是不平行的
假设
H0
因素 A与因素B之间不存在交互作用。 所以处理情境间的平均数差异 可以被 双因素的主效应所解释。
H1
因素之间存在着交互作用。 处理之间的平均数差异 不能被两个因素的主效应全部解释。
F比值
主效应 和 交互作用 的 相互独立性
双因素 ANOVA 包括三个假设检验:A效应、B效应和 A×B交互作用。 但是这三个假设检验是相互独立的,显著或不显著的主效应与交互作用的任意结合都是有可能的。
1
A效应显著,10分差异 B效应不显著,0分差异 也无交互作用
2
AB效应都显著,但无交互作用
3
AB效应不显著,但有交互作用
双因素方差分析的结构
方差分析图
分析的第二阶段的目的则是把 处理间变异 分割为三个部分: 归因于因素A的差异、 归因于因素B的差异、 交互作用所产生的差异、
例子
题
来自一项比较两因素研究的数据。 因素A:时间控制(自行调整和固定) 因素B:呈现模式(纸或电脑屏幕) 因变量为学生在有关学过的短文的测验上的表现。 每种处理条件有5个被试。
步骤
双因素方差分析的第一阶段
总变异 分成 处理间变异 和 处理内变异 与 单因素方差分析 的公式是相似
总变异
公式
例子计算
df
处理内变异
公式
每一处理内的SS都要相加~(例子交叉成了4个处理情景嘛,4个都要加)
例子计算
df
对应的,每个处理内的df也要相加
处理间变异
公式
1
2
例子计算
1
2
df
4-1=3
双因素方差分析的第二阶段
图
1 因素A
概述
因素A有两个水平(自行调整、固定),用两个水平的总分(T行)求SSA
公式
公式和之前那些一致,也不用过于深究 n行记得是5+5=10,先忽视因素B的划分,直接把数据合并~
计算
df
对应SSA概念,计算两行而已嘛~
2 因素B
与A计算一样,只不过换了列而已
3 A×B的交互作用
概念
A×B的交互作用是多余的、不能由两个因素的主效应解释的平均分的差异。
公式
多余的嘛,减去他们就行啦~
代入例子数据
df
对应SS
双因素方差分析的均方(MS)和 F比值
MS处理内
MS处理间
公式
没啥区别,就是代入数据就好了
计算
F比值
得到三个F比值,分别检验他们是否显著
df=1,16的时候(这个例子的FA、FB、FAxB的自由度一样~), α=0.05时临界值为4.49, α=0.01时临界值为8.53 FA和FB都不显著 FAxB显著,两个因素之间有显著的交互作用。
总结表
报告不常用了,看看也好
双因素 ANOVA 的效应值测量
η²
概述
对于双因素ANOVA,我们需计算三个不同的η² 一个为因素A的 一个为因素B的, 第三个为交互作用的
公式
1
与 重复测量ANOVA 一样,我们需要把 其他因素的变异 除去 如因素A的,我们只保留SSA的所要解释的变异,把其他变异(因素B与交互的)去掉
2
也可以改写这个公式 SS总=SS处理内+SS处理间 SS处理间=SSA+SSB+SSAxB,(把SSB和SSAxB,减了就只剩下SSA啦~)
因素B 与 交互 同理
代入数值
报告 双因素方差分析的结果
与 单因素反差分析 报告一样,这里应该附表,但书里可能忘记加了... 双因素方差分析有3个F比值嘛,都报告出来~
双因素方差分析结果的解释
上面已知 因素A和B的主效应 都不显著,只有交互 显著 就是如果单看时间控制(因素A)或者呈现方式(因素B)都得不出结论 解释的时候得结合在一起解释~ 比如自行调整的情况下,纸张比电脑屏幕效果好(因为分数更高嘛) 而固定情况下,纸张对比电脑屏幕效果差不多(分数差不多嘛)
图表化是这样~可以看出 自行调整的情况下,纸张比电脑屏幕效果好(因为分数更高嘛) 固定情况下,纸张对比电脑屏幕效果差不多(分数差不多嘛)
双因素方差分析的假设(和前面差不多)
1.样本之间的观察值必须相互独立。
2.样本所属的总体服从正态分布。
如前所述,正态性假设常常不那么被关注,样本数目够大就行
3.样本所属的总体必须有同样的方差(方差同质性)。
方差同质性假设是非常重要的,进行方差分析之前可以先进行一个方差同质性的检验(Hartley 的 F-max 检验) 这个双因素独立测量,每个 单元格/处理场景/样本都需要方差同质性哦, 比如上方的例子被两个因素划分有为4个处理场景,也就是需要4个样本哦~他们都要方差同质性~(如果因素有p和q个水平,那么总共会有p * q个单元格/处理场景/样本)
第五部分 相关和非参数检验
第14章 相关
14.1 概述
相关
关是用来衡量和描述两个变量 关系的统计方法,通常这两个变量只是自然地存在于环境之中,没有试图要控制或操纵的变量。 相关关系需要每个个体的两个分数(分别来自两个变量),这些分数通常被定义为X和Y。
相关性图标呈现形式~左边是表格,右边是散点图 通过散点图可以看出似乎家庭越有钱,学生成绩越好
相关可以测量XY关系的特征
1.关系的方向
相关的符号,正或负,描述了关系的方向。
正相关,两个变量方向相同 负相关,两个变量方向相反
温度越高,啤酒销量越高(正相关) 温度越高,咖啡销量越低(负相关)
2.关系的形式
这种就是线性关系,散点图围绕着一条线嘛~还有其他关系,后面说~
3.关系的程度
相关能够测量数据的拟合程度, 比如,线性相关主要测量数据点与直线的拟合程度。
这种是完美的拟合程度,点都附在线上了,每次X变化都能准确预测Y, 相关一致性为-1,也叫 完全负相关。 相关一致性是 -1 至 1,-1和1是最高的,也就是完全X相关。
一个强的正相关,大约+0.90;
一个相对弱的负相关,大约-0.40。
这种是完全不一致,相关值为0, X变化,Y都是随机落点,无法预测
这些相关图里面的线也叫“包络线” 包络线越胖(以至于一个圆),相关性越低, 包络线越瘦(以至于一条线),相关性越高
关系的方向 和 关系的程度 是相互独立的 +1和-1都是完美的一致性关系,只是方向不同 +0.8和-0.8都是同样程度的相关,只是方向不同 相关永远不会大于+1或小于-1
14.2 皮尔逊相关
定义
皮尔逊相关主要用来测量两个变量的线性关系的方向和程度。
皮尔逊相关测量个体在 X分布中的位置和Y分布中的位置 之间的关系。 例如,正相关表示,个体在X变量上得分越高,在Y变量上得分越高。 类似情况,负相关则意味着个体在 X变量上得分越高,在Y变量上得分越低。
符号
r
公式
离均差积和(SP)
用来测量X与Y 的共变性(这个共变性其实就理解为X与Y一起变就好了~)
定义式
MX 为 X变量值 的均值, MY 为 Y变量值 的均值。
计算式
计算式使用原始数据,更好计算~
SP与SS比较
定义式
SS
SS的是平方,就是自己乘自己,所以也可以改写成这样
SP
计算式
SS
同样,把平方改写,就会得出结构一样的公式~
SP
结构
分子:SP测量X和Y的共变性 分母:用 X 与 Y 的 SS 来测量
最终公式
例子
图
计算他们的皮尔逊相关
步骤
1
可以先代入散点图,从走向大概判断是正相关
2
把r(皮尔逊)公式需要的数值列出~
3
代入公式
相关和散点图的模式
r = +0.875 可以发觉相关与散点图是吻合的,是正相关,而且相关度挺高~
皮尔逊相关可以描述 数据存在的关系模式(就是主要描述这些数据之间怎么样的关系),所以任何不改变数据模式的因素都不会造成相关的改变。 即每一个X or Y 加、减、乘、除 同一个常数,不会改变其相关性(模式没变,之间的关系没变) 如上图,如果每个X都加或者乘一个数,数据只是整体向上跑,XY之间相关性不会变~ 或者每个Y都减或者除一个数,数据只是整体向左跑,XY之间的相关性也不会变~
皮尔逊相关和z分数
X、Y 可以转换为 Z(个体得分在分数分布中的位置)
XY是样本数值的公式
XY是总体数值的公式
皮尔逊相关系数的计算公式可以用z分数来表达。
害,不用纠结怎么来的~
样本公式
总体公式(注意:总体的相关采用的是希腊字母ρ)
14.3 皮尔逊相关的应用和解释
皮尔逊相关使用的情况和原因
1.预测
如果通过某种系统的方式证实两个变量之间存在相关关系,那么我们就可以通过一个变量 对 另外一个变量 进行精确的预测。
例子:比如申请大学的时候,需要提交SAT成绩,因为SAT和学业表现呈正相关,学校可以预测
2.效度
计算效度的一个普遍方法就是相关
例子:如果某个心理学家编制了一个智力测验,如果该智力测验确实测到了智力,那么测验得分应该与其他智力测验 相关。(就是借用其他量表 来检验 自己的效度)
3.信度
评估信度的一种方式是用相关来确定两个测验的关系
例如,上个星期你的IQ测验得分为113,那么这个星期的IQ测验你应该得到近似的分数。
4.理论核实
就是写论文类似那种思路~
例如,一个理论预测脑的大小和学习能力的关系, 一个发展理论预测父母 IQ和孩子IQ的关系, 一个社会心理学家的理论预测人格类型和社会环境行为的关系。
解释相关
1、相关和因果关系
相关 只是描述两个变量之间的关系,并 不能解释为什么两个变量有关系。具体来说,相关不能解释两个变量的因果关系。
例子
比如不同城市里,教堂越多的城市,犯罪案件就越多,这是真实的,但这是相关,并不能说明因果,存在这种关系的实际因素是因为“人口数量”。
2、相关和限制范围
相关值很容易受数据的分布范围的影响。(其实也是说样本与总体的关系)
例子
比如总体的数值其实是较高的正相关的,(整体看) 但如果如果范围局限了后关系就变模糊了(右边的圆,只取了这里的样本值)
3、极端值
一个或两个极端值对相关值有极大的影响。
例子
左边的图,相关性极低; 但加了一个极端值(14,12)后,相关性马上飙升到0.85,非常高的相关 所以我们看相关的时候也要看散点图,不能仅仅依靠数据去判断~
4、相关和关系的程度
相关两变量关系的程度,用数值来判断,例如,0.50介于0和1.00之间,所以0.50表示两者为中等程度相关。 不能用比例来表述,比如相关值为+0.5,不代表X可以50%地去预测Y。 如果需要描述比例,要转换为r²(相关的平方),比如r=0.5,只能说有r²=0.25(0.5²)的概率去预测~
r²
定义
r²被叫做决定系数,因为它主要测量一个变量的变异量可以被另外一个与其有关系的变量所决定的比例。(其实就是预测的比例啦,不用那么复杂) 例如,相关值r=0.80(或者-0.80)意味着 Y值 r²=0.64(64%)变异可以被 X值 预测。 或 X 可以解释 Y 64%的变异量
例子
相关值r=0(r²=0),即我们不能用一个人鞋子的大小来预测一个人的智力水平。
相关值r=+0.60(r²=0.36),意味着IQ分数可以解释 GPA 的36%变异量。 只是中等关系相关,IQ可以一定程度上预测大学GPA,但还要结合其他方面
r/r²=1.00(完全线性相关),如果年薪可以解释 月薪的100%变异。
大小或强度
正如,r²在第9、10和11章中可以用来估计效应值的大小一样, 也可以被用来估计相关的大小或强度(也可以用这些小、中、大的范围)
14.4 皮尔逊相关的假设检验
假设
双侧
零假设
ρ 是 总体的相关值 r 是 样本的相关值 (假设都是对总体做出假设的哦~)
备择假设
单侧
零假设
预测一个正相关的假设(预测负相关的话要注意方向)
备择假设
误差
圈起来的是样本值 总体是零相关,但样本值却表现出了较高的相关性 样本与总体是有误差的
假设检验
概述
相关的假设检验可以采用 t检验 或 F检验(后面说)
公式
结构
跟第9、10和11章中介绍的t检验一致
标准误
完整的公式
自由度
因为只有2个相关的话,肯定会组成一个直线(没法自由),是完美的相关 只有数据点大于2才能自由变化。
例子
例子1
题目
样本量n=30 样本相关r=0.35 α=0.05的双侧检验 确定一个 非零样本相关 是否也存在于 总体之中(就是总体 是否也相关就是了)
步骤
假设
t值
临界值
df=28,t的临界值为t=±2.048 t值没有在拒绝域,不能拒绝零假设。
例子2
题目
样本量n=30 样本相关r=0.35 α=0.05的单侧检验 确定总体 是否存在正相关
步骤
假设
t值
临界值
df=28,t的临界值为t=1.701(单侧) t值在拒绝域,拒绝零假设,总体存在正相关。
tips
大多数假设检验,如果其他条件不变,当样本量增大时,相关的结果更容易显著。
报告相关
1 两个变量
2 多个变量
相关矩阵
偏相关
概述
有时候两个变量会受第三个变量的影响 比如上面的例子,教堂越多,犯罪越高,其实受到人口因素影响。 可以控制第三个变量进行研究~(提纯)
定义
偏相关是通过 保持第三个变量恒定 来控制 第三个变量的影响,从而测量 两个变量之间的关系。
公式
三个变量(X、Y、Z)两两相关
偏相关公式
这里就是把Z给控制了~
例子
表格
三个变量之间相关 都是 高度正相关
散点图
Z(人口数)根据量级分成3个分类变量,小、中、大城市 Z=1,人口数少时,教堂数量和犯罪也少; Z=2,人口数中等,教堂数量和犯罪也是中等; Z=3,人口数大时,教堂数量和犯罪也增多。 城市人口数量增多时,教堂和犯罪数量也会增多, 教堂数量 和 犯罪数量 呈显著的正相关。
控制偏相关
如果就这样看整体,教堂数量好像与犯罪数量是高度正相关 如果控制了人口变量,可以看到那三个红色圈,就是限定在红色圈(固定了人口变量)去观察教堂数量和犯罪数量是零相关!
计算 偏相关
排除 人口数的差异,教堂和犯罪之间没有相关(r=0)。
14.5 除皮尔逊相关之外的其他相关
概述
皮尔逊相关专门用来测量两个变量之间的线性关系程度。 它被广泛用于等距量表和等比量表数据的测量
其他三种相关
斯皮尔曼等级相关
点二列相关
φ相关
均有自己的应用~
斯皮尔曼相关
概述
当用 皮尔逊相关公式 来计算来自 顺序量表(排序) 的数据时,所得的结果称为斯皮尔曼相关。(不同人名啊~哈哈)
符号:rs
使用条件
在 原始数据 是 顺序数据 时使用,即X和Y值是等级数据。 在这种情况下,可以将顺序数据排序,将排序代入 皮尔逊相关公式 进行计算。
当原始数据为 等距或等比数据 时,使用斯皮尔曼相关,目的是测量X变量和Y变量之间关系的一致性,且一致性独立于这种关系的具体形式(也即和其形式无关)。
例子
目的
斯皮尔曼相关可以用来测量 两者关系的一致程度(X值的增加总是伴随着Y值的增加),和其形式无关(和原本数据的分布形状啥的无关~)。
斯皮尔曼测量的是一致性而不是形式,其原因是: 当两个变量有一致性关系时,它们的 等级数据 将会呈现线性关系
当两变量之间有一致的、单一方向的变化时,他们的关系被称作是单调的(持续增加 or 减少)。 因此,斯皮尔曼相关测量的是两个变量之间单调关系的程度。
就是想要看这两个变量的走向啊,一致性啥的而已~ (无需关注 变量具体的数值分布 - AI说的)
例子1
分数图表与散点图
注意,这些数据显示了完全一致性关系:X值的增加总是伴随着Y值的增加。 但是,两者关系并不是直线的,见散点图。
转换 等级数据
就是给他们的X、Y分数给个等级, 最小的X、Y值定义为1,第二小的X、Y值定义为2,第三小的3,如此类推~
转换了等级的散点图,呈现完美的线性关系。
例子2
图
单调的关系,X增加,Y减少
对X、Y排序~
计算
注意:斯皮尔曼相关计算的是“等级数据”(12345的等级数据哦,不是原始数据~)
SSX
∑X=15(注意是等级数据相加哦,1+2+3+4+5) ∑X²=15
SSY
SSY的数据和SSX一样的~
SP
XY上面已经算了,也是等级数据哦~
rs
斯皮尔曼相关 用 皮尔逊相关的公式 处理 等级数据 即可 斯皮尔曼相关值显示两个变量之间的关系为 一致的(几乎完全的)负相关 。
排列 并列数据(相同的数据)
这些相同的数据,取他们的等级平均值作为最终等级~ 3、3,他们就是(1+2)/2=1.5 6、6、6 他们就是(4+5+6)/3=5
皮尔逊相关的特殊公式
公式
D是 X等级 与 Y等级 的差值 和皮尔逊相关计算的值是相同的 但只能用在没有 并列数据的情况用(或者很少量的并列数据)
例子
图
X-Y或者Y-X都行,最后要²的,一样的~
代入公式
和上面例子计算出来一样的~
点二列相关 和 测量效应r²
点二列相关 定义
主要用于处理 一个连续数据的变量 和 另一个只有两个值的变量 之间的关系程度。
我们把 只有两个数值的变量 称为 二分变量,如
1.男性和女性
2.大学毕业生和非大学毕业生
3.头胎出生和非头胎出生;
4.一个特定任务的成功和失败;
5.大于30岁和小于30岁。
计算
为了计算点二列相关,我们常把二分变量的 一个值标注为0, 另一个值标注为1。 然后 皮尔逊相关的公式 可以用于这些二分型数据。
例子
独立测量t检验 的 样式
分开两个独立样本,每个样本10个被试
进行独立样本t检验,得出t=4.00,其中df=18。 通过计算得出r²=0.47。
点二列相关 的 样式
单样本,1表示看过,0表示没看过
通过数据求出r,进而得出r²=0.47
相关 和 假设检验 关注的点不一样 1.相关主要测量两变量的关系程度,完全相关(接近1.00或者-1.00)表明孩子5岁时的看电视习惯和未来高中成绩之间的关系是一致的,是可以预测的。 2.t检验主要评估两者关系的显著性。假设检验判断看过《芝麻街》节目的孩子是否比没看过的孩子的成绩表现更好,这个平均数差异是否合理,而不只是由于误差引起的。
φ相关
φ相关 定义
当 两个变量(X和Y) 均为 二分变量 时,这两个变量的相关称为φ相关。
计算
步骤
1.将两个二分变量分别进行赋值,将二分变量的其中一类记为0,另一类记为1。
2.将赋值代入 皮尔逊相关公式 进行计算。
例子
图
出生顺序 和 人格 之间的关系 先将二分变量赋值~如图所示
原始数据
→转换→
转换数据
然后代入皮尔逊相关公式。 tips:因为赋值是任意的(每个类都可以被赋为0或1,你想给-1,-2都可以,看你喜欢),所以相关结果的符号 是 没有意义的。 相关的强度可以用决定系数r²,来解释
14.6 回归简介
概述
图
SAT分数 与 大学平均成绩(GPA)之间的 关系。 通过数据点的中间部分,我们得到一条线。
勾画直线的目的
1、关系更容易被看到。
2、直线显示了两者关系的中心或中心变化趋势, 就如 平均数在一组数据中描述的中央趋势。
3、该直线可用于预测。
线性方程
公式
变量 X和Y 的一般线性关系 b和a是固定常数 b是斜率(当 X增加1个单位 时 Y变量的改变量) a是截距(X=0,Y的值)
例子:Y=-3X+7(斜率为-3,当 X 增加 1时,Y 减少 3。)
例子
斜率b=2,就是每多租一张碟,花多2元(就是每当x增加1的时候,y增加2) 截距a=5,就是即使不租碟(X=0),也要每年给个5元
图表
求出两点就可以用确定一条直线了~
回归
回归 定义
求一个 数据集 的 最佳拟合直线 的统计方法就是所谓的回归,由此得出的直线被称为回归直线。 最佳拟合直线:这条直线尽可能地贴近 所有的数据点。
最小二乘法
概述
预测Y(Y上面有一点)=bX+a(这个就是预测的 最佳拟合直线) 预测Y和实际Y是有误差的~最小二乘法就是找他们最小的误差,然后形成最佳拟合直线
公式
b(斜率)
SP 是 离均差值 积和 SSx 是 X的离均差平方和
SY、SX是Y和X各自的标准差,r为X和Y的皮尔逊相关
没必要知道怎么求的!超出学习范围!
a(截距)
回归方程
Y的回归方程就是线性方程
例子
数据
预测Y值的线性回归方程的计算和应用 求了 X、Y的离均差平方 和 他们的离均差乘积。(后三栏)
代入公式求a、b
回归方程
代入数据就行了~
图
通过回归方程可以确定 这组数据 的最佳拟合直线 点是原始数据的分布 线是 这组点 的最佳拟合直线
特征
(Mx,My,)这一点永远在回归直线上,也就是X均值和Y均值的点,永远会在这直线上 比如上图的Mx=4,My=7,就在这条线上
相关的符号(+或-) 与 直线斜率(b)的符号一致。 如果相关为正,斜率为正,直线向 右上方 延伸。 如果相关为负,斜率为负,直线向 右下方 延伸。 如果相关为0,斜率为0, 直线 为一条水平的直线。 例子中的斜率是2,所以X与Y相关为正
使用回归方程 预测
预测
回归方程最普遍的应用就是预测。 对于任何 给定的X值,我们可以 利用方程 计算Y的预测值。
解释时,注意事项
相关越高,点就越聚集在最佳拟合直线 周围(误差越小), 反之越分散(误差越大)。
回归方程不应被用来对原始数据范围以外的X值作出预测 比如上面的例子,X值是从1-7,那我们预测的不应该超出这个范围
回归方程的标准化形式(没啥用)
公式
回归方程前,将X和Y转化成z分数,得到的方程被称为 回归方程的标准化形式 一组z分数的均值总是为0,标准差为1。(因此a在这个标准公式里也消失了) beta也就是b(斜率)
也可以简化成这样
因为将原始分数转化成Z分数比较麻烦,研究者经常计算回归方程的原始分数形式而不是标准化形式。 然而,大多数计算机程序会对 beta 值进行报告,作为线性回归结果的一部分,所以你应该知道这个值所代表的含义。
估计的标准误
概述
同样的回归方程,预测的精准度不同 上图的X和Y有着完美拟合的相关r=+1,所以线性方程 完全拟合 数据。 下图线上Y的预测值只是大致接近 真实的数据点。 为了测量回归的精确度,通常会计算 估计标准误。
估计标准误 定义
估计标准误测量的是回归直线上的预测Y值和实际Y值之间的标准距离(就是求误差)
计算
SS残差
测量的是实际Y值和预测Y值之间的距离
自由度
因为回归方程要知道X与Y,所以自由度有两个限制,所以-2 或者说,需要两点确定一条直线~所以-2
变异
用SS 除以 自由度
最终公式
对 SS/df 进行开方
例子
题目
用上方例子的数据
所以目的就是求预测Y与实际Y的差异嘛~ 预测Y是通过回归方程得出的~ 残差和为0(任何数据的残差都是0),这代表 线上距离之和=线下距离之和 Y的预测本来就类似那些点的平均线嘛,他们相加当然=0~
公式
把上列数据代入公式得出
记住:估计标准误提供的是回归直线 预测Y值的准确性。 在此例中,实际数据 和 回归直线的标准距离可以用估计标准误 2.708来测量
标准误 和 相关之间的关系
概述
1
估计标准误 与 X和Y的相关大小 有关。 如果相关为1或-1,数据会聚集到线上,估计标准误很小。 如果相关趋近于0,数据点会变得很离散,直线提供的准确预测值很小,估计标准误变大。
2
r²就是 Y变异 被X 所解释的部分 1-r²,就是 未被解释 的部分
r²就是落在了直线上的 1-r²就是没能落在直线上的,也就是残差
预测的变异
意味着 Y变异 中能 被X解释的部分 落在线上的
未被预测的变异
意味着 Y变异 中能 不被X解释的部分 SS残差说的是实际Y值和预测Y值之间的距离,那也就是没有落在那些线上的变异嘛,另一种角度看而已~
例如r=0.8的时候,预测的变异r²=0.64,还有1-0.64=0.36没有被预测
例子
求出来的SS残差是一样的
回归分析:检验回归方程的显著性
方差分析
左边预测到的(在拟合直线上的),右边不被预测到的(不在拟合直线上的) 如果 左边 大于 右边,那就是显著的
假设
斜率为0,这条线就是平的
F比值
就是 能解释的部分 比 不能解释的部分 ~ 越能解释,越显著嘛~
MS公式
MS回归的df=1,是因为在回归曲线上 一个Y 只能被 一个X解释呀,只能等于1
自由度
查表也是根据这个,无所吊谓
例子
题目
以上数据都已经算过了
计算
预测变异(SS回归)
能预测、解释的部分(在 回归直线上的~,所以也叫SS回归~)
未能预测变异(SS残差)
不能预测、解释的部分(不在回归直线上的~残差嘛~) 也可以直接用 156(SSY) - 112.01(SS回归) = 43.99(SS残差)
求MS
F
df=1,6。当α=0.05时,临界值为5.99。所以可以拒绝假设,是显著的~
总结表
回归的显著性 和 相关的显著性
在只有一个变量X和一个变量Y的情形中,检验回归方程的显著性 = 检验皮尔逊相关的显著性。 所以,当两个变量的相关显著时,我们可以得出回归也是显著的。 同样地,如果 相关不显著,那么回归方程也是不显著的。
t²=F
F
皮尔逊相关的t检验公式
原公式
零假设,p=0,所以这里p没了
把t给平方一下 1-r² —— 未被解释比例 n-2 —— 自由度
把t²的分子分母同时乘以SSY 分子就是MS回归:SS回归/df=1 分母就是MS残差:SS残差/df=n-2
第15章 卡方检验:拟合优度和独立性检验
15.1 参数 和 非参数统计检验
参数检验
用样本 回答 总体, 需要数据,不然没办法计算,往往需要样本均值回答总体均值的问题等 数据来自 等距量表 或 等比量表 上面学的内容都是参数检验,这章学非参数检验
非参数检验
检测 顺序、称名 变量 不存在 具体参数 和 总体分布的假设。因为后者的原因,非参数检验有时被称为自由分布检验。 许多 非参数检验 的数据只是频率(出现多少次)
转换数据
也可以把 数值型数据 转换成 非数值型数据,比如某个自尊数值,可以划分为高、中、低等
使用情况
1.在一些时候获得分类数据的测量更简单
比如,测量学生的领导能力,将其分为高、中、低类别比获得数值分数更加简单。
2.原始分数 不符合一些统计条件
就是比如 不满足 总体正态分布、方差齐性假设等,就可以转换
3.原始分数 可能具有不寻常的大的方差
就是误差太大,转换成分类 就能减少方差
4.有些时候,一个实验可能会产生一个不确定的或者无穷的分数
例如,老鼠在走某个迷宫时,经上百次试验仍没有表现出解决问题的迹象,那么这只老鼠就有了无穷的 或 未确定的分数。(可归到最高组)
15.2 拟合优度的卡方检验
拟合优度的卡方检验 的 定义
拟合优度的卡方检验主要 使用 样本数据 检验有关 总体分布形态或比例 的假说。 检验决定所获得的 样本比例 与 虚无假设中的总体比例 的 拟合程度。
例子
1 女性职业律师人数 与 男性职业律师人数 相比结果如何? 2 对于可口可乐公司的两个领导品牌,大多数美国人喜欢哪一种? 3 在过去的十年里,修读 商学专业 的大学生比例 发生显著的变化了吗? 都是有关 总体比例 的问题,将个体分类,并想知道每个类别占总体的比例
拟合优度的卡方检验 虚无假设
H0设定依据
1.无偏好、等比例假设(无偏好虚无假设)
虚无假设往往是陈述 不同类别 之间没有偏好。(也可以根据需要分不同的比例) 如图,偏好都相等
备择假设(H1)就相反嘛,会假定总体没有等分
2.在 已知总体 中 没有差别(无差异虚无假设)
已知总体(司机年龄分布): 司机年龄<30岁,占司机人群28% 司机年龄>30岁,占司机人群72% 假设总体(超速罚单年龄的比例): 那么罚单司机年龄的比例也与上面比例一致(就是两个 总体 的比例 一致的) 目的是通过 已知总体 去推断 假设总体的比例嘛~
备择假设(H1)就相反嘛,会假定 两总体 不一致, 比如例子,H1认为持罚单的司机数量在一个年龄组更多,在另一个年龄组更少。
拟合优度卡方检验 数据
实际频数(来源 实际样本)
定义
实际频数是 被分入 每个特定类别的 样本的数量。每个个体都只能在一个类别中。 比如例子中,不锻炼中的15、一周一次的19等,这两个15、19就是实际频数 实际频数总是整数(通过计数获得的,都是一个一个数进去的~)
符号
例子
根据他们实际锻炼情况(就是按实际测量的哦~),分入不同的组别 15个不规律锻炼的、19个平均每周锻炼一次的和6个每周锻炼多于一次的。
实际频数总和 等于 总样本
期望频数(来源 假设总体)
定义
每一类别的期望频数是由 虚无假设中的比例 和 样本量(n) 预测的。 期望频数是一个理想的、假设性的样本分布。 样本的比例 只有与 虚无假设中指定的总体比例 完全一致时,才能得到上述的样本分布。 期望频数可以不是整数(通过计算获得的,可能为分数或小数)
符号
例子
比如总体假设如此
比如你样本量n=40,那么 样本分布比例 与 假设总体分布的比例 一致 也就是把n=40分别乘以不同类别里面的比率而已~
卡方统计 公式
符号
公式
测量 实际频数(fo) 与 期望频数(fe) 的 差异/拟合程度 如果结果较大,就说明实际与假设的数据不拟合,就拒绝 假设
为什么要公式要比上fe(期望)呢? 就是我们的差异大小是相对 预期来说的, 比如我们预期一个聚会有1000人来,多出40 没啥大问题, 如何只预期10个人来,却来了50个(多出40),那差异就大了~
计算步骤
卡方分布 自由度
特点
1.卡方公式涉及平方值。因此,所有的卡方值都是 零或大于零。
2.当 H0为真时,实际频数 非常接近 期望频数(拟合度高)。 因此,当 H0为真时,我们预期卡方值会比较小。
结合两个特点,卡方分布是正偏态
自由度
公式
C是类别数量(分组数量)
分布形态
类别数目会对卡方分布的确切形态起作用。 类别越多(就是自由度越大),越可能得到大的卡方值。
原理
自由度主要测量当你 确定 虚无假设或期望频数时 可以自由选择的数目。 比如分了三组,有两组可以自由选择,但是最后一组是固定的(加起来要=100%嘛)
卡方检验 拒绝域
左侧自由度,右侧拒绝临界值 比如,在一个df=3的卡方分布中,只有5%(0.05)的值大于7.81,只有1%(0.01)的值大于11.34。
拟合优度的卡方检验的实例
题目
一幅模糊的抽象画,四条边作为顶端都可以,看被试是否对某条边 作为顶端 有偏好
步骤
步骤1 陈述假设,并选择一个显著性水平。
H0
H1
在一般总体中,人们偏好 一个或更多的 方向。
显著性水平定为0.05
步骤 2 定位临界值。
自由度
子主题
临界值
步骤3 计算卡方统计量。
1 根据 H0计算出 期望频数
根据 H0 和 样本量 得出的 期望频数
2 计算卡方值
步骤 4 做出决定和结论。
8.08(计算出来卡方值)>7.81(临界值),拒绝H0 所研究者得出结论,四个方向并不是完全同等被偏好的。 反之,四个方向有着显著的差异,即与期望频数相比,一些方向会有更多人选择,而另外一些方向选择的人数则比偶然情况更少。
报告
X²( )里报告自由度,和样本容量。
但你又不给列出来- -我去你的
拟合优度 和 单样本t检验
决定是使用 卡方检验 还是 t检验 的主要因素
被试获得的数据类型
等距或等比 —— t检验
称名或顺序 —— 卡方检验
15.3 独立性的卡方检验
卡方统计也可用来测量 两个变量之间 是否有关系。
实验:通过不同关键字的提问,考察 目击记忆(是/否) 与 提问问题(撞、碰、未问) 之间 是否存在显著的关联。 自变量(不同组别),决定了行 因变量(是/否),决定了列 每个个体依据 两个变量(想考察的)分类,所以分成了以上矩阵(两位矩阵)~ 再依据 抽样的样本数据 推断 总体两个变量是否有关联~ 注意表中数字是 频数(出现个数),而不是分数!
推断 人格(内/外) 与 颜色偏好(红、黄、绿、蓝) 之间具有显著的关联? 依据 想考察的两个变量,人格与颜色,分成了以上的组别(两位矩阵), 再依据 抽样的样本数据 推断 总体两个变量是否有关联~
独立性的卡方检验 定义
独立性卡方检验运用 样本的频数数据 来评估 总体中两个变量之间的 关联性。 样本中的每个个体都依据两个变量进行分类,以此得到一个二维的频数分布矩阵。 样本的频数分布 被用来检验 总体中对应的频数分布 的假设。
独立性检验 虚无假设
H0版本1
与“相关”相似
这种情况下,每个个体 测量 两种数据(X和Y),目的是评估两个变量之间的关系。
数据被看做 每个个体 均测量了 两个变量(个性与颜色偏好的关系)的 一个单样本。 卡方检验的目标是——评估两个变量之间的关系。
H0 : 学生总体的 颜色偏好 与 个性 之间 没有关系
H1:学生总体的 颜色偏好 与 个性 之间 有关系
H0版本2
与“独立样本t检验 / 方差分析”相似
这种情况下,两个(或更多的)独立样本的数据用来 检验 两个(或更多的)总体之间的差异
数据被看做 两个(或更多)单独的样本 代表 两个(或更多) 单独的总体。(内向者的颜色偏好 与 外向者的颜色偏好 的差异) 卡方检验的目标是——确定 总体之间 是否存在 很大的差异。
H0:学生总体中的 内向者的颜色偏好分布 与 外向者颜色偏好分布 是没有区别的。 这两个分布 具有相同的形状(同比例)。 注意:并不是说两个分布是等价的,它只是说两者的比例是相同的。 例如,10%的外向者喜欢黄色,那么也有10%的内向者喜欢黄色。
版本1与版本2 是 等价
版本1为 颜色偏好 与 人格 无关。 如果这一假设是正确的话,颜色偏好的分布 是不依赖于 个性 的。 换句话说,内向者 和 外向者有 相同的颜色偏好分布(版本2)。 其实这两句话都在表达 我喜欢什么颜色,和我内向外向没关系
实际和期望频数(和上一节原理基本一致)
实际频数
期望频数
1
总样本=200,根据不同颜色的占比得出比率(这个占比是通过抽样(实际频数)得出的一些占比嘛~,只不过要把他们匀一匀~)
2
内向和外向的总人数分别是50,和100,根据不同颜色的占比分别相乘的出数据
3
把数据填入
计算期望频数的简单公式
fc是 列期望频数 总值 fr是 行期望频数 总值 n 是样本总量
比如计算 内向型 被试选择黄色的期望频数。
卡方统计和自由度
公式
独立性卡方检验 与 拟合优度的卡方检验 使用相同的方式
自由度
R是行数,C是列数,这里是(2-1)x(4-1)=3 确实,只有这三个可以自由变化(或者下面的三个),要保证行=50吧~ 也要保证每一列总数对吧,就是保证=100、20、40、40,所以只能这三个自由变~
实例
题目
步骤
步骤1 陈述假设,并选择显著性水平
版本1
H0
H1
两个变量之间存在关系
版本2
H0
H1
两个分布是不同的
显著性水平α=0.05。
步骤 2 确定自由度和临界值
步骤3 确定期望频数,并计算卡方值。
fe(期望频数)
占比通过实际频数获得嘛~
1
无问题行为 = 160/200 =80% 有问题行为 = 40/200 = 20%
2
算出数据~其实也可以用那个简单公式算~
3
代入数据
卡方值
步骤 4 对虚无假设和研究结果做出决定。
拒绝H0
版本1
这意味着我们已确定与 酒精相关的问题行为 与 家长是否允许饮酒 之间有显著的关系。
版本2
数据显示 青少年的问题行为分布 在家长是否允许饮酒 两种情况下是 有显著差异的。
卡方检验与 其他统计方法 之间的关系(和上面H0有联系~)
卡方检验 与 皮尔逊相关
有具体分数,适合皮尔逊
分组,适合卡方检验,是频数,而不是分数哦!
卡方检验 与 独立性t检验和 ANOVA
用t,分了两组独立样本嘛 通过学业成绩划分两组,再获取具体的自尊水平
用f,分了三组独立样本嘛(两组以上用f~) 通过自尊水平划分组,再取具体的学业成绩
用卡方,用的是频数,依据两个变量分的组嘛~
和前面说的其实一样,依据数据类型划分; 就是顺序、称名用卡方(非参数),其他用参数嘛
15.4 独立性卡方检验效应大小的度量
Φ系数 与 克莱姆的V系数
Φ系数(2×2 矩阵)
公式
样本量越大越容易显著,但不影响效应值
这里人数比上面多,所以显著了。 但效应值是一样的~还是0.333~(因为两个样本的比例是不变的)
效应大小
克菜姆的V系数(大于2×2 矩阵)
公式
修改Φ系数的
效应大小
15.5 卡方检验的假设和限制
1. 实际频数 之间的独立性
就是比如个性和颜色那里,你选了红色,你就不可以选蓝色了哦!只能选一个~
2. 期望频数 的大小
之前的例子,1000多来40人,40/1000问题不大。 但10人,多来40,40/10,那问题就大了~
期望频数越小,越敏感容易显著,所以要给个限制 任一单元的期望频数至少≥5(尽量应该选大样本!)
百度网盘.lnk
浮动主题