导图社区行为科学统计精要（第8版）

行为科学统计精要（第8版）

超级详细的行为科学统计精要（第8版）的笔记！！！吐血整理！！介绍详细，描述全面，希望对感兴趣的小伙伴有所帮助！

编辑于2024-01-01 23:38:46

统计
行为科学统计精要（第8版）

END

他的近期作品查看更多>>

行为科学统计精要（第8版）

社区模板帮助中心，点此进入>>

END

他的近期作品查看更多>>

相似推荐
大纲

马克思主义原理
- 21.1k
- 225
- 1.8k
- 321
- 0
yingqi
考研数学重点考点知识总结归纳！
- 5.3k
- 151
- 427
- 91
- 0
jiangzhengfool
数据结构
- 3.4k
- 91
- 150
- 19
- 0
jiangzhengfool
法理学读书笔记
- 5.8k
- 15
- 270
- 39
- 0
嗯坤
思维导图带你认识马克思主义原理
- 7.0k
- 73
- 475
- 34
- 0
机智的大雄
建筑光学基本知识
- 3.8k
- 17
- 42
- 8
- 0
15631176511
考研英语一写作
- 7.1k
- 291
- 1.2k
- 225
- 0
kirin
考研复习知识点之史纲思维导图。
- 12.2k
- 890
- 2.4k
- 600
- 0
宏仔oO
教育学考研：教育学原理第八章教学内容整理
- 3.2k
- 31
- 203
- 20
- 0
许秀全
考研三步翻译技巧
- 1.9k
- 9
- 152
- 10
- 0
何慧四眼哥哥

行为科学统计精要（第8版）

第一部分入门和描述统计

第1章统计学入门

1.1 统计、科学与观察

统计学的定义

统计学指的是一套组织、总结和解释信息的数学过程。

统计服务于两个主要目标

1.统计是用来组织和总结信息的，所以，研究者可以看到在研究中发生了什么，同时可以与其他人交流研究结果。

2.统计通过确定得到的结果中哪些结论是合理的，来帮助研究者回答想要研究的主要问题。

1.2 基础概念

总体与样本

总体

总体是特定研究中所关注的所有个体的集合。

样本

样本是指那些从总体中选出的个体，通常在研究中是被用来代表总体的。

变量和数据

变量

变量是对于不同个体会变化或有不同值的特征或情况。

变量可以是个体间有所不同的特征属性，例如高度、重量、性别或者人格特征。变量也可以是变化的环境变量，例如气温、一天中的时间点，或者是进行研究的空间的大小。

数据

数据是测量或观察所得的结果，同时它常常被叫做分数或原始分数。一个数据是一个单独测量或观察结果。一个数据集是一系列的测量或观察结果。

用来说明变量的变化

参数和统计量

参数

参数是一个值，通常是一个描述总体的数值。参数可能是通过某种单一的测量得到的，也可能来源于一系列对总体的测量。

统计量

统计量是一个值，通常是一个描述样本的数值。统计量可能是通过某种单一的测量得到的，也可能来源于一系列对样本的测量。

每一个参数有一个相应的统计样本，而且大部分研究使用由样本得到的统计结果作为回答总体参数的基础。

描述统计和推论统计

描述统计

描述统计是那些用来总结、整理、简化数据的统计方法。

比如表格、图形、平均数等

推论统计

推论统计包括能够用于研究样本并对样本所来自的总体作出推论的技术。（就是通过样本推论总体）

通常，一个样本统计量和相应的总体参数之间是有差异的。这个差异被称做抽样误差

抽样误差

抽样误差是一种差异，或是一些存在于样本统计量和相应的总体参数间的误差。

选取不同样本会有不同数据差异呢~

粗略的实验步骤，两种统计分别承担的角色~

1.3 数据结构、研究方法与统计

个体变量

变量间的关系

数据结构1

相关法

定义

测量每个个体的两个变量，可以观察两个变量并考察它们是否有关联。

学生的起床时间和学业表现是否有关联散点图（每个点1个学生），横轴起床~~，竖轴学业表现~ 整体看起床越晚，学业越差~

限制

不能解释因果，要因果得实验法。

数据结构2

实验法 and 非实验法

比较两组或多组的成绩（是分组了的！）

比较了两组共有四个变量~如图所示~

举例来说，给一组小学生观看 30分钟包含大量暴力内容的动作/冒险片，给另一组观看没有暴力内容的喜剧片。然后在操场上观察两组学生的行为，由研究者记录每一个学生发起侵略性行为的次数。

实验方法

特点

1 操纵

x → y （改变一个变量，观察是否改变第二个变量）

2 控制

控制研究情景，免去额外变量影响

手拿着钱有止痛效应

在这个实验中，一群大学生被告知他们正在参加一个手的灵巧度的研究。然后研究者通过操纵参与者需掌握的实验材料的材质，产生两种处理情境。一半的学生数一叠的钱，另一半的学生数一叠白纸。在完成数数任务后，要求被试将他们的手伸入一个装满水[122 华氏度 (50摄氏度。——译者注)]的碗里，并对他们的疼痛感评定等级。那些数钱的参与者的疼痛感显著低于数纸张的

要排除额外变量

通常必须考虑

被试变量

假如数白纸都是男，数钱都是女，这就不行，无法说明是否因为性别带来的差异

环境变量

假如数白纸在白天，数钱在晚上，这就不行，无法说明是否因为时间带来的差异

三种技术

随机分配

随机性别、时间等

匹配法

比如测试智商，保证每组智商相等

保持常量

比如实验只用10岁孩子（年龄是常量）

定义

在实验法中，研究者控制一个变量，然后观察并测量另一个变量。为了在两个变量间建立因果关系，实验要试着控制所有其他变量以避免它们影响结果。

实验法中的术语

自变量

实验者操纵的变量

被试所接受的处理条件

钱or白纸

因变量

实验者观察的变量

评估可能的处理效应

疼痛等级

实验中的控制条件

实验方法中，实际上只测量了一个变量。相关研究中，要同时测量两个变量。

控制组

不接受处理，但是会接受一个中性的或者安慰剂的处理

作用

是提供比较实验处理的基线。

实验组

接受处理

接受处理的才是在做实验嘛~

非实验法

类型

非等效组研究

性别不可控~非真实验研究

前后测研究

时间不可控~非真实验研究

非实验研究中的术语

术语与实验研究类似

定义分组的变量叫自变量，分数叫因变量

but，性别不是真正自变量，不能控制，非实验研究中通常称为准自变量

不能产生因果解释

1.4 变量与测量

构建和操作定义

构建

又称假设构建，不能被直接观察到的内部特质（如智力、饿等），但是对描述和解释行为有用。

操作定义

定义一个测量过程(一系列操作)来测量一个外部的行为，并将测量结果作为一个构建的定义和测量。（就是通过外部行为去测量内部特质，比如通过智力问卷测验智力等）

两个要素

第一，它描述了一系列测量构建的操作；

第二，它根据测量结果定义了构建。

离散和连续变量

离散变量

由分离的、不能分割的数值组成，相邻的种类间没有其他值存在。

例如骰子5、6之间没有其他可观察数值

通常是可计数的数值

一个班有18同学，只能一个一个，不可能出现18.5这样的

品质不同的观察结果

性别(男性或女性)、

工作类型(护士、老师、律师等)

大学专业（艺术、生物、化学等）

连续变量

在任意两个观察值之间有无限多的可能值。一个连续变量可以被分割成无限多的小片段。

例如时间、高度、重量等

测量连续变量

任何连续变量，都可以通过一条连续的线描绘

无数的点~

要点

1.测量一个连续变量，很少有两个不同的个体得到相同值的情况。

比如两个人重量可能都150磅，但那只是粗糙的，你不知道一个会不会是150.23212另一个会不会是150.33565等~

2.测量一个连续变量，每个测量种类实际上是一个必须由边界定义的间隔。（or：在连续变量中每个数值都只是代表一个区间）

比如上面例子，两个人体重差不多相同，150磅实际上是一个间隔，由149.5和150.5组成，他们体重在这个范围内，都可以说150磅。

精确界限

精确界限是在连续数轴上的分数间隔的界限（竖着的线，148.5、149.5这些）。精确界限分开了两个相邻的分数，并且位于相邻分数中间（比如149.5位于149和150中间，/149+150/÷2=149.5）。每个分数有两个精确界限，精确上限在间隔上部，精确下限在间隔下部（149.5是150的精确下限；150.5是150的精确上限）。

适用于任何连续变量，非整数也可以，比如时间的，31.0秒、31.1秒、31.2秒等。那么31.1秒的精确下限和上限分别是31.05（/31.0+31.1/÷2）和31.15（/31.1+31.2/÷2），这个精准界限记住是相邻两个数字的中间值，

一个观察对象可以得出不同类型变量

比如人的身高可以分成高与矮（离散）、但也可以测出具体的高度（连续）

测量尺度

类型

称名量表

称名量表包括一些不同名称的种类。称名量表的测量对观察对象进行标注和分类，但是不做任何数量的区别。

比如学生的专业，这个分类可能是艺术、生物、商科、化学等。

不能判断差异方向与大小等，比如艺术不代表比生物多或者好啥的

可以用数字编码，但只是代替名字而已，不具备数量特征，比如男用1，女用0代表

顺序量表

顺序量表由一系列按照一定顺序组织的种类组成。顺序量表的测量根据事物的大小或者数量来排列观测结果。

通常，顺序变量包括一系列等级(第一、第二、第三等)，就像赛马中的顺序。

能确定两个个体是否有差别，以及这个差别的方向

但不能确定差别大小

例如跑马有第一第二、但不确定第一比第二好多少

等距量表

一个等距量表由间距大小相等的有顺序的类别组成。量表中数值相等的差异反映了大小相等的差异。（可加减、不可乘除）但是，等距量表的零点是任意的（相对零点），不能说明测量值的量为0。（0以下还有意义）

如温度

等比量表

等比量表是有绝对零点的等距量表。（0就没了~啥都没了~）在等比量表中，数值的比例反映了大小的比例。（可加减，可乘除）

如高度

一个例子

研究者对一组8岁的孩子进行了身高测量。起初，研究者只是用厘米简单记录了孩子们的身高，得到的值是44、51、49,等等。这个测量是一个等比量表。0 值代表没有高度(绝对零点)。同样，也可以用测量到的数值得到比例。例如，一个 60 英寸高的孩子的身高是40 英寸高的孩子的1.5倍。现在，假设研究者要通过计算每个孩子实际身高的区别和这个年龄组的平均身高，来把起初的测量转换到一个新的量表上。一个比平均身高高1英寸的孩子现在得到的分数是+1;一个比平均身高高4英寸的孩子得到的分数是+4。（就是新的量表里，平均身高的数字是0，高1英寸就+1，矮2英寸就-2嘛~）类似地，一个比平均身高矮 2英寸的孩子得到的分数是一2。在这个量表中，0分代表平均身高。因为0不再说明没有高度，新的分数组成了一个等距量表。注意，两种分数都包括英寸的测量，你也能计算区别和间距。例如，在第一个量表上，两个孩子身高分别为 57英寸和 51英寸，他们之间有6英寸的差距。同样，在第二个量表上得分为十3和+9的孩子身高的差距也是6英寸。但是，你会注意到比例的比较在第二个量表上是不允许的。例如，一个身高得分为十9的孩子不比得分为+3的孩子高3倍

不是说称名量表就肯定是离散，等比肯定是连续，其实是两个概念，量表出来的数据都有可能是连续或者离散。比如兄弟姐妹的个数，这个虽然是离散变量，但属于等比量表（因为可以加减乘除还有绝对零呢！）

统计和测量尺度

这本书介绍的主要统计方法是为等距量表和等比量表中的数值设计的。对于绝大部分统计方法来说，它们两者的区别并不重要，因为两种量表都产生了数值，这些数值允许我们求差、求和、计算平均数。

称名量表和顺序量表的测量结果主要不是数值，不能进行很多基本的数值运算

1.5 统计符号

分数

一般字母X代表一个变量的分数。如果有了第二个变量，就用Y来代表。

测一个变量就有一个分数~

测两个变量就有两个分数...哈哈

大写 N

代表一个总体中分数的数量

小写 n

代表一个样本中分数的数量

求和符号

∑

一些例子

∑X=3+1+7+4=15 ∑X²=9+1+49+16=75（把每个X平方后，再相加）（∑X）²=15²=225（先计算了∑X，再把∑X的结果平方）

∑(X-1)=2+0+6+3=11（把每个X都-1后，再相加） ∑（X-1）²=4+0+36+9=49（把每个X都-1后，再平方，再相加）

∑X-1 = 15-1 = 14（这里没有括号，所以直接相加，然后减1就好~）

此表有4个人，每个人有xy两个分数的意思 ∑X=3+1+7+4=15 ∑Y=5+3+4+2=14 ∑XY=15+3+28+8=54（把每个xy相乘后，再相加）

第2章频数分布

2.1 概述

频数分布

每个分数区间（一组数）包含的观测分数的个数或者每个观测分数出现的次数的整理表。就是一个表，呈现了分数的个数或者次数等，不要管其他太复杂的定义

成分

1.原始测量数据的范围。

2.频数或者每个分数区间被试的个数。

2.2 频数分布表

频数分布表实例

x分数从高到低排列（顺序、等距、等比一般如此；称名可以随意排） f是频数也即次数or个数，就是x分数出现了多少个/次上面表中还出现了5是为了举例，你看f是0，证明这个数没有出现过 ∑f=N（全部加起来就是总人数嘛~）

频数分布表中∑的计算

∑fX 能求出 ∑X 就是你原本∑X=5+4+4+3+3+3+2+2+2+1=29 但是∑fX=5+8+9+6+1=29能直接求出~其实原理是一样的。

比例和百分比

比例

比例主要测量总体中取得每个分数的人数所占的比例。

比如有X=4有2个，总数有∑f=10个人，即X=4的比例是2/10=0.20

公式

比例=p=f/N

百分比

百分比=p(100)=f/N(100)

就是算出比例，然后百分比就可以了

分组频数分布表

全距过大的时候，就要分组了

分的组叫“分组区间”

行数 = 最高分-最低分 + 1

行数不是分组的组数，是用来检验数据会分出多少行的，然后看需不需要分组比如最大数为50，最小数为40，那就会分成50-40+1=11行嘛~ 1、50 2、49 3、48 4、47 5、46 6、45 7、44 8、43 9、42 10、41 11、40 看，这里就有11行了~

一些规则（不是绝对的要求）

规则1

大约10个分组区间

过大繁琐 / 过小缺失信息

规则 2

分组区间的间距应该简单

例如2、5、10、20

规则3

每个分组区间的下限值是组距的倍数。

例如，分组区间的组距是10，每个分组区间的下限值就是10的倍数。因此，最低组的下限值为10，以此类推，20、30、40等。

规则4

有的分组区间应该有相同的组距，并且涵盖所有数据值。

例2.4 一位教师获得了一组 N=25的考试成绩。为了整理这些数据，将它们列于频数分布表中。这些分数是（已整理）： 53，58，60，61，64，69，70，72，73，75，75，76，78，80，82，84，84，84，87，87，88，89，91，93，94，

1 算全距

这里的行数有94-53+1=42行，太大了，需要分组

结合规则1和规则2，要分10组左右，而且组距要简单数值

要试出来的，这里看到组距为5最为合适

2 确定分组区间值（也就是组内的数据范围）

规则3下限是组距（这里是5）的倍数，所以最小区间的下限是50（也符合规则4，全部包含了）组距是5，42/5≈9。所以分9个组。组距是5，区间宽度也就是5，所以一组包含5个数字，最小区间包括5个值：50、51、52、53、54。所以最小区间是50~54（实际上组距是最大数字-最小数字，这里实际是49.5~54.5，所以是54.5-49.5=5）下一组是55~59，55刚好也是5的倍数哦~

一旦你列出了分组区间值，那么再添加一列频数就完成了该表。频数列的数值表示落在该分组区间的分数的个数会丢失一些信息，比如90~94，我们只知道有3个，但不知道他们的具体分数~ 例子的数字 53，58，60，61，64，69，70，72，73，75，75，76，78，80，82，84，84，84，87，87，88，89，91，93，94，

区间界限和频数分布

理论界限

一个分组区间是40～49，它包括了X=40到X=49的分数。这些值被称为区间的理论界限

实际范围

39.5～49.5

2.3 频数分布图

频数分布图就是频数分布表的信息图

描述等距、等比数据的频数分布图

直方图

传统的直方图

矩形涉及每个X取值的限定范围，所以两个条形间没有空隙和间隔（数字连续不断） a.条形的高度对应数据的频数。 b.条形的宽度代表 X值的实际限定范围。矩形的宽度为区间的实际界限(最低分数的精确下限和最高分数的精确上限)。就是你能看到最左边其实是0.5/29.5，最右边是5.5/45.5 右边图的横轴上的“/ /”是代表省略了0-30的数据图的高度应该接近于它的长度的三分之二到四分之三。

通常情况下，我们在X轴和Y轴交叉的地方均以零开始。然而，当零是数据的一部分时，通常需要将零点从交叉处转换到其他地方，以防止覆盖。

修改的直方图

就是不用纵轴了，直接用方块显示，比如获得1分有1人、2分有3人

多边形图

a.每个点位于每个分数值的上方，并且每个点的垂直位置对应该数值或范围的频数。（就是对准横轴、对准纵轴的意思） b.连接各点，使其成为一条连续折线。 c.这幅图通过在每一个成绩区间的末端画一条到 X轴(频率为0)的线完成。该折线左起 X的最低分，右到X的最高分。（意思就是你开头和结尾都要为0，贴着横x轴）如果X是区间的话，取点在组中值=(下限+上限)/2，比如右图的8~9就是（8+9）/2=8.5

描述称名、顺序数据的频数分布图

条形图

与直方图类似，不过是有间隙的，因为这些数据并不是连续不断的

总体分布图

在已经获得总体中每个分数的精确频数后，也可以建立直方图、多边形图和条形图，因为它们不只适用于样本，也适用于总体。（但总体很大，一般不会获得全部数据，下面说的特征好像都只是“大概”描述下总体~）

两个特征

相对频数

很难获得总体中每个分数的精确频数，但是经常可以获得相对频数。例如，我们并不知道湖中有多少条鱼（总体），但是几年的养殖之后，我们可以确定翻车鱼的数量是鲈鱼的两倍。（虽然不知道总体但知道数据之间相对的关系）在条形图中则通过使翻车鱼条形的高度是鲈鱼的两倍来表示相对频数。注意：该条形图不能表示鱼的精确数量，只能表示翻车鱼和鲈鱼的相对数量。

平滑曲线

大概就是用平滑的曲线描述总体的大体分布啥的

2.4 频数分布图的形状

描述分布的三种特征

形状

对称分布

在对称分布中，通过中点的垂直直线将分布图分为对称的两半

偏态分布

在偏态分布中，分数堆积在分布图的一侧，而在分布图的另一侧逐渐减少偏态分布图中分数堆积逐渐减少的那一侧被称为分布的尾端。（尖的那里是尾巴~）尾端位于右侧的偏态分布图叫做正偏态，因为尾端分布趋向于 X轴的正值尾端位于左侧的偏态分布图叫做负偏态，因为尾端分布趋向于 X轴的负值（尾端指向正或负确定了是正or负偏态）

分布集中性

分布变异性

后面章节

第3章集中趋势的测量

3.1 集中趋势的定义

定义

集中趋势是一种统计测量，通过使用一个值来确定一个分布的中心。或者说，集中趋势的目标是找一个值作为整个数据分布的最好或最典型的代表。

在统计学中，平均分的概念或数据代表被称为集中趋势

目标是确定“平均的”或“典型的”个体。

测量集中趋势的三种方法

平均数

中数

众数

3.2 平均值

符号

总体：μ

希腊字母表达总体特征

样本：M或 x—bar

英文字母表达样本特征

定义

数据分布的均值是将所有数据总和除以数据个数所得的值。

平均值的另一个定义

将总体均分

就是把总体的数据平分到每个数字上，让每个数字变得一样

平均值是平衡点

N=5(1，2，6，6，10) 平均值在这个跷跷板上是个平衡点均值以下的总距离与均值以上的总距离是相同的。（5-1）+（5-2）=（6-5）+（6-5）+（10-5）=7 这个减法说的是距离，比如5-1就是1到5的距离，10-5就是5-10的距离，平均值之下的距离总和与平均值以上的距离总和是相等的，目的是为了凸显平均数这个均衡点~

公式

总体均值公式

μ=∑x / N

样本均值公式

M= ∑X / n

加权平均值

对两组数据进行组合以得到总得均值。

需要两个值

各组数据的总和

各组数据的个数

公式

总的平均值=M=(∑X1+∑X2)/(n1+n2) 就是两组数总和÷两组数总个数

注意

总体均值不是两个组原本均值的平均值，即不是（样本1的均值+样本2的均值）÷2

如果一个样本对合成组贡献更大，在确定合成组均值的时候就会占较大权重比如一个样本有20个数，一个样本有10个数，最后合成组的均值和更偏向20个样本的均值

比如这里，第一个样本更大，最后6.4更靠近它

这里的加权平均值不是我之前学的那种，可以看例子

简单来说，加权平均值就是将各个数据值乘以相应的权重，然后将这些乘积求和，再除以权重之和。这里的权重表示各个数据值在整体中的相对重要程度，权重大的数据值对平均值的影响更大。举个例子，假设有一个学生的三次考试成绩分别为 80、90 和 95，学校规定平时测验占 20%，期中成绩占 30%，期末成绩占 50%。那么，这个学生的加权平均分为：加权平均分 = (80×20% + 90×30% + 95×50%) ÷ (20% + 30% + 50%) = 90.5

根据频数分布表计算平均值

个数可以从∑f得出，即8 总分可以从∑fx得出，即66 最后就是66/8=8.25

平均值的特征

改变一个数据

改变样本中的一个数据就产生了一个新的平均值。

引入一个新的数据或去除一个原始数据

增加一个新的数据或去除一个原始数据将使平均值发生变化。例外的情况是增加的新数据(或去除的数据)恰好等于平均值。

每个数据加上或减去同一个常数

每一个数据加上同一个常数，则平均值也将增加同样的常数。每一个数据减去同一个常数，则平均值也将减去同样的常数。

每个数据乘以或除以同一个常数

乘以和除以也是一样的效果

3.3 中数

定义

中数的目的是表示分布的中点。与平均数不同，没有专门的符号来表示中数，就用词语“中数”来表示。另外，对于总体和样本中数的定义和计算方法是一样的。

中数是将分布等分为两部分的数据。分布中恰好有 50%个体的得分高于或低于中数。就是中间的数啦

找到大多数分布的中数

中数是在分布中找到的大于50%第一个点。

中数可以等于分数中的一个值，也可以是两个分数之间的一个值。

奇数

从小排到大，中间的就是

3，5，8，10，11的8就是中数 n=5的50%是2.5，那中数在大于2.5这个位置

这个直接n/2，然后后一个数据就是，比如 1234567，7/2=3.5，那第四个就是

偶数

从小排到大，中间两个数相加再除二

1，1，4，5，7，8就是（4+5）/2=4.5 n=6的50%=3，中数在大于3这个位置

这个直接n/2，然后那个数和后面一个数相加再除2就行，比如 12345678，8/2=4，那么就是第四个和第五个加后除2，（4+5）/2

这个50%的说法在连续变量中重要

寻找连续变量中的精确的中数

n=8的样本：1，2，3，4，4，4，4，6。（离散变量的话4就是，但连续变量4指的是3.5~4.5）连续变量实际上是无限分割嘛，所以得找50%的点；这里是n=8，50%就是8*50%=4，中数到4个这个位置上。就是需要4个方块到4那有4个方块，每个方块切出1/4那就相当于一个方块，那就刚好到50%那了（看右图） 4是3.5~4.5，区间是1，1的1/4=0.25，所以50%的位置是3.5+0.25=3.75这（阴影部分已经进入4的区间了，所以是4的最低下限加的0.25，即3.5+0.25，而不是3+0.25）这种算法只能用在连续变量上，不能用在离散变量上，比如3.75可以说时间，但不能说人数。

中数、平均值和中点

2、2、2、3、3、12 平均值关注的是数据的距离，平均值之下的距离和与平均值之上的距离和相同，比如这里平均数是4，前后距离和是（4-2）x3 + （4-3）x2 = 12-4 = 8 如果使用距离的概念来定义“中间”的话，那么，说均值位于分布的中心是合适的，但是，我们应该意识到均值不一定位于数据分布的准确的中心（如图所示）。

中数从另一个方面定义了数据分布的中心的概念。即中数的位置是精确的，使得分布中恰好一半的数据位于中数之上，另一半位于中数之下。如对于上图来说，中数为X=2.5，此时恰好有3个数据位于该中数之上，有3个数据位于该中数之下。6*50%=3，即超过3个方格的位置，也就是2的最大上限处，2.5

总之，平均数和中数都是界定和测量集中趋势的方法。尽管二者都被定义为分布的中间，但是它们却对“中间”这个术语作了不同的阐释。

学习检查（课后习题）

2.如果你在一个80分的测验中得了52分，那么你可以肯定自己的得分位于中数上。(判断对错)

x，这是你自己测验的分数而已呀，你又不知道其他同学的分数，怎么能确定呢~中数是一组数的特征呀~

下列是连续变量测量结果的分布，找到精确的将分布切割成两半的中数。1，2，2，3，4，4，4，4，4，5

找这种连续变量的中数都可以做个方格图。这里n=10，10*50%=5，就是中值在5个方格那。第5个方格位于4那，把5个方格都分出1/5凑成1个，4的区间是3.5~4.5=1，1/5处是1x1/5=0.2 所以中数3.5 + 0.2 = 3.7

3.4 众数

定义

在一个频数分布中，众数即是频数最多的数据或数据类别。

和中数一样，没有专门的符号用来表示众数，也没有符号来区分样本和总体的众数

众数一般用在称名量表上，这里Luigi's被提及最多，它是众数

在频数分布图中，最高的频数是图片中的最高点。寻找众数时，我们仅需找到分布的最高点下面的分数。

虽然一个数据分布只有一个平均值和一个中数，它却可能存在多个众数。

有两个众数的分布称为双峰式分布，有更多众数的分布称为多峰式分布。有时，有多个相同峰点的分布被认为没有众数。

10和2都是众数，分主要众数（2），次要众数(10)

3.5 选择测量集中趋势的方法

平均值常被认为是集中趋势的三种测量方法中最好的一个。然而在一些特殊的情形中，是不可能计算出平均值的，或平均值不是最合适的代表值。在这些情形中，可以使用中数和众数。

何时使用中数

极端值或偏态分布

这里有一个极端值100，如果平均数，实际上数据会膨胀选中数会更好，中数不受极端数据影响全国工资其实就是选中数会更好...但平均数好看...

不确定值

被试6没有完成拼图，所以得出了一个不确定值因为不能求出∑x，没法得出平均数，但却有中数

空端分布

空端分布是指一组没有最高极限或者最低极限的数据分布

这里“5或者以上”，开口组（其实也算是一种不确定值）不可能算出平均数所以选中数

顺序数据

顺序只知道方向，不知道数据距离，所以也无法算出平均数（不能加减乘除啥的） or 平均数的定义基于距离(平均数平衡了距离)，但顺序量表不测量距离。

何时使用众数

称名数据

称名数据是不能计算均值和中数的。因此，众数是描述称名数据集中趋势的唯一选择。

离散变量

这些数值只能得是正整数、零啥的，平均数出现的数可能会是2.4个儿童这样，这种情况不能用平均数。由于众数通常确认的是最典型的类别。使用众数，我们可以得出这样的结论：如“一般的或典型的情况是每个家庭有2个儿童，一套房子有5个房间”。

描述形状

由于众数需要的计算极少，甚至不需要任何计算，故它常作为均值或中数的补充。就是和均值与中数一起对分布进行描述~

3.6 集中趋势和分布的形态

对称分布

如果分布是完美对称的，中数与平均数将是对称分布的精确的中心，因为恰好图形中的一半区域位于中心的一边，（中数）数据分布的左侧的数据也恰好被中心右边对应的数据(镜像)所平衡。（平均数）如果一个分布只是大致对称，而不是完美对称，平均数和中数都靠近分布的中心。如果一个对称分布只有一个众数，那么它也肯定位于分布中心，此时集中趋势的三种测量方法将会得出同样的值。（a）一个对称的双峰分布(b)的均值和中数只有一个，但是众数却有两个，且位于两边。矩形分布(c)来说，由于所有X值都具有同样的频数，故它是没有众数的。

偏态分布

原理：正偏态（a）的众数的竖线并没有将分布等分为两部分。为了能使中数两边各有50%数据，中数必须位于众数的右边。最后，由于受极端值的影响，均值位于中数的右边。（负偏态同理）结论：正偏态分布，三个测量集中趋势的值从小到大(左到右)的顺序是众数、中数、均值。负偏态分布，三个测量集中趋势的值从小到大(左到右)的顺序是均值、中数、众数。

课后习题

在完美对称分布中，平均数、中数和众数有同样的值。(判断对错)

错！完美分布..包括双峰啊..双峰的话众数在左右两边各一个

第4章变异性

4.1 概述

定义

变异性

变异性是分布中分数间差异的定量测量，它描述了分数分散或聚集的程度。

简而言之，如果某分布中的分数全部相同，那么该分布没有变异性。如果分数之间的差距小，则变异性也小；如果分数之间的差距大，则变异性也大。

身高就比较集中，离平均数（70）相差不远体重就不太集中，离平均数（170）有远的~

变异性的好的测量需达到以下两个目标

变异性描述了分布

通常通过距离来确定变异性。它可以说明某个分数与其他分数预期的距离有多大，或者某个分数与平均数预期的距离有多大。

变异性测量了某个分数(或某组分数) 代表整个分布的吻合程度

在用相对较小的样本来回答关于总体问题的推断统计中，变异性的这一点相当重要。为大多数成年男性身高分布在离总体平均身高几英寸的范围内(距离很小)，选取距离总体平均数 6英寸内的个体身高概率很大。体重分布中的分数分布较为分散(距离较大)，因而你选取的个体体重很有可能不在距离平均体重6磅的范围之内。因此，当你使用某样本去代表总体时，变异性可提供预期误差有多大的信息。

测量变异性的方法

全距

标准差

方差

重要！

4.2 全距

定义1

全距是指分布中全部分数覆盖的距离，从最小分数到最大分数。对连续变量的测量时，全距为最大值的精确上限和最小值的精确下限之差。

公式

全距 = 最大值(精确上限) - 最小值(精确下限)

定义2

例如，如果你在测量家庭中孩子的数量，数据从0至4中产生，那么就有五个测量类别(0、1、2、3和4)，全距是5。根据这种定义，当分数都是整数时，全距可以通过下列公式获得：

公式

全距 = 最大值 - 最小值 + 1

定义3

全距简单地测量了最大值和最小值之间的差距，和精确界限无关。

公式

全距 = 最大值 - 最小值

全距没有考虑到分布中的所有分数，常不能对整个分布的变异性给出精确的描述。因为这一原因，全距被认为是一种粗糙的、不可靠的变异性测量方法。也因此，在多数情况下，无论使用哪一种定义来计算全距都是可以的。

4.3 总体标准差与方差

标准差

标准差测量的是到平均数的标准距离标准差是用分布的平均数作为参照点，通过考虑每个分数到平均数的距离来测量其变异性。标准差描述了分数距离平均数是集中靠拢还是广泛分散分布。样本和总体标准差的基本定义相同，不过计算稍有不同。

平均数、标准差和方差只适用于通过等距和等比量表测量得到的数值型分数。标准差与方差和平均数关系密切，平均数不能通过称名和顺序量表获得，自然也限制了标准差与方差

计算标准差的过程

步骤1

确定离均差

离均差是指偏离平均数的距离。

也即每个分数与平均数之间的差距

公式

离均差=X-μ

例子

假设某分布的平均数μ=50，如果你的分数是X=53，那么离均差为：X-μ=53-50=3 如果你的分数是X=45，那么离均差为：X-μ=45-50=-5

注意

每个离均差都是由两部分组成的，即符号(+/-)和数字。符号(+/-)告诉我们偏离平均数的方向，也就是该值高于还是低于平均数。数字表示到平均数的实际距离。例如，某一分数的离均差为 -6 ，则意味着该分数低于平均数6分。

步骤2

是“求”各离均差的平均值

为此，首先应把各离均差加起来，然后除以 N。

例子

假设某分布的平均数μ=50，如果你的分数是X=53，那么离均差为：X-μ=53-50=3 如果你的分数是X=45，那么离均差为：X-μ=45-50=-5

注意

各离均差加起来和为0。平均数是分布的一个平衡点。位于平均数之上的距离之和（正）刚好等于位于平均数之下的距离之和（负）。因此，所有的正向偏离恰好等于所有的负向偏离，全部离均差之和是为0。

作用

因为离均差的和总是为0，其平均数也总是为0，所以把它作为变异性的测量是没有意义的。具体来说，无论分数是集中靠拢还是广泛分散，它总是0。然而应注意的是，值恒定为0这一点在其他方面却很有用。无论何时处理离均差，你都可以通过确认离均差之和是否为0 来检验你的计算。

步骤3

求总体方差

把离均差的平均数作为变异性的测量行不通，因为该值总为0。很明显，该问题是由分布中正负离均差相互抵消导致。解决此问题的办法是去掉数字前的符号(+和-)，完成此步的标准程序是给每个离均差分数取平方，然后用这些平方后的结果来计算平均数，该均值称为总体方差。

总体方差或称为均方差，方差是离均差平方的均值。

步骤4

求平均差/开方

记住，我们的目的——是计算分数到平均数的标准距离。方差是离均差的平方的平均值，并不是我们所确切需要的。因此，最后一步就是通过简单地计算方差的平方根来得到标准差，测量分数到平均数的标准距离。

知道从纽约到波士顿的距离的平方是26244英里并没有什么特别的用处。但是，当你计算平方根的时候，这个平方值就变得有意义了。例如，从纽约到波士顿的距离是√26244=162 英里。

标准差是方差的平方根，提供了到平均数的标准距离或平均距离的测量方法。

公式

标准差=√方差

例子

计算以下分数个数为5的总体的方差和标准差。（1，9，5，8，7）

1、求总体平均数 30/5=6 2、求每个分数的离均差与离均差平方 3、求离均差平方的均值 = 方差 = 40/5=8 4、标准差 = √离均差平方的均值 = √方差 = √8 = 2.83

可以对自己的标准差进行估计，这里最大的离均差是5，最小是1。标准差应该在1-5之间如果运算超出这个范围，比如求出12，那可能就错了！

总体方差和标准差的公式

离均差的平方和 / SS

符号 SS 表示离均差的平方和，简称平方和。

SS 的定义式

第一种公式叫定义式，是从字面上来定义的，即把各离均差的平方加起来，因而称为定义式。

定义式

SS=∑(X-μ)²

例子

N=4，∑x=8，u=8/4=2 x-u 与（x-u）² 如列表所示 ss = ∑（x-u）² = 1+4+16+1 = 22

SS 的计算式

定义式不便于使用，特别是当平均数不是整数，离均差值包含有小数或分数时，计算将变得很困难。因为这些原因，另一种计算 SS的公式得以发展。这种公式称为计算式，它是采用原始分数(不是离均差)来计算的，因而可以降低小数和分数的复杂性。

计算式

ss = ∑X² - （∑X）²/N

例子

直接代入公式做就行

注意

注意，定义式和计算式求得的 SS的值是一样的，尽管公式看起来不同，但事实上它们是等价的。定义式是 SS的概念最为直接的表达式，然而，该公式使用起来较困难，尤其是平均数含有小数或分数时。如果分数较少，且平均数是整数，那么定义式是个不错的选择；否则计算式使用起来更为方便。

可能直接用计算式就挺好~~~

最终公式和符号

方差是离均差的平方和（ss）的平均数

方差

SS/N

标准差

√SS/N

总体标准差与总体方差

总体标准差 = σ = √σ² = √SS/N

总体方差 = σ² = SS/N

标准差就是方差的开根，方差就是标准差的平方嘛~

tips

sigma（大写Σ，小写σ）原来标准差符号和求和符号是同一个，一个大写，一个小写~学习了~

例子

直接代入公式做就行

4.4 样本标准差与方差

推论统计的目的就是利用样本中有限的数据推出总体的大致情况。由于总体样本的一些极端数据等，样本的变异性会小于总体幸运的是，样本变异的偏差是恒定的，可预测的，这说明它是可以校正的。例如，如果你车上的速度表总是比你实际行车速度慢5英里，这不能说明你的速度表是没有用的。这仅仅说明你每次读取速度的时候要稍作调整才能得知准确的速度。

公式

样本的离均差平方和

样本与总体的 SS 计算是一样的，有标注方面细小的变化

用M 代替μ 来表示样本平均数

定义式（总体）

SS=∑(X-μ)²

定义式（样本）

SS=∑(X-M)²

用n 代替 N表示样本分数的个数

计算式（总体）

ss = ∑X² - （∑X）²/N

计算式（样本）

ss = ∑X² - （∑X）²/n

样本方差和标准差

这里需要校正样本变异性的偏差

总体

总体方差 = σ² = SS/N

总体标准差 = σ = √σ² = √SS/N

开方

样本

样本方差 = S² = SS/（n-1）

就是总体多减了个1，

样本标准差 = S = √s² = √SS/（n-1）

开方样本变异性偏小嘛，除的数少点，那不就变大点咯！

例子

用计算式算，所以需要这些数据

计算式

这里是样本，记得n-1

标准差，就是对方差开方就可以~

样本变异性与自由度

自由度

例子

样本3个，你平均数是5，那前面两个你确实可以随便取（比如2、9），但最后一个就不可以随意了，得根据前面两个的数字去调整（得是4）这样才能获得平均数5，这里自由度就是3-1=2，有2个数可以自由取嘛（2、9），最后一个就不自由了（得是4）

定义

对于一个有n个分数的样本，样本变异的自由度或 df 可定义为：df=n-1。自由度决定了样本中独立、自由变化的分数数量。

4.5更多关于方差与标准差的内容

在频数分布图中呈现平均数和标准差

标准差可以一边或者两边都有

作为无偏估计的样本方差

无偏估计

所有样本方差的平均数即是对总体方差的精确估计。这就是无偏估计的含义。

如果许多不同样本的样本统计量的平均数等于总体参数，那么该样本统计量是无偏的(统计量的平均值来自样本大小为n的所有可能的样本)。如果样本统计量的平均数低估或高估了相应的总体参数，那么该统计量是有偏差的。就是某个样本统计量如果把他们所有可能性的结果都加起来后的平均数能得出总体的参数，那这个统计量就可以称为无偏估计的~（可看下例子~）

例子

某总体刚好包含6个数，它们是0、0、3、3、9、9。通过简单地计算可以求得平均数μ=4 ，方差σ²=14。要获得n=2的样本，把所有n=2的样本都列出来~（就有9个样本了）样本方差无偏的话要n-1算，有偏方差那直接用n算（对比一下以便理解~）把所有样本平均数、方差（包括有偏与无偏）都算出来发现平均数的平均数36/9=4，与总体一致，是无偏的发现方差的平均数（n-1）126/9=14，与总体一致，是无偏的有偏的（n）63/9=7，与总体不符合，是有偏的样本平均数和样本方差(用n—1计算) 两者都是无偏统计的例子，尽管单个样本的平均数和方差不大可能与总体刚好相等。但一般来说，样本平均数和样本方差可以精确地估计对应的总体参数。

有偏与无偏统计量的区别

一般情况下，有偏统计量意味着统计值不能精确地表示相应的总体参数，统计量的平均值趋向于高估或低估了总体参数。一般来说，无偏统计量是相应总体参数的精确代表。

标准差和描述统计

标准差主要是一个描述测量，它描述了分数在分布中的变化和分散状况。行为科学家必须研究人和动物的变异性。人并不都是一样的，他们有着不同的态度、见解、天赋、智商和个性。虽然可以计算这些变量的平均数，但描述其差异性一样重要。标准差是通过测量到平均数的距离来描述变异性的。在任一分布中，有些分数将会靠近平均数，其他的将相对地远离平均数，标准差提供的是到平均数的典型的、标准的距离。

描述整体分布

例如，有一个平均数M=36，标准差s=4的样本。虽然有很多方式呈现这些数据，但是最简单的方法是想象(或绘制)直方图，在图中用方块呈现每一个分数。一般来说，在分布中大约70%分数距离平均数一个标准差之内，几乎所有的分数(大约95%)距离平均数两个标准差之内。在这个例子中，到平均数的标准距离是s=4，大部分方块到平均数的距离在 4 以内(大约70%)（一个标准差内）几乎所有都在8以内(大约95%)（两个标准差内）

描述个体分数的位置

分数的相对位置部分取决于标准差大小 a是总体分布，b是样本分布如果某分数比a或者b的平均数大4，在a上并不能算一个极端值，因为4是标准差8的一半在b上就能算作一个极端值，因为4是标准差2的一倍

转换尺度

1.每个分值加上某常数，不改变标准差。

如果你把它想成频数分布直方图，这种情况会看得更清楚。例如，你给每个分数加上5，那么图中的每个分数将向右移动5个单位，整个分布移动到比原分布多5个单位的位置。注意，平均数同分数一起移动，也增加5个单位。然而变异性并不因此而改变，原因是所有的离均差(X-u) 没有发生变化。

2.每个分数乘以某常数，其标准差也要乘以同样的常数。

某分布的两个分数， X=41 和 X=43 之间2分的差距乘2后变为 X=82 和 X=86 之间4分的差距是原距离的2倍。每个分数乘以某常数，致使它们之间的距离也乘以某常数，所以标准差也要乘以相同的常数。

方差和推论统计

在推论统计中，样本数据的方差常常被定义为误差方差。这个术语说明了样本方差代表了分数间不能解释和控制的差异。总的来说，低变异性说明数据中存在的模式能被清晰地看到，然而高变异性使可能存在的任何模式模糊不清。其实大概要表达的意思应该就是低变异性易看清.. .高变异性难看清就是了...

在文献中报告标准差

先了解下，还不知道作用~嘿嘿

学习检查

在平均数是50、标准差是10的总体中，分数 X=58会被认为是极端值(远离平均数而在分布的尾端)吗? 当总体的标准差是3的时候呢?

标准差为 10 时，分数 X-58 将位于分布的中央部分(在1个标准差之内)。当标准差是3 时，分数 X一58 是极端值，位于离平均数大于2个标准差的位置。

3.某总体平均数是70，标准差是5。 a.如果总体中每个分数都加上10，那么新总体的平均数和标准差是多少呢? b.如果总体中每个分数都乘以2，那么新总体的平均数和标准差是多少呢?

a.新平均数是 80，标准差仍是 5.

b.新平均数是 140，新标准差是 10。

这个方法不错，可以直接简化算数~虽然用工具算也可以不管哈哈，涨知识~

第二部分推论统计基础

第5章 z分数：分数的位置及标准化分布

5.1 z分数的介绍

根据分数到平均数的标准差来测量分数在一个分布中的位置

运用平均数和标准差把原始分数(X值) 转化成为 z分数或标准分数， z分数或标准分数用于描述每个分数在分布中的确切位置。

总体来说，把X值转化为z分数的过程有两大目的

1. 每个z分数告诉我们原始分数在分布中的具体位置。

2. z分数组成的标准化分布可直接同其他转化为z分数的分布相比较。

5.2 z分数及其在分布中的位置

z分数定义

定义

z分数能指出每个X值在分布中的具体位置。包含两部分（必不可少）： 1、z分数的符号(+或-) 表示该分数在平均数之上还是之下， 2、z分数的数字表示该分数到平均数的距离等于几个标准差。

例子

原始分数76可以转换为 z=+2.00 它代表原始分数高于平均分(“+”)，且距离等于2个标准差 (76-70=6 ； 6/3=2)。

那么原始分数X=76可以被转化为 x=+0.50，它代表原始分数高于平均分(“+”)，但距离仅等于1/2个标准差(76-70=6 ； 6/12=0.5)。

大于平均数的所有分数的z分数都是正数，小于平均数的所有分数的z分数都是负数。 z分数的符号可立即告诉你该分数是大于平均数还是小于平均数。 z分数+1.00 表示该分数距平均数刚好一个标准差的距离， z分数+2.00 表示该分数距平均数刚好两个标准差的距离。

学习检查

总体平均数为30、标准差为8，找出下列每个分数的z分数：

X=32

z=+0.25

X=26

z=-0.50

X=42

z=+1.50

思路就是x-u（求出距离），然后除以标准差（距离等于多少个标准差），比如32-30=2（求出距离）， 2/8=0.25（距离等于多少个标准差），所以是+0.25（答案）

总体平均数为50、标准差为12，找出对应于下列z分数的X值：

z=-0.25

x=47

z=2.00

x=74

z=0.50

x=56

思路就是z*标准差（求出距离与方向）把距离加到平均数上（注意方向）比如-0.25*12= -3（求出距离与方向） -3+50=47

不用太较真思路，如果能直接做出来也不错~不要死板~

z分数公式

z=（x-u）/σ X-μ是离均差，它测量的是X到平均数的距离，并表明 X值是在平均数之上/之下。 X-μ除以σ是因为我们想以标准差为单位来衡量分数与平均数之间的距离。（其实自己也能推理出）

例子

其实之前算的过程就是公式的过程了，不过公式能更好记住和理解吧~

根据z分数确定原始分数

定义理解

某分布平均数是 60，标准差是 5，z分数为-3.00，对应的 X值是多少? z分数包含了方向和距离，方向负号代表平均数之下， 3与标准差相乘得出距离即3*5=15（这个是离均差，即分数离平均数的距离）然后把60-15=45，得出z=-3.00的时候，对应x值=45

总结公式

X=μ+zσ

公式中，zσ是X的离均差，它决定了原始分数X距平均数的方向和距离大小。此处离均差是-15，或者说低于平均数15分。公式简单地把平均数和离均差相结合得到X的精确值。

z、X、μ和σ间的关系

在某总体中，平均数是65，某分数X=59 对应的z分数是-2.00。总体的标准差是多少? 59-65知道离均差=-6，z分数是-2.00代表平均数之下的两个标准差的距离，那用离均差除以两标准差即可知道一个标准差的数据即6/2=3，就知道标准差是3了，其实也可以通过公式倒推 z=（x-u） / σ -2=（59-65）/σ -2=-6/σ -6/-2=σ σ=3

有图更好理解~

某总体中标准差是6，某分数是33，对应的z分数是+1.50，那么该总体的平均数是多少? z（+1.50）代表此分数在平均数之上，且离平均数1.5个标准差 z*标准差 = 1.5*6 = 9（求出离均差9） 33-9=24（平均数=24）（注意，此分数是在平均数之上哦，就是平均数在它之后，要用这个分数减去离均差才能得出平均数~）也可以用公式啦~反正都可以，就省略了

在一个总体分布中，分数 X= 54 对应z=+2.00，分数 X=42 对应x=-1.00。那么该分布的均值和标准差各是多少? 54和42相差了3个标准差嘛，54-42的距离是12嘛，那12有3个标准差的意思嘛，那12/3=4，就知道标准差是4了。那随便代入一个咯，标准差4，那么x=54的离均差就是2*4=8，54-8=46，46就是平均数啦~

有图更好理解

5.3 使用z分数标准化某分布

z分数的分布具有以下特性

图例

结合图看特性哈！~

特性

1.形状

z分数分布与原始分数分布的形态相同

只是把分数都转换了，位置没变的，所以形态不变的

2.平均数

z分布的平均数总为0

代入公式直接变零了；而且本来z分数就是根据平均数作为参照点去建立的嘛，他是最中心的零~

3.标准差

z分布的标准差总是1

z分数本来就用来代表距离多少个标准差嘛，1个就1个，2个就2个嘛，标准差本身多少不重要，重要是多少个嘛，所以这里是1个作为最基础的~

当任意分布转换成z分数，其结果分布的平均数总为0，标准差总为1。因为所有的分数分布的平均数和标准差均相同，因此z分数分布又被称为标准化分布。

注意

事实上，没有必要创建新的分布，你可以把z转换简单地想成重新标记X值。也就是说，在z分数转换后你仍得到相同的分布，但现在每个值都是用z分数标记而不是用X值。直接换数字就行啦~换种标记规则而已~本质没变

标准化分布

标准化分布是由一系列被转换的分数组成的，具有确定的平均数和标准差。标准化分布常被用来比较不同的分布。

z分数转换的示范

假设一个总体拥有N=6个分数，分别为：0,6,5,2,3,2。该总体的均值为u=3,标准差为σ=2

把X值转换z分数

1.两个分布具有相同的形态。X的原始分布和z分数分布中具有相同的相对位置 2.进行z分数转换后，分布的均值变为了0 3.进行z分数转换后，分布的标准差变为了1

公式验证（可看可不看...就意义理解差不多了）

用z分数来比较

标准化优点是可以比较不同的分数或不同的个体，即使它们来自完全不同的分布。因为所有的z分数分布都有一样的均值(μ=0)和标准差(σ=1)。

例子

小明心理学60分（平均分50，标准差10），生物56（平均分48，标准差4），哪科成绩更好？

方法1

有了这些信息，你可以画出两个分布，并标出 Dave的分数在分布中的位置，进而比较两个分数的位置。

方法2

把两个分数转换成z分数来进行比较

心理学

生物

生物表现更好，因为比平均分高了2个标准差，更右，更高分

5.4 基于z分数的其他标准化分布

基于z分数可以转换成其他标准的分布比如一些智力测验平均数100，标准差15，可以根据要求转换

步骤

1.把原始分数转换成z分数。

2.把z分数转换成新的X值，并使其具有特定的平均数和标准差。

例子

某测验原始分数平均数是57，标准差是14 —转成— 平均数50，标准差10（以两同学为例去转换 - M原始分数64；J原始分数43）

步骤1 把每个原始分数转换成 z分数

M原本64，转换后=+0.5

J原本43，转换后=-1.0

步骤2 把z分数转换成标准化分数

把数据转成平均数为50,标准差是10的要求比如M标准差是+0.5，就是比平均分高0.5的标准差嘛，把这概念搬到新的分布数据就行，就是在新的要求里也是比平均分高0.5就行，新的平均分是50，标准差是10，那就是50 + 10*0.5=55 J同理，-1.00，搬过去，50 + 10*-1 = 40

把所有分数都转换后，分布还是没变的，大家相对位置都是一样的

学习检查

b处，可以相互转换，其实思路一样的，旧的怎么到新，新的就怎么到旧（位置都不变的呀，大家本质一样的）新分布X=65，那其实也是求出Z嘛，（65-50）/10 = 15/10 = 1.5 旧分布，1.5*6 + 44 =58

5.5 计算样本的z分数

其实和总体的内容一样的，就是公式字母不同

标准化样本分布

和总体一样的

1.z分数的样本分布的形状与原始分数的样本分布是相同的。

2.z分数的样本分布的均值为0。

3.z分数的样本分布的标准差为1。

注意

样本在求方差的时候，记得SS/n-1哈

其余转换的逻辑与总体一致

方差：（0-3）²+（2-3）²+（4-3）²+（4-3）²+（5-3）² / 5-1 =9+1+1+1+4 / 4 =16/4=4 标准差：√4=2 反正涉及样本的方差计算都记得n-1，这里后面求z分数的方差为了是证明z分布的标准差是1而已

5.6 推论统计展望

研究者会抽取一个样本并对该样本进行处理。然后，研究者把样本同原始总体进行比较。如果样本个体明显不同于总体，研究者有证据证明这种处理方法有效。如果样本个体与总体没有明显的不同，那么很可能该处理无效。

可以通过z分数去判断处理是否有效，经过注射生长激素的老鼠涨到418。它的z是0.9，并不是极端值，处理不显著如果是450，它的z是2.50，是极端值，证明处理是有效的。

第6章概率和正态分布

6.1 概率简介

概率是总体与样本的桥梁

总体通过概率可以推测样本样本也可以通过概率反推总体

概率定义

在一种可能有不同结果的情境下，我们将概率定义为任何可能的结果的比例（概率是一种比例）。如果可能的结果被定义为A、B、C、D等，那么: A的概率=分类为A的结果的数量 / 所有可能结果的数量符号是： p( )，后面的括号里注明特定的结果。例如，你从一副纸牌中抽取一张，有52种可能的结果。抽到红桃K的可能性为p（红桃k）=1/52，抽到 A的可能是 p（A）=4/52, 因为一副纸牌中有1个红桃k， 4个A。

反正概率是比例，比例也可以是概率啦，同一个事情不同的表达形式而已当然表达形式不一样哈，比例是xx/xx，概率是xx%，但可以互相转换的。

概率值

就是把比例转换成小数或百分比

p(黑桃)=13/52=1/4=0.25=25%

p(头像)=1/2=0.50=50%

通常，概率值被表示为小数，但是这三种形式都是可以的。

值域

所有可能的概率值都有一个值域。在一个极端，如果一个事件永远不可能发生，概率为0或者0% 另一个极端，如果事件总会发生，概率为1或者100% 例如，假设你有一个罐子，里面有10个白球。抽到黑球的概率为：p(黑球)=0/10=0 抽到白球的概率为：p(白球)=10/10=1

随机抽样

1 简单随机样本要求总体中的每个个体有相等的机会被选入样本，

每个个体被选的概率相同，不然不能使用概率的概念，比如抽取你城市人口的样本时，只去学校或酒吧抽取得到就不是随机样本，也因为每个结果出现的可能性不相同，这里不可以使用概念的概念

再比如，买彩票，你有两种可能结果，1中了，2不中，看起来好像是p=50%，但这两个可能性不相等（不中的可能性大多了），所以也不可以使用概率的概念

2 且如果样本的数量大于1,则每次选取个体被选中的概率不变（独立）。

从一副完整的纸牌中选择两张。第一次，得到方片J的概率为：p(方片J)=1/52（抽完不放回去）现在，抽第二次，得到方片J的概率是多少呢? 有两种可能； p(方片J) = 1/51 (第一张牌抽的不是方片J。) p(方片J) = 0 (第一张牌抽的是方片J。) 为了保证独立性，第一次抽的卡应该要放回去

所以为了保持每个概率不变，所以要放回样本，这种方法叫放回抽样

但随机抽样还有其他定义，也会出现样本不放回的操作，反正有许多不同的技术

概率和频率分布

我们用很简单的例子，它只有N=10个分数，分数值为：1、1、2、3、3、4、4、4、5、6。如果你从中选择了一个 n=1的随机样本，得到的分数大于4的概率为多少? 用概率符号表示： p(X>4)=2/10=0.2=20% p(X<5)=8/10=0.8=80%

学习检查

依然是10/40，概率是独立不变的，而且随机抽样抽出的样本需要放回

6.2 概率和正态分布

正态分布

定义

正态分布是对称的，中间有一个峰。如果从任何方向远离中心，频数都将减小。统计学家经常用z分数来定义正态分布的各部分。我们可以根据比例定义正态分布，即当且仅当一个分布包含所有正确的比例时，这个分布是正态的。(就是所有正态分布都是这些比例~！) 平均数(z=0)到大于平均数一个标准差(z=1)的部分占了总分数的 34.13%同样，总分数的13.59%在大于平均数1到2个标准差的区间里等。

例子

SAT考试分数符合均值μ=500、标准差σ=100的正态分布。从该总体中随机抽取样本，其 SAT分数高于700的概率是多少，p(X>700)=? 700分的z是2.00，p(X>700)=p(z>2.00)=2.28%

单位正态分布表(标准正态分布表)

表

有完整的表格（书本在344页），这里截取一部分可结合右边图理解，左边图里的 A就是z分数 B是主体的比例（z分数会把分布化成两半，大的部分是主体） C是尾端的比例（z分数会把分布化成两半，小的部分是尾端） D是均值与 z分数之间分布的比例主体与尾端的比例相加=1~ 例子一条在正态分布中 z=+0.25 处的垂直线将分布分为两部分，大的部分（主体）包括 0.5987(59.87%）分布，小的部分（尾端）包括 0.401 3(40.13%）分布。另外，在均值和 z=+0.25 之间有 0.098 7(9.87%)分布。

注意

1 主体与尾端只和大小有关，与方向无关

不管在左边还是右边，主体总是与分布中大的部分相联系。同理，尾端总是小的部分，而不管它在哪边。

2 正态分布是对称的，左右比例相等

标准正态分布表不列出负号的z，如果要有得找对应正号的z，反正确定位置后，大的部分就是主体，小的部分就是尾端，然后就能得到相应比率

3 比例总是正的

概率、比例和z分数

为特定的z分数值找到比例/概率

正态分布中z分数值大于z=1.00的比例/概率

1、先画出草稿（任何情况都要画个草图，准确非常多！），确定下主体、尾端啥的，尾端是我们要求的范围 2、对照标准正态分布表找z值1的数据，尾端比例是0.158 7 3、所以是p(z>1.00)=0.158 7 / 15.87%

正态分布，选到小于1.50的z分数的概率是多少

这里求主体的数据 p(z<1.50)=0.933 2 / 93.32%

正态分布有多大比例小于z=-0.50

左右是对称的，找到z=0.5的尾端数据即可即p(z<-0.50)=0.308 5 / 30.85%

通过特定比例找相应的 z分数位置

正态分布，哪个z分数值能分割顶端的10%

在C列（尾端）找到10%或者在B列（主体）找到90%，即可找到对应的z 有可能找不到准切的值，但可以找最接近的，比如0.100 3，那么z=1.28 分割10%可以在左或者右，如果在左那么z=-1.28，但我们偏向找右边~

正态分布，哪个z分数值形成了中间的 60%的边界

这里可以用表中的D列思路1：因为在中间嘛，所以60%左右分别是30%，中间分开的线是均值。均值到z分数的30% / 0.300 0（表没，最接近是 0.299 5）对应的z分数是0.84，所以边界分别是-0.84与+0.84 思路2：60%中间，左右分别是20%，找0.200 0（表没，最接近是 0.200 5）尾端对应的z分数也是0.84~

6.3 正态分布中分数的概率和比例

已知一个IQ分数的正态分布，μ=100,σ=15。根据已知条件，随机选到一个小于120的IQ分数的概率是多少?

先求出120的z分数，（120-100）/15=1.33 即要求p(X<120)，左边阴影部分，是主体，查表中的B列 p(X<120)= 0.908 2(或 90.82%)

找到位于两个分数间的分数的概率/比例

公路部门进行了一项研究，测量了当地州际公路的驾驶速度。他们得到的平均速度是μ=58 英里/小时，标准差是σ=10,分布大致是正态的。

根据已知条件，多少比例的汽车以 55～65英里/小时的速度行驶?

求55与65的z值，分别是-0.30与+0.70 可以用主体与尾端来求，也可以用分数到均值间来求。 -0.30与+0.70到均值的概率分别为0.1179和0.2580。相加起来就是阴影部分，即 p(55<X<65)=p(-0.30<z<+0.70)=0.117 9+0.258 0= 0.375 9

根据已知条件，多少比例的汽车以 65～75英里/小时的速度行驶?

65、75 的z分数 = 0.70、1.70 1、用75到均值的比例 - 65到均值的比例，即 p(65<X<75)=p(0.70<z<1.70)= 0.197 40.4554-0.2580=0.1974 or 2、用0.70的尾端-1.70的尾端，即 p(65<X<75)=p(0.70<z<1.70)= 0.2420-0.0446=0.1974

找到与特定比例或概率相联系的分数

美国人口统计局(2005)报告显示，美国人每天上班花费的时间均值为μ=24.3分钟，假设该分布服从标准差σ=10 分钟的正态分布

那么你每天至少花费多长时间上班才能进入最高的10%范围?

要求的是阴影部分（尾端），大于10%嘛，然后通过尾端10%找z值最接近的是0.1003，对应的A列的z分数是1.28，根据题意知道z分数是高于平均数（最高的10%嘛），即符号为+ 通过z分数，反求x值，即1.28x10 + 24.3=37.1

分布中部 90%范围的分数是？

多种思路，可以用主体或尾端，或分数到均值间求，例题用分数与均值间求中间90%，意味着两边都是45%，但是最接近45%的是0.4495和0.450 5，理论上都可以，但0.4505可以涵盖45%，所以选用0.4505（但都可以哈）通过表D列找0.4505对应的z分数是1.65，即左边是-1.65，右边是+1.65 然后把z分数转换成X，左边：-1.65*10 + 24.3 = 7.8 右边：1.65*10 + 24.3 = 40.8 那么该分布中间 90%部分界于分数7.8至40.8之间。因此，90%美国人每天上班花费的时间在7.8到40.8分钟之间。仅有10%人花费的时间少于或多于这个范围。（不要和上面例子的混了，这里说的是1-90%后剩下的人，即左右各有5%，上面题目关注的是高于10%的，反正不要扯在一起就行）

概率、比例和百分等级

百分等级定义

一个特定分数的百分等级被定义为分布中小于或者等于这个特定分数的个体占多少百分比。（就是某个分数包括它即以下占有多少百分比）

例如，个体中等于或者低于 X=45的占有 70% ，那么,45分的百分等级是70%

百分位数定义

当一个分数用它的百分等级表示时，它叫做百分位数

例如，x=45的百分等级是70% x=45被叫做第70百分位数。

一些问题可以换个方式问

“随机选到一个小于120的IQ分数的概率是多少?” 相同的问题可以被表述为： “IQ分数为120的百分等级是多少?”（即少于且等于 120 的概率多少）在例子中，我们找到与小于等于120分相联系的分布中的比例。

“在美国人上班时间分布中达到最高的10%分数是多少?”（也可以理解为，处于百分等级90的数大于90%，即达到最高的10%了嘛~）因为这个分数将最高10%与剩下的90%分离开来，这个问题可以被重新表述为： “上班时间分布的第90百分位数是多少?”（这里处于百分位数90%的是37.1，所以90百分位数的是37.1）

百分等级描述的是，这个数及其他数以下占比多少百分位数则是用“百分等级”描述这个数，描述这个数处在何等级就是同一件事两个方向嘛

学习检查

记得画图，正态分布两边分别是50%嘛，这个60%的话，就到左边了，所以z分数是负数哦~~其实不难~

哈哈...这是正偏态..你算个屁呢...哈哈哈...有趣这出题..

6.4 推论统计展望

上一章我们用超过z分数=± 2.00 作为处理效应的检验，但这是不严谨的用概率会更好。我们可以设置"边界"中间95%即为高频率值，而5%是极端值（即两边各2.5%，都是尾端） 0.025对应的z分数是1.96，即两边的分界线是-1.96与1.96 只要数据超过了 ± 1.96，那么都可以看作是极端数据，极不可能出现的（p=0.05or更小）也就是说如果一个接受处理的被试在z=±1.96 边界之外，我们能有把握地说这个被试显著不同于原始总体，即它提供了实验存在处理效应的证据。

表的数据~看看咯~

第7章概率和样本：样本均值的分布

7.1 样本和总体

抽样误差

抽样误差是样本统计量与相关的总体参数间的差异或者误差总和。

怎样才能确定哪个样本是对总体最好的描述? 你能预测一个样本有多好地描述了总体吗? 一旦我们建立了样本与总体联系的规则，这些问题就能被很好地回答了。

7.2 样本均值的分布

抽样分布定义

抽样分布是通过从总体中选择一定大小的随机样本得到的统计量的分布。就是通过样本来的分布嘛，抽样的分布嘛~

样本均值的分布是抽样分布的一个特例。事实上，它经常被叫做M的抽样分布。

样本均值的分布定义

样本均值的分布是所有来自总体的样本量为n 的随机样本的样本均值的分布。（就是所有可能样本的均值的分布）（直接看下面的实例去理解也可以）

预测样本特性的能力基于样本均值的分布。

样本均值的分布包括了所有可能的样本

如果你想要建立样本均值的分布，你首先要从总体中选择一个样本量为n的随机样本，计算样本均值，然后将它写在一张纸上。接着从总体中选择另一个样本量为n的随机样本，同样计算样本均值并将它写下来。重复以上的过程。最后，你将得到一系列可能的随机样本，你在纸上写下的均值将会形成样本均值的分布。

样本均值的分布特征

1.样本均值围绕总体均值分布。

样本并不能完全等同于总体，但是样本是能代表总体的。因此，大多数的样本均值大致等于总体均值。

2.样本均值的分布大致是正态的。

从逻辑上来看，大多数样本的均值都接近于总体均值,仅有少部分的样本均值明显偏离总体均值。因此，样本均值应围绕在总体分布的中心位置（总体均值）,且其频数应随着与总体均值的距离增大而降低。这是一种正态形状的分布。就是说大部分样本的均值是靠近总体均值的，少部分远离，那就导致分布是中间多，两边少嘛，那就是正态分布的形状

3.一般来说，样本量越大，样本均值越接近总体均值。

从逻辑上来看，大样本应比小样本更能代表总体。因此，大样本的样本均值应更向总体均值靠拢；而小样本的样本均值的分布应该更分散。

样本均值的分布实例

考虑一个只包括4个分数的总体：2,4,6,8。

取n=2的样本，把所有可能样本列出来，并求样本均值以上就是样本均值的分布

如果n=1，标准误=总体标准差，我理解的意思是，n=1的样本均值分布的话，取哪一个样本都有可能在总体分布任意位置中出现嘛，那误差就很大吧，很散。如果n=max，那它的标准误就可以进一步缩小了，就很集中在中心了，抽出的均值和总体的均值基本是相同的了，但其实还会有一定误差，因为标准误是源于“抽样”时候的误差~（就是你抽的时候总会有点小混乱还是啥的）

建立频数分布柱状图，发觉符合特征1、2，即围绕中心与正态分布

中心极限定理

对于任何均值为μ,标准差为σ 的总体，样本大小为n的样本均值的分布的均值为 μ, 标准差为σ/√n,（就是所有样本均值分布后它们的均值与标准差）并且当n（样本容量）趋近于无穷大时，接近正态分布。

定理的价值

第一，它描述了任何总体的样本均值的分布，而不管总体的形状、均值、标准差。

第二，样本均值分布非常接近正态分布。当样本大小达到n=30时，分布几乎是很标准的正态了。

中心极限定理通过定义分布的三个基本特性：形状集中趋势、变异，来描述样本均值的分布。

样本均值的分布的形状

满足任一条件，都是标准的正态分布

1.样本来自的总体是正态分布。

2.样本大小n相对较大，大于或等于30。（达到这个条件，原始总体无论形状如何，样本分布几乎都是标准的正态分布了）

样本均值分布的均值：M的期望值

样本均值的分布的均值总是等同于总体均值。这个均值被叫做M的期望值（就是样本均值分布的均值就是 M的期望值）。就常识而言，样本均值被“期望”接近总体均值。（我们肯定期望样本均值接近总体均值啊，那代表误差小啊，兄弟！所以叫期望值嘛！）当我们得到所有可能的样本均值时，其平均值将与μ（总体均值）等同。

样本均值是无偏统计量的例子，它意味着平均起来样本统计量的值与相关的总体参数等同。在这里，所有样本均值的平均数与 μ 等同。

样本均值分布的标准差：M的标准误就是样本均值分布的标准差的另一种称呼就是M的标准误，注意字眼

定义

标准误描述样本均值能多大程度代表未知总体均值的推论性统计量

这个好~

标准误测量了一个样本统计量精确代表总体参数的程度。

这个好！

样本均值分布的标准差σM 被称为 M的标准误。（他是样本均值分布的标准差啊！不是总体标准差哈！注意一下~）标准误测量了偶然因素（抽样误差）造成的 M（样本均值）和 μ（总体均值）之间差异的平均量（差异的典型程度）（可以不用管这个平均量啥意思，就理解为样本和总体均值的差异就是xx平均量就可以~xx就是标准误，你当作一个单位就可以）

标准误（Standard Error）是一个统计学概念，它衡量的是样本均值（M）与总体均值（μ）之间差异的程度。标准误主要用于描述样本均值的不确定性，即抽样过程中随机波动的影响。在实际应用中，我们通常使用样本均值来估计总体均值。然而，由于抽样过程中的随机性，样本均值可能与总体均值存在差异。标准误就是用来衡量这种差异的程度的。它反映了样本均值与总体均值之间差异的典型程度，帮助我们了解抽样过程中随机波动的影响。

标准误符号

样本统计量和对应的总体参数之间总是存在一些差异或误差。现在我们能够精确地计算误差有多大。对于任意样本量(n)，我们能够计算标准误，测量样本均值和总体均值之间的平均误差。

哦，那就可以通过标准误的公式直接求某个样本均值分布的标准差（标准误）了呀！

实在对标准误的一些概念不理解就算了，后面知道怎么运用就好了，慢慢来吧~

好像慢慢理解了~

新思路，这是后面章节的d分数（检测效应大小的）我可不可以理解就是这个标准误实际上类似这个，就是样本均值在总体均值这里左右移动呢？小的话就靠近总体均值那就标准嘛，大了的话，就远离总体均值那就差异大了嘛~

作用

1.标准误描述了样本均值的分布。

它提供了对各样本之间的变异的测量。当标准误很小时，说明所有的样本均值都很接近。当标准误很大时，说明样本均值的分布比较分散，各样本之间的变异很大。

2.标准误测量了一个样本能否较好地代表总体的分布。

标准误测量了一个样本能否较好地代表整个分布。它提供了对样本均值和整个分布的均值之间距离的合理性的测量。但是，由于整个分布的均值等于μ,标准误也能提供某样本均值(M)与总体均值(μ)之间的距离。说明一个样本均值在多大程度上准确估计了总体均值，即μ和M之间有多少误差。

标准误的大小由两个因素决定

样本量

我们从直觉上可以推测，样本大小将影响到样本代表总体的准确性。特别地，一个大样本应当比一个小样本更准确。总的来说，随着样本大小的增加，样本均值和总体均值之间的误差减小。这个规则被叫做大数法则。

总体标准差

如果样本n=1的时候，样本均值的分布就是原本的分布（1个数自己的平均值就是它自己呗，就是把所有数重新列了一遍嘛~），这时候出现了最小的样本量和最大的标准误，而且这时候的标准误=总体分布的标准差，可以把标准差看作标准误的起点（就是最大的标准误就是标准差，随着样本增加，标准误会越来越小，目前不用过度联系标准误和标准差的关系，就姑且理解是一种巧合嘛~） n越大，标准误越小，

样本量越大，标准误越小，最大的标准误是样本量仅为1的时候，这时候标准误等于总体的标准差；研究者可以通过增加样本量到n=30左右来减小标准误。但是，当样本量增加到30 以上后，再增加样本量对于提高样本的代表性的作用就不是很大了。

公式

1、标准误 = σM = σ / √n

注意，这个公式满足了标准误概念的所有要求。 a.随着样本量(n)增加，标准误减小。(样本量越大越精确。) b.当n=1时，标准误等于标准差。

2、标准误 = σM = σ / √n = √σ² / √n = √a²/n（标准差=方差的开方嘛）

三个不同的分布

1.首先，分数的原始分布。

这个总体包含成千上万的个体数据，并拥有自己的形状、均值和标准差。例如，IQ分数的总体包含上百万个体的IQ分数，呈正态分布，均值为μ=100,标准差为σ=15。

2.其次，从该总体中抽取的样本分布。

样本包含抽取到的用来代表总体的个体的分数。例如，我们抽取一个样本量n=25的样本，所得到的 25个IQ分数就构成了一个频数分布，我们能从中计算样本均值和样本标准差。注意，这个样本也有自己的形状、均值和标准差。

3.第三个分布是样本均值的分布。

这是对于某个特定样本量的所有可能的随机样本的样本均值的理论分布。例如，样本量n=25的IQ分数的样本均值（b的均值）服从均值(期望)μ=100, 标准差(标准误)σM=15/√25=3的正态分布（c的均值）。它同样拥有自己的形状、均值和标准差。 b的样本均值与其他所有n=25的样本均值共同组成样本均值的分布。

某个样本的分数(b)是从总体分布(a)中得到的，这一样本的均值（b）是样本均值的分布(c)中的一个值。因此，这三个分布是相互联系的，但又是不同的。

学习检查

一个均值为65,标准差为16的总体。

a.描述来自该总体的n=4的样本均值的分布。(描述形状、集中趋势和分布的变异。)

b.描述来自该总体的n=64的样本均值的分布。(描述形状、集中趋势和分布的变异。)

对于一个均值为40、标准差为8的总体，其样本均值的标准误不可能大于8。(判断正误)

对，因为如果n=1，标准误最多也就是8

7.3 概率和样本均值的分布

样本均值的分布呈现了所有可能的M

SAT分数形成了一个均值为 500，标准差为100的正态分布。如果你抽取了一个n=25的随机样本，样本均值大于M=540的概率是多少?

基于中心极限定理

a.因为 SAT分数的总体是正态的，所以样本均值的分布也是正态的。（or取样大于或等于30）

b.因为总体均值是 500,所以样本均值分布的均值也是500。（M的期望值）

c.分布的标准差是 20（M的标准误）

公式过程

求概率

我们对阴影部分感兴趣，和之前z分数求概率一样求出z分：540-500 / 20= 2（标准误的用法和标准差一样，其实标准误就是标准差，只不过是属于这个样本均值分布的标准差而已，然后用标准误给予称呼而已）因为是正态分布，可以用表找出z分为2的尾端的概率：p=0.0228(2.28%）即，抽取了一个n=25的随机样本，样本均值大于M=540的概率是2.28%

样本均值的z分数

概述

每个M 在样本均值分布中的位置能用z分数定义（样本均值分布是由全部M 组成的嘛，可以用z分数看某个M 在样本均值分布的位置）其实和之前学习的差不多，只是换了些符号

例子

SAT的分数形成了一个均值为 500,标准差为 100的正态分布。如果抽取n=25的随机样本，最有可能得到哪种样本均值（确定80%的范围）。

首先期望值肯定=500的，也能知道标准误=100/√25=20 80%的范围则左、右各40%，通过分数到均值间那列可找到z=±-1.28 即可知道 ±-1.28=x-500/20，那x=474.4与525.6（或者20 x ±1.28 + 500也可得到474.4与525.6）所以可能得到样本均值从474.4到525.6 也即：如果我们选择一个n=25名学生的样本，我们能有80%自信说，样本的平均分数在474.4到525.6这个范围内。

7.4 更多关于标准误的知识

标准差与标准误的区别

看来是有点难理解，嘿嘿~不过实在抓不准，就用标准误咯~

抽样误差与标准误

1、抽样误差：样本的统计量与总体参数间总会出现一些偏差，如图中每个小方柱，有50%的样本均值会低估总体均值，也有50%的样本均值会高估总体均值。 2、标准误：一些样本围绕中心相对精准，另一些离中心远的则较不精准。标准误提供了一种测量样本均值和总体均值之间平均或者标准距离的方法。因此，标准误提供了一种定义和测量抽样误差的方法。标准误向研究者们解释了他们的样本数据有多准确地代表了所研究的总体。例如，在很多研究情境中，总体均值是未知的，研究者选择一个样本来得到关于未知总体的信息。样本均值提供了关于未知的总体均值的信息。

例子

近期对当地一所大学的学生所做的调查包含如下问题:你每天观看电子视频(网络、电视手机、平板等)的时间是多少? 得到的调查结果显示平均为μ=80分钟，且该分布服从标准差σ=20的近似正态分布。我们从这一总体中抽取一个样本，并想要知道样本均值代表总体均值的准确性。具体来说，我们想知道下面三个不同样本量的样本代表总体的准确性分别如何: 三个样本的样本量分别为n=1、n=4、n=100。

当样本只包含一个学生，其样本均值就等于学生的分数，即M=X。因此当n=1,样本均值的分布等同于原始总体的分布。这里样本均值的分布的标准误就等于原始总体分布的标准差。（σM = σ/√n = 20/√1 = 20）期望样本均值和总体均值之间的平均差异为 20分

σM = σ/√n = 20/√4 = 10 也就是说，M和μ之间的标准距离为 10分。你会注意到，该分布的样本均值比起 n=1 时更接近总体均值。

σM = σ/√n = 20/√100 = 2 n=100的样本比起n=4或n=1的样本，其样本均值能够更准确地代表总体均值。当n=100时，M与μ之间的误差非常小。具体来说，总体均值和样本均值之间的平均差距只有2分。

都是正态分布，你脑海中复现的那个可能是标准正态分布，就是均值0、标准差1的，正态分布根据标准差不同也会有宽窄的区别总的来说，这个例子说明了在最小的样本量（n=1）下，标准误和总体标准差是相同的。当样本量增大，标准误随之减小，样本均值就更接近 μ。

报告标准误

科学杂志在提到标准误时有所区别，但是都使用符号 SE 和 SEM(均值的标准误)。

不同的报告图

报告的是标准误

长方形是均值，那个丨——丨，是标准误的浮动范围，这里标准误是5，即-5 到 +5 的范围这样不仅能看到均值，还能看到他的误差范围~

黑点是均值上下浮动的是标准误

7.5 推论统计展望

对以下两者进行比较（可以任意取n=25的，样本均值的分布包括了所有n=25的）： a.处理组：接受实验处理的样本。（这组需要处理后保留，拿来比较嘛~） b.未处理组：未接受处理的样本。（这组好像不用特意选取，因为求出来的标准误就适用所有n=25的样本~）如果处理组样本显著不同于未处理组，那么我们将有证据证明处理有作用。另外，如果我们的处理样本与未处理样本相似，那么我们会得出结论，处理看起来没有任何作用。样本均值的分布和标准误能帮助研究者作出这个决定。

n=25只未处理样本的样本均值的分布将有以下特征： 1.因为原始总体是正态的，它是正态的。 2.因为总体均值是400，它的期望值是400。 3.因为总体标准差是 20,样本大小是n=25，它的标准误是σM=20/√25=20/5=4 我们可以用z分数，给样本均值加个范围，比如确定95%（左右47.5%），根据z分数找到临界值 -1.96 —— +1.96，对应样本均值的 392.16和407.84 因此，未处理样本几乎保证了(95%可能) 样本均值在 392.16～407.84 然后求处理后的样本均值，如果在392.16~407.84间，那处理无效，因为没什么不同如果落在这个392.16~407.84外的，处理则有效~

学习检查

2.一个总体是均值为40,标准差为8的正态分布。

a.从该总体中抽取n=16的样本，其样本均值为M=36。那么这是一个相对典型的样本，还是一个极端的样本?解释你的答案。

这里n=16的标准误是2，但注意，这里比较的是 M=36 与样本均值分布（u=40）的相对位置，即要用（36-40）/2=-4/2=-2。 M=36是样本均值分布的其中一个样本均值而已，要比较的是他们俩的关系~

4.从一个均值μ=50,标准差σ=12的正态分布中抽取一个n=16的样本。该样本经实验处理后的样本均值为M=57。这个样本均值能否说明实验处理的有效性?特别地，该样本均值处在95%可能范围内吗?

这里求出95%范围内是44.12-55.88（+/-1.96 x 3 + ），处理样本均值是57，不在这个区间，所以处理有效

随机抽取一个分数，这个等于抽取一个n=1的样本嘛~灵活变通点~

我们同时运用样本均值的分布、z分数和概率来提供对未处理样本的合理期望值的描述。然后，我们通过处理组样本是否显著不同于未处理组样本来评价实验处理是否有效。这个过程构成了假设检验这一推论统计方法的基础，假设检验在第8章会有所介绍，并贯穿于教材余下的内容中。

第8章假设检验介绍

8.1 假设检验的逻辑

假设检验定义

假设检验是一种统计方法，它使用样本数据来评估一个关于总体参数的假设。

假设检验主要用于研究的前后。即一个研究者完成了一项研究，然后使用假设检验来评价结果。

假设检验逻辑

1.首先，我们提出一个关于总体的假设。

通常，假设关注于总体参数的值。如，我们可能假设在每年的感恩节和新年期间，美国成年人的体重平均增加μ=7磅。

2.在选择一个样本之前，我们利用假设来预测样本应当有的特质。

例如，如果假设总体均值μ=7磅，那么,我们可以预测样本均值将在7磅左右。记住，样本应当与总体相似，但总会有一定的误差。

3.接下来我们从总体中得到一个随机样本。

例如，我们可以在美国成年人中选择一个n=200的随机样本，计算他们体重变化的平均值。

4.最后，我们比较得到的样本数据和做出的假设。

如果样本均值与预测一致，我们将得出结论，假设是合理的。如果数据和预测之间有较大的差异，我们认为假设是错误的。

未知总体

研究的目的是确定对总体中每个个体进行处理后会发生什么。为了简化假设检验的情境，我们对处理效应作了一个基本假设：如果处理效应存在，每个个体的分数会增加/减少一个常量。每个分数增加/减少一个常量仅仅会改变平均数，不会改变总体分布的形状、标准差。因此，我们假设处理后的总体与原始总体有相同的形状和标准差。

研究中的样本

虽然假设检验目的是研究总体每个个体效应，但太大，所以要选择一个样本研究（除非你可以对整个总体进行检测...）从已知的原始总体抽取一个样本进行处理（左）通过处理后的样本去推断未知处理后的总体（右），处理后的样本与未知的处理后的总体所得到的样本是等价的假设检验就是用右边的接受处理后的样本来检验图中未知的处理后总体的假设。

假设检验步骤

检验对大脑顶叶进行电流刺激是否对学习数学有帮助，总体在该测验得到的分数为正态分布，平均数为μ=80，标准差为σ=20。研究者计划得到一个n=25的样本

第一步：提出假设

根据总体参数提出两个相反的假设（只能对一个，不能并存）

注意：两个假设是根据总体参数提出的。

1、虚无假设/原假设

处理后没有效应，总体中没有变化、区别、关系。即在一个实验中，H0 预测自变量(处理) 对因变量没有作用。虚无假设的符号是H0（H代表假设，0代表零作用，即虚无）

例子中的虚无假设是，大脑受到的电流刺激对学生总体的数学学习技巧没有影响。符号表示是：H0：μ有刺激=80 (即使有刺激，测验的平均成绩仍为80。即没效果嘛)

2、备择假设/科学假设

备择假设(H1)指出，总体存在变化、区别或者关系。在实验中，H1预测自变量(处理) 对因变量有作用。

例子中备择假设，预测刺激影响学生总体数学的学习，从而引起平均分的变化。符号表示是：H1：μ有刺激 ≠ 80 (因为有刺激，平均分不等于80。)

有刺激不代表有方向，就是不确定是正向还是负向的影响（无方向的检验），也可以进行有方向的检验，如，研究者可以假设刺激能提高测验的平均分(μ>80)。

第二步：为下结论设立标准

概述

研究者最后将使用样本的数据来评价虚无假设的可信性。如果数据和假设间存在很大的差异（即有效应咯），研究者将得出结论，虚无假设是错误的。反之，正确

对于我们的例子，零假设/虚无假设认为刺激没有作用，总体均值仍为μ=80。如果该假设为真，则样本的均值应在80左右。如果虚无假设为假，样本均值则显然不等于80。

本例是虚无假设为真时（μ有刺激=80），n=25的样本均值分布样本均值分布被分为两个部分，如图， 1、高概率（H0为真时可能得到的样本均值，即接近虚无假设的总体均值；） 2、低概率（H0为真时不可能得到的样本均值，即不接近虚无假设的总体均值。）这样就可以通过求样本均值与虚无假设进行比较，从而得出虚无假设是否正确了。

α水平

为了找到区分高概率样本和低概率样本的界限，我们通过选择一个特别的概率值来达到，它被叫做假设检验的显著性水平或者α水平。

α值是一个小概率，它用来确定低概率的样本（α值就是属于非常不可能的结果~落在这就可以拒绝虚无假设了，就是，这么不可能的结果都发生了，那就是处理效应出现啦~）。经常使用的a水平是 α=0.05（5%） α=0.01（1%） α=0.001（0.1%）例如，当a=0.05时，我们的样本均值的分布就分为高概率区（95%）和低概率区（5%）了

α水平提供了拒绝域，如果样本均值落在拒绝域，虚无假设不成真（即处理是有效果的），反之，成真（处理无效果）

拒绝域的界限

为了确定拒绝域界限的确切位置，我们将使用α水平概率和单位正态分布表。

例子

例如，α=0.05，即5%嘛，左右各一个就是左右各2.5%，中间就是95%，我们可以通过尾端等于2.5%查到z分数是1.96。即左右是-1.96和1.96 所以如果数据＜-1.96，或者＞1.96，那就是落在拒绝域啦~ tips： z分数越小，其实越靠近均值，更接近高概率区 z分数越大，其实越远离均值，更接近低概率区

学习检验

如果一个研究者在a=0.02水平下进行假设检验，那么拒绝域的界限值z等于多少?

注意，a是被分成左右两端的，去查表的时候，别忘记除2，所以这里应该查0.01的尾端，即z=+/- 2.33

第三步：收集数据，计算样本统计量

概述

就是对样本进行操作然后获取数据呗，注意这步得在假设和决策标准后，不然可能就为了结果去修改决策标准（事实上...应该不少吧,,,）通过数据获取样本均值

比较数据和假设（假设检验的核心）

通过对比样本均值相对于H0假设的总体均值的位置（即z分数）来完成比较，即看是否落在拒绝域通过比较处理的样本和未处理的样本组成的样本均值分布/H0所假设总体的样本均值分布做出决定 H0假设的总体均值也是基于H0假设的样本均值分布的期望值呀，所以可以求出样本均值的相对位置，也就是靠不靠近这个总体均值咯~

求z分数公式

分子：测量数据和假设之间有多大的区别分母：测量样本均值（处理样本均值）和总体均值（H0假设的总体均值）间的标准距离。 H0是对未知的处理后的总体提出假设哦~别忘记~ 和之前求z的本质一样

第四步：下结论

1.样本数据在拒绝域

样本和 H0不一致，拒绝H0。即处理对于样本中的个体确实存在作用。

例子

假设例子中学生样本接受电刺激后的均值M=89（忘记题目可以看看标注）标准误是20/√25=4 求该M的Z分数 = （89-80） / 4 = 2.25 决策决定α=0.05，界限是-1.96与1.96，2.25＞1.96（落在拒绝域）所以与虚无假设不一致，即处理有效 - 对脑的电刺激对数学技巧的学习有作用。

总体在该测验得到的分数为正态分布，平均数为μ=80，标准差为σ=20。研究者计划得到一个n=25的样本

2.样本数据不在拒绝域

数据合理地接近H0(在分布中间)，不能拒绝虚无假设。这个结论意味着处理显得没有作用。

例子

假设例子中学生样本接受电刺激后的均值M=84 z=（84-80） / 4 = 1，并不在拒绝域与虚无假设不一致，即处理无效 - 对脑的电刺激对数学技巧的学习没有作用。

一般来说，我们通过比较处理的样本和未处理的样本组成的样本均值分布（H0所假设就是没有处理效应嘛，其实是同一个含义）做出决定。如果处理后的样本和没有接受脑电刺激的样本是一样的，我们可以得出结论处理没有作用。另一方面，如果处理后的样本明显不同于大部分未处理的样本，则我们认为处理有作用。

8.2 假设检验中的不确定性和误差

在一个假设检验中，可能会犯两种不同的错误。

第一类错误

定义

当研究者在虚无假设为真时拒绝虚无假设，就发生了第一类错误。第一类错误意味着当处理效应不存在时，研究者得出结论，处理效应存在。

严重结果的错误~因为本来不存在处理效应你却说有，无中生有，如果其他人听取了，会造成资源浪费

例子

例如，在之前的部分中，我们考察增加脑部顶叶刺激影响新的数学技能学习的研究。假设研究者选择了一个n=25的学生样本，这些学生在学习之前就已经有了高于平均水平的数学技能。即使刺激(处理)没有作用，这些学生仍会在标准化的测验中取得更高的分数。在这种情况下，研究者很可能得出结论，处理效应存在。而实际上它不存在。这就叫做第一类错误。

第一类错误发生的概率

当研究者在不知情的情况下使用了一个极端的、没有代表性的样本的时候，就会犯第一类错误。假设检验的α水平是虚无假设为真时，导致第一类错误的概率（没有处理效应时，样本数据却落在拒绝域的概率）。 α水平决定了犯第一类错误的概率。（可以设严格点，那就减少犯错的概率）

第二类错误

定义

当研究者没有拒绝错误的虚无假设时，就发生了第二类错误。研究情境中，第二类错误意味着假设检验不能识别一个真正存在的处理效应。

没那么严重结果的错误~最多说没效或者效果少嘛，起码不会造成过多的资源浪费啥的~

例子

第二类错误意味着研究数据没有显示出研究者希望得到的结果。研究者可以接受这个结果，得出结论说处理效应不存在或者是处理只有很小的效应，不值得研究。或者，研究者也可以重复实验(通常要经过改进，例如增加样本量),然后试着证明处理效应真的存在。

第二类错误发生的概率

不像第一类错误，我们不能为第二类错误确定一个单独的确切的概率值。第二类错误的概率取决于许多因素，是一个函数，而不是一个特定的数值。虽然如此，第二类错误的概率也可以用希腊字母β表示。

没有却说有，第一类错误；有了却说没，第二类错误；

选择一个α水平

两个非常重要的功能

1 α通过定义非常不可能的结果，帮助我们确定了拒绝域的界限。

2 α决定了在虚无假设为真时第一类错误的概率。

最主要的关注点

最主要的关注点是，通过选择α的值来减小第一类错误的概率。因此，α水平应当是一个很小的值。根据惯例，最大的允许值是α=0.05。当不存在处理效应时，a水平为0.05意味着有5%危险，或者1/20的概率拒绝虚无假设，犯第一类错误。因为犯第一类错误的后果很严重，很多研究者和科学出版物要求更严格的α水平，例如0.01或者0.001来减小一个错误的报告被发表成为部分科学成果的风险。

当α水平减小时拒绝域的界限是如何移开的

越小越靠边拒绝域越小，需要的处理效应越大 α水平为005、0.01、0.001被认为是很合理、很好的值，因为它们提供了一个相对小的错误概率并且没有对研究结果有过多严格的要求。

8.3 关于假设检验

假设检验小结

假设检验的4个步骤结合8.1的假设检验步骤

步骤1 提出假设，选择α水平

对于上面例子，没有处理的总体的平均测验成绩为μ=80,σ=20。因此，假设如下： H0：μ有刺激=80 (脑部刺激没有效果) H1：μ有刺激≠80 (脑部刺激有效果) 我们设定a=0.05。

步骤2 定位拒绝域

当α=0.05时，那些x分数值超过 ±1.96 的样本均值形成了检验的拒绝域。

步骤3 计算检验统计量(z分数)

步骤4 做出决定

根据z分数是否落在拒绝域中，对虚无假设做出判断

假设检验的报告

发表假设检验的结果有一个特别的术语和符号系统。例如，当你阅读一本科学杂志时，它不会明确地告诉你研究者用z分数和α水平为0.05的检验统计来评价数据，也不会告诉你“拒绝虚无假设”。你将看到与下面类似的表述：对顶叶的电刺激对数学测验成绩有显著的作用，z=2.25，p<0.05（右边探讨这三个的意思）。

显著

当虚无假设，极不可能的结果发生时（落在拒绝域，就是有处理效应），我们说一个结果显著，或者统计上显著。即假设检验的结果是拒绝 Ho，那么处理效应显著。

z=2.25

表示z分数作为检验统计量，被用来评价样本数据，它的值为2.25。（一般α=0.05的话，界限是±1.96，超过1.96就可以~）

p<0.05

这部分描述是确定用做假设检验的α水平的传统方法。它同样是犯第一类错误的可能性(概率)。更明确地说，研究者报告处理有效应时，也承认这是一个可能错误的报告。即尽管脑部刺激没有作用，样本均值也有可能落在拒绝域中。 p实际上就是z值对应的尾端概率嘛~

在统计结果不能拒绝H0时，报告可以这样表述：

样本数据没有提供足够的证据证明脑部刺激对数学测验成绩有作用，z=1.30，p>0.05。（一般α=0.05的话，界限是±1.96，这里没超过1.96~）

区别p的方向

p＞α，就是说没落在拒绝域，不能拒绝虚无假设嘛，它落在高概率区 p＜α，就是说落在拒绝域了，它能拒绝虚无假设嘛，它落在低概率区 p＞α 就是 z分数的概率大于 α的概率，所以落在了高概率区，不是极不可能事件嘛，所以不能拒绝虚无假设 p＜α 就是 z分数的概率小于 α的概率，所以落在了低概率区，就是极不可能事件嘛，所以就拒绝了虚无假设（正态分布是越靠近中间，概率越大，越两边，概率越小哈~可以看正态分布的定义的那张图~）

p值也可以报告具体的数，而不是用＞或＜号，如一个研究者的报告可能指出，处理效应显著,z=2.45，p=0.0142。（这个p的标准远远低于0.05的要求，所以效果还是蛮显著的~） p值其实就是概率啊，这里z=2.45，尾端的概率是0.0071。比较的时候记得，α的0.05是两边的尾端的相加（一边各0.025嘛~1.96的界限也是从0.025来的），所以这里的0.0071如果拿来和α相比，那记得也要加起来（即0.0142），要不就和α的一半即0.025去相比。

使用z分数的假设检验的前提

随机样本

假设得到样本数据的被试是随机选择的。样本应当能代表它来自的总体。随机样本帮助我们确定它是具有代表性的。

独立观察

样本的值必须是由独立观察组成的。如果第一个事件的发生对第二个事件发生的概率没有影响，那么两个事件(或者两个观察)是独立的。随机抽样可满足此条件

例子

硬币

假设硬币是均质的，每个硬币抛出有50%可能得到正面或反面。更重要的是，每次抛硬币都是独立的。（下一次结果不会被上一次影响）例如，第五次抛出，不管前四次的结果如何，都有50%几率得到正面；硬币不会记住前面抛的结果，也不会被影响。 (注意，许多人不相信独立事件。例如，在连续4次得到反面之后，很容易让人猜测得到正面的概率会增加，因为该轮到正面了。这是错的，被称做“赌徒谬论”。硬币不知道之前的投掷发生了什么,也不能被之前的结果影响。)

儿童

一个研究者想考察儿童的电视偏好。为了得到一个n=20名儿童的样本，研究者选择了 A家庭中4名儿童， B家庭中3名儿童， C家庭中5名儿童， D家庭中2名儿童， E家庭中6名儿童。很明显，研究者没有得到20个独立的观察。在每个家庭中，儿童可能有同样的电视偏好(至少他们看同样的电视节目)。因此，每个儿童的回答可能与他们的兄弟姐妹相关。比如A家庭4个儿童，第1个儿童肯定会对2、3、4个都会有影响啊，并不会独立~ 或许每个家庭都只选一个儿童才会独立~

不放回抽样

如果样本是通过不放回抽样获得的，那么就违背了独立观察的原则。例如，第一次选择，如果你选择一个 20个个体的样本，第一个个体有1/20的机会被选择。第二次选择，当第一个个体被选择后，只剩19个个体，这时，被选择的概率变为1/19。因为第二个被选择的概率依赖于第一个的概率，两次选择不是相互独立的。

σ（标准差）的值不被处理改变

假设检验中，样本来自一个未知总体，实际上这个未知总体并不知道标准差为此，我们得做出假设，未知总体与处理前的总体的标准差相同。之前也有过一个一般假设，就是处理效应是总体的每个分数加上/减少一个常数，这个做法会改变平均值，但不会改变分布的形状（即标准差），只是分布可能左右平移。（书本说~但这是理想化的假设~）

正态样本分布

为了用z分数评价假设，我们需要使用单位正态分布表来确定拒绝域。只有样本均值的分布是正态时，才能使用这个表。

进一步研究z分数

作为方子的 z分数公式

作为比例的 z分数公式

基于是前面内容的重述、我觉得可不看~ 但有一点可以再深化下，就是z分数是某分数与均值的距离嘛，所以， z分数越小，其实越靠近均值，更接近高概率区 z分数越大，其实越远离均值，更接近低概率区

影响假设检验的因素

分数的变异性

感性上

第四章的 “方差和推论统计” 这里也显示了，变异性太大，会看不清模式，导致不利于发现显著的处理效应

理性上

上面的研究（可看标注），总体均值=80，标准差σ=20。使用n=25的样本时，标准误σm=4，样本均值为89，z分数为2.25，结果显著。假如这里标准差增大到σ=30 标准误 = 30/√25=6， z分数等于（89-80）/ 6=1.5，那么这里＜1.96（α=0.05），就不显著了就是变异性越大（标准差越大），导致分母越大的话，除出来的数就越小嘛，那就越不利于落在拒绝域。

检验对大脑顶叶进行电流刺激是否对学习数学有帮助，总体在该测验得到的分数为正态分布，平均数为μ=80，标准差为σ=20。研究者计划得到一个n=25的样本假设例子中学生样本接受电刺激后的均值M=89。

样本中分数的个数

总体均值=80，标准差σ=20。用n=25的样本时，标准误σm=4，样本均值为89，z分数为2.25，结果显著。还是可以套用公式，如果n=100的时候，标准误=20/√100=2 z分数为（89-80） / 2 = 4.5，那么这里＞1.96（α=0.05），就显著了就是样本大了，标准误就会变小，那么分母变小，结果自然变大，就更容易落入拒绝域了。实际上样本大了，变异性当然会减少（本来标准误就会随着样本变大而减小~），就是你“证据”更多嘛，自然更“稳定”

学习检查

如果其他因素不变，σ=2和σ=10,哪种情况下更可能拒绝虚无假设?

标准误公式：σ / √n 标准差越小，分子越小，结果就越小，标准误越小样本均值的z分数公式：M-u / SE 标准误越小，分母越小，结果就越大，Z分数越大 z分数越大，越远离均值，即容易在低概率区上。反之就在高概率上，所以标准差越低越有利于拒绝虚无假设（和上面说的变异性越低，越好拒绝虚无假设同理）其实无论标准误还是标准差都是越小，越好拒绝虚无假设，（因为他们都和变异性有关，当然越小越好嘛~）

8.4 有方向的假设检验(单侧检验)

单侧检验定义

单侧检验

在有方向的假设检验或者单侧检验中，统计假设(虚无假设和备择假设)定义了总体均值的增加或者减少。即它们做出了关于效应方向的陈述。（就是在假设的时候，假设了效果的方向，比如增多了？还是减少了？等）

以上都是双侧检验（拒绝域在两边嘛~），双侧更广泛

结合例子学习

在之前的例8.1中，我们讨论了一个研究，来检验对顶叶的电刺激对学生数学技巧的学习的作用。n=25的样本中的每一个个体每天在做标准化数学测验时，顶叶接受 30分钟的电刺激。对一般的学生总体(不接受脑电刺激)来说，测验分数形成了一个平均值μ=80,标准差σ=20的正态分布。（不用细看~）对于这个例子，预期的效应是对顶叶的刺激可以提高测验成绩（方向）。如果研究得到一个n=25,M=87的样本，结果可以证明刺激有效果吗?

一个有方向检验的假设

H0：测验分数没有提高。(处理没有效应) 符号表示（是≤哦~）： H0：μ≤80(加以刺激后，平均成绩不高于80)

目的是“提升”，但虚无假设要反着来~就是要不会“减少”，要不“没反应”

记得假设是对总体提出假设哦，所以均值是比较总体的均值哦！这里是80

H1：测验分数会提高。(处理有效应) 符号表示： H1：μ>80(加以刺激后，平均分数高于80)

有方向检验的拒绝域

基于虚无假设总体出来的样本均值的分布，它的期望值是80，标准误是4（20/√25=4。） H0是≤80嘛，所以只要落在右边的拒绝域就可以拒绝H0了（远大于80~），（不是＞80就可以拒绝，得到拒绝域才可以~）原本双侧检验α的0.05要分成两半，就是要根据0.025去求界限，但是单侧检验不用分（只有一个拒绝域），所以直接根据0.05去找界限就行，这里是 z=1.65 所以处理后的样本均值的z分数落在1.65外就可以拒绝H0了~（例子的M=87，求出来的Z分数是1.75，即可以拒绝H0）在文献中，这个结果可以报告如下（注意，报告要注明使用的是单侧检验）刺激可以显著地提高成绩，z=1.75，p<0.05，单侧检验。

注意

一个有方向的检验(单侧检验) 需要在假设检验的过程中做两个步骤的改变

1.在假设检验的第一步，在假设中加入有方向的预测

2.第二步，拒绝域由分布的一个尾端来定义。

单侧检验和双侧检验的比较

主要区别是拒绝虚无假设的标准。（α都不一样，单侧检验直接拿0.05的Z分数了~）单侧检验在样本和总体差异相对较小时拒绝虚无假设，因为差异在特定的方向。（z分数没那么严格嘛~）双侧检验在样本和总体差异相对较大时拒绝虚无假设，差异与方向无关。（z分数相对严格嘛~）其实本质就是概率的不同，双侧分开两端，单侧集中一段~

一些争论~

一些研究者认为双侧检验更严格，因此比单侧检验更可信。因为需要更多的证据来拒绝虚无假设，因此提供了处理效应存在的更强的证明。另一些研究者认为单侧检验更好，因为它们更敏感。即一个相对较小的处理效应可能单侧检验显著，但是双侧检验不显著。

总的来说，在没有明显期望的方向或者存在两个有竟争的预测时，通常使用双侧检验。例如，当研究中一个理论预测分数增加，另一个理论预测分数减小时，使用双侧检验较为合适。另外，只有当实验之前作出有方向性的预测，或者有正当的理由作出有方向的预测时，才能使用单侧检验。特别是当一个研究中双侧检验不能得到显著结果时，你不能使用单侧检验作为使其显著的补救方法。（哈哈哈，谁知道呢？~(*^__^*) 嘻嘻……）

8.5 关注假设检验：测量效应的大小

局限

关于α的争论——实际上，发表的研究中犯第一类错误的概率比假设检验使用的α水平更高（书本143页专栏8-2有说明，了解就行~）

另一个局限是一个显著的处理效应并不意味着一个大的处理效应。统计显著并没有获得处理效应大小的真实信息实际上处理效应是来源于对H0的拒绝，就是假如没处理效应，结果不太可能发生，本质是对不太可能发生做出拒绝，并不就是有很大的处理效应。（理解理解就行）

例子

首先，我们得到一个总体的分数，它是正态分布，μ=50,σ=10。从总体中选择一个样本并对它施测。处理之后，样本均值M=51。这个样本提供了处理效应在统计上显著的证据吗?

n=25

z分数0.5并不能拒绝H0

n=400

z分数2.00拒绝了H0

一个小的处理效应在统计上也可能显著。如果样本量足够大，任何处理效应，不管有多小，也足够拒绝虚无假设。所以实际上，也不可以选太大的样本呀，缺少说服力。

测量效应大小

效应大小定义

效应大小提供了对处理效应大小的具体测量，计算中使用独立的样本量大小。？？？

Cohen's d系数

定义

Cohen(1988)建议，效应大小能通过以标准差测量均值距离来标准化。（以标准差为单位嘛，然后通过比较两个均差的差异再除标准差，就知道移动了多少个标准差了，就是通过标准差的变化来判断效应的大小）

公式

μtreatmeng - μno treantment / σ 对于z分数假设检验，均值差异来源于处理之前的总体均值和处理之后的总体均值的差异。(但由于处理后的总体均值并不清楚，所以用下面的公式，通过样本比较)

Mtreatmeng - Mno treantment / σ 通过比较，两个不同处理前后的总体的样本均值差异来得出效应大小（这里是期望样本均值可以代表总体，所以也可以理解为是总体的均值，所以除标准差，而不是标准误）（样本均值的期望值本来也等于总体均值呀~）（标准误代表的是样本均值与总体均值的标准距离呀，你拿均值差异除这个干嘛，逻辑也说不通）

Cohen's d 与标准差的影响

（a）与（b）的均值差异都是15，但是因为标准差的不同，（a）的d = 15/100 = 0.15（小效应）（处理效应 = 0.5个标准差，分布往右边移动了0.5个标准差）（b）的d = 15/15 = 1.00（大效应）（处理效应 = 1 标准差，分布往右边移动了1个标准差）所以标准差越小，效应越大用z的公式也可以理解，标准差大（分母大），那z分数就小嘛，就靠近高概率区了嘛~自然效应小~

用Cohen's d系数评价处理效应

就是根据d的多少可以归类大中小~

Cohen's d与样本容量关系（上面的例子，可看备注）

首先，我们得到一个总体的分数，它是正态分布，μ=50,σ=10。从总体中选择一个样本并对它施测。处理之后，样本均值M=51。这个样本提供了处理效应在统计上显著的证据吗? 一个样本量为25，一个样本量为400

Cohen's d系数比较处理前后的两个均值，所以与样本容量无关， n=25和n=400处理后的均值都是41，所以他们的d都是 41-40 / 10 = 0.1（很小的效应~）

学习检查

一个研究者选择了一个均值μ=70,标准差σ=12的总体的样本。对样本中的个体施加处理后，研究者计算得出Cohen'sd系数=0.25。求样本的均值。

0.25*12=3（可以通过公式理解哈）所以另一个均值和70差3，但这个差3可以在左也可以在右，就是73 or 67 所以课本的公式可能漏了个绝对值，因为课本公式本来就是用处理后的减去没处理的嘛，所以这里按课本公式应该是73，因为67就是负数了~ 上网查确实是说可以拿绝对值的。也对，不太应该拿负数，因为这个d系数要说明的就是处理效应的大小嘛，要不就没，要不就多少嘛，和正负也没啥关系~就是减少或者增加都不影响啊，就是增加了 “多少”，减少了“多少”而已嘛，关注的是这个多少。

8.6 测量检验力

统计检验的检验力

定义

另一种检验处理效应的方法统计检验的检验力是检验正确拒绝一个虚无假设的能力。即检验力是检验确定一个处理效应真实存在的概率。

当有处理效应时，假设检验有两个可能的结果：接受H0 或拒绝H0。因为只有两种结果，两种结果相加的概率应等于1。当有处理效应时，接受H0 被定义为第二类错误（有效应却说没），其概率p=β。拒绝H0 的概率为1-β（即可以正确拒绝H0的概率），也即假设检验的检验力求出β需要通过检验力，就是得先求出1-β的值，才能反推β~ 检验力一般在实验前通过假设获得，就是比如研究者假设处理效应有8分。

例子

一个正态分布的总体，均值μ=80,标准差σ=10。一个研究者想从该总体中选择一个n=25的样本，并对样本中的个体施测。研究者预计处理会产生8分的效应（这里含义是已经假设存在处理效应了哦！），也就是说处理会使每个个体的分数提高8分。

上图横轴的都是M值，这些分布是样本均值的分布（由n=25的均值组成的）~ 样本分布均值的期望值是μ哦，虽然也存在于M中所以这里的Z公式是 M-μ / σM，哈哈~对之前知识的精准化~ 我们这里的目的是要求出如果存在8分的效应，检验力是多少（即右边阴影部分，这里都能正确地拒绝H0，即1-β）左边是虚无假设的样本均值分布，拒绝域（α=0.05）仍在±1.96两边；标准误=10 / √25 =2 右边是假如存在应8分效的图，每个个体增加8嘛，那就是平均值也增加8，所以向右平移8，均值在88处。我们的目的是求右边阴影部分的概率， 1、先求在左边分布，处于1.96的分数是多少，即1.96*2 + 80 = 83.92（这里是临界值，只要超过83.92分数都能拒绝虚无假设） 2、然后再求83.92在右边的分布里的z分数，然后这个z分数的主体概率就是检验力，即z = 83.92 - 88 / 2 = -2.04 ，此处的主体概率= 0.9793 结论：如果处理有8分的效应，97.93%样本均值都会落在拒绝域中，使我们拒绝虚无假设。换句话说，检验力为97.93%，这在实际研究中意味着研究一定会成功。如果研究者选择了一个n=25的样本，处理引起了8分的效应，那么假设检验97.93%的机会会得出有显著效应的结论。

影响检验力的因素

结合着图看

效应大小

随着效应大小的增加，右边的样本均值将会离中心更远（就是比如例子中的效应是8，你就说大点比如10，右边的整个分布都会向右移动，拒绝域变大了呀~），因此它们中更多的值将会超过z=1.96 的界限。（结合图看看）因此，随着效应大小的增加，拒绝虚无假设的概率也增加，这意味着检验力增加。 Cohen's d系数和检验力的测量，都提供了处理效应大小和强度的测量。

样本量

如果n=4，标准误变成5了，那么在左边分布的1.96的分数是，1.96*5 + 80= 89.8 得超过89.8分数的才能拒绝H0，n=25的时候，超过83.92就可以，此刻，89.8在右边分布的z值是89.8-88 / 5 =0.36 z分数对应的尾端概率是0.3594，即检验力只有35.94%。（89.8都超过右边88的均值了，那阴影部分当然是尾端啦~）（n=25的检验力可是有97.93%哦~）就是如果样本量变小（就是标准误变大）的话，位于临界线的分数就会变大（往右移），拒绝的概率就降低了感性认识嘛，反正样本量增大，效应会越明显嘛，自然这种检验力就越厉害啦，所以样本量增大也有助于检验力就是了~

α水平

图中展示的是α=0.05时的拒绝域界限，这时拒绝域界限为z=1.96。如果α水平变为0.01,界限将会向右移至z=2.58。对应z=2.58的分数变成了2.58*5 + 80 = 92.9 了（上面样本容量的例子是89.8），拒绝的概率进一步减少了感性认识嘛，α变严格了，拒绝率肯定就低了呀（z往右边移），检测力就降低了（阴影减少）

单侧检验和双侧检验

图中呈现了α=0.05的双侧检验的拒绝域界限，右界限为z=1.96（0.025的概率）当变为单侧检验时，拒绝域界限将左移至z=1.65（0.05的概率）界限左移左边分布的拒绝率变大嘛，右边的阴影会变大嘛~因此增加检验力

学习检查

一个研究者从均值为μ=60，σ=12的正态总体中选择一个n=16的样本，并对样本中的个体施测。假设处理可以增加4分，那么在α=0.05水平下的双侧检验的检验力是多少?

标准误为 3 时，拒绝域界限 z=1.96 对应的样本均值M=65.88。效应值为4 时，样本均值分布的均值为μ=64， M=65.88的样本均值对应的z=0.63，检验力为p（z＞0.63） = 0.2643

第三部分使用t统计量推断总体均值和均值差异

第9章 t检验介绍

9.1 t统计量：z分数的替代形式

z分数的问题

我们想用z分数来获得关于未知总体的信息，但在计算z分数前，我们必须知道总体信息。幸运的是，有一个相对简单的方法可以解决这个问题。当总体方差未知时，我们使用相应的样本数据来代替。

t 统计量介绍

估计标准误（SM）

概述

当σ的值未知时，估计标准误（SM）是真实标准误 σM 的估计值。它是由样本方差或者样本标准差计算得到的，它提供了样本均值 M 和总体均值μ 之间标准距离的估计。

M的估计标准误（SM）更多使用方差的公式

SM=√s²/n 样本方差要 ss / n-1 估计标准误不用n-1哦~；注意√里的分子是方差哦，不是标准差~

t检验统计量

t统计量定义

当σ的值未知时，t统计量被用来检验关于未知总体均值μ的假设。 t统计量的公式与 z分数公式有相同的结构。但是 t统计量的分母使用的是估计标准误。

t统计量是 z分数的一种替代。它们之间的基本差异是 t统计量使用样本方差，z分数使用总体方差。

t统计量公式

t = M-μ / SM

t统计量和自由度

自由度（df）

自由度描述了样本中可以自由变化的分数个数。因为样本均值限制了样本中的一个分数，所以样本自由度为n-1 (见第4章)。就是n-1个数可以自由取值，但为了最后可以得到均值，最后一个数被限制了（不自由了~）

样本的df值越大，样本方差就越能更好地代表总体方差，t统计量就更接近 z分数。这很有意义，因为样本量越大，样本就越能代表总体。（df越大代表样本量越大嘛，它是n-1哦~）

t分布

样本从正态分布的总体中来；或样本量≥30； z分布就是接近正态的这些情况下，t分布也近似正态分布（t统计量近似于z分数） t有多接近正态分布，由自由度决定，n（样本容量）越大，df（n-1）越大，t分布越接近正态分布

t分布比 z分布变异性大

因为z分数的分母不变（方差来源总体，总体不会变）

t分数的分母会变（方差来源样本，样本会变）

确定t分布的比例和概率

查表

（t分布表节选）单侧的比例（右图5%尾端的阴影）、双侧的比例（两个5%的尾端加起来 - 10%）会在表首列明 df在第一列（右图是df=3的）表中的数值是在分布中将尾部和主体分开的t值（比如这里单侧0.05/双侧0.10 对应的df=3的值是 2.535，注意包括±2.535的哈。也就是界限值嘛~）（可看作这里的比例都是描述尾端的比例~求主体的比例要1-尾端~）

自由度增加，t分布接近正态分布

图片小，可看文字描述（或放大）比如这里，z分布的话，α=0.05的时候，界限是1.96嘛~ 如果t分布的df足够大，最后它的值也会接近1.96（也就是正态分布~）这个表列出了自由度为40和60的t值（也是不全的），但是没有列出40～60 之间的值。偶尔，你可能会遇到你所需要的自由度的t值不在表上的情况。这时，你应当查找在你的自由度周围自由度的t值，并且使用较大的值。例如，你的自由度为53(不在表上),查找自由度为40和60的t值，然后使用较大的t值。如果你用样本得到的t统计量大于较大的t值，那么可以确定数据在拒绝域中，你也能自信地拒绝虚无假设。

学习检查

拿b来说，中间95%就查表的双侧0.05/单侧0.025（这里描述尾端的值）的，t值是分开主体与尾端的值呢~

9.2 t检验的假设检验

概述

和假设检验基本思路一样的；t值就是用求t值的方式咯~

未知总体

t检验即可以用在一个有已知总体（前面章节），也可以用在一个没有已知总体作为标准的假设检验中（具体来说，t检验不要求关于总体均值和方差的任何先验信息）

注意，研究者对总体均值没有任何先验信息，只是根据逻辑来陈述假设。

例如，很多调查利用评定量表来研究人们对矛盾问题的看法。被试会看到一段陈述，然后在1—7的量表上回答他们的观点，分数1表示强烈同意，分数7表示强烈不同意。分数4位于中间位置，即没有倾向性的观点。在这种情况下，虚无假设认为人们的观点没有倾向性，H0 : μ=4。

假设检验的例子

题目

研究者给1到6天大的新生儿呈现两张女人的照片(其中一个比较美)。婴儿被放在呈现照片的屏幕前，当婴儿对两张照片的注视总时间达到 20 秒时，照片消失。记录婴儿对高吸引力照片的注视时间。假设研究使用的是n=9的样本，样本均值M=13秒（这里应该是对好看的注意时间），SS=72（注意，所有可用的信息都来自样本。具体来说，我们不知道总体的均值和标准差。）

步骤

步骤1

提出虚无假设并设定α水平。

尽管我们没有总体分数的信息，还是可以通过逻辑对μ做出假设。提出虚无假设，婴儿对两张面孔没有偏好。也就是说婴儿会把20秒的注视时间平均分配到两张图片上。用符号表示为：H0：μ有吸引力=10秒提出备择假设，婴儿对其中一张照片是存在偏好的。一个有方向的单侧检验会指出婴儿偏好的是哪一张照片。没有方向的备择假设用符号表示如下：H1：μ有吸引力≠10秒留意：这个总体是没均值的，求t值的均值是来自于我们对总体的假设，这里μ=10s 我们将显著性水平设为双侧检验α=0.05。

步骤2

定义拒绝域。

因为总体方差未知，所以检验统计量为t统计量。因此，为了得到拒绝域，必须计算自由度：df=n-1=9-1=8（然后查表呗~）对一个0.05显著水平的双侧检验和 8的自由度，拒绝域包括t值大于+2.306或小于-2.306的部分。

步骤3

计算检验统计量。

1 首先，计算样本方差。

记住，总体方差是未知的，你必须使用样本值(t检验代替z分数检验的原因)。

2 然后，使用样本方差来计算估计标准误。

估计标准误测量在没有处理效应（原始数据）的情况下，样本均值和相应的总体均值之间有多少合理的误差。（就是标准误的概念啦~只是求出来的方式不同~）

3 最后，计算样本数据的t值。

估计标准误作为分母~求t分数的落点~（和z分数概念一样）

步骤 4

做出关于虚无假设的决定。

得到的t值3.00在t分布右边的拒绝域中。我们的统计决定是拒绝虚无假设，并且得出结论：婴儿对有吸引力和没有吸引力的脸孔确实存在偏好。具体来说，婴儿对有吸引力图片的注视时间是显著不同于10秒的（拒绝 H0：μ有吸引力=10秒），如果没有偏好，注视时间会等于10秒。

t检验的假设

两个前提

1.样本的值必须是相互独立的。

如果第一个事件的出现对于第二个事件出现的概率没有影响，两个事件(观察)就是独立的。（之前章节有过，可看超链接~）

2.总体必须是正态的。

这个假设是t统计量和t分布表所依据的数学基础中的必要部分。但是，违背这个前提对于得到的t检验结果几乎没有实质性的影响，特别是当样本量相对较大时。当样本量很小时，一个正态总体分布是很重要的。样本量较大时，违背这个前提不会影响假设检验的效度。如果你怀疑总体分布不是正态的，使用大的样本是较安全的。

样本量和样本方差的影响

方差s²越大，估计标准误SM 越大（分子大），t越小（分母大），越难拒绝，靠近高概率大的方差意味着分数会更加分散，让研究者不能看到数据中的模式和趋势（看不到规律）样本量n越大，估计标准误SM 越小（分母大），t越大（分母小），越易拒绝，靠近低概率样本量大反正就是好出结果，啥研究都是~本来就是人越多越精准嘛~（而且n越大，df越小）

9.3 测量t检验的效应大小

估计的Cohen's d系数

定义

t检验的总体均值与方差都不知，所以要用样本的信息和假设的总体均值（H0）因此t检验的d系数也叫作估计的d值，或 Glass's g或者 Hedge's（第一次这样用的人）

公式

t检验效应大小，d系数的公式~（内涵和假设检验的一样~）分子：样本均值与未知总体均值（H0假设的均值）的差异分母：样本标准差记住概念是以标准差为单位，求样本均值与总体均值的距离~

例子（婴儿注视）

样本均值M=13，总体均值μ=10（H0假设），s=√ss/df = √72/8 = 3 d系数=13-10 / 3 =1 （刚好等于 1个标准差~d是以标准差为单位的哦~）感性认识可看图，标准差就是3，13比10大3，那不就是刚好1个标准差嘛~ （这个图把9个bb的注视时间都放进去了，先不管，是r²例子要用的）

测量变异的解释比例，r²

概述

另一种测量效应大小就是，确定处理引起多少分数变化（增加或减少）

例子（婴儿注视）

这是样本里9个bb分别的注视时间（注意这里是有处理效应的样本，也就是这些分数都是有处理效应的分数，这个实验的处理可以理解为美女照片的刺激，哈哈~）小tips一下：这里的M=13，是这个样本的平均值。 n=9的所有样本均值的分布，他们的均值是期望值呀，别忘记这个概念，就是等于总体的均值哦~

a是有处理效应样本的数值分布，连线是各数据与平均数的直观距离~（可看到数据很多偏离均值，集中右边） b是各数据都把处理效应都删掉的分布（处理效应=样本均值与总体均值的差距，这里是13-10=3）（数据围绕均值）

计算有处理效应的和没处理效应的 SS（离均差平方） 153-72=81，81属于解释处理效应的变异 / 解释的变异（不理解文字意思就理解数字概念把~反正就是处理过后的一些数值差异的意思~）但报告的方式通常使用：解释的变异 / 总变异 = 81 / 153 = 0.5294（52.94%）移除处理效应减小了 52.94%变异。这个值（52.94%）叫做解释的变异百分比，被定义为 r²。（不理解文字概念就记住数字概念~）

更简便的方法

概述

r是相关符号，后面章节会再提 r²叫做解释的变异百分比，经常用希腊字母ω²表示

公式

r²可以通过上面的方法求，但有更简便的方式，通过t值求（图中公式）

这个例子的t值（3）已经知道，直接代入公式，得出结果与上面一样

解释r²

例子中的r²=0.5294，属于大效应~ 样本量对假设检验影响大，但对r²影响小（基本原理和前面章节所说差不多，不用深究，非要想用解释的变异 / 总变异的算法想，不要用那个更简便的方法的算法想）样本方差既影响假设检验，也影响效应大小（样本方差大。拒绝H0可能性小，也代表效应小~）

估计的μ的置信区间

概述

另一种描述处理效应大小的方法是计算处理后的总体均值。例如，如果处理前的均值μ=80，处理后的均值估计值为μ=86,我们可以说处理效应的大小是6。置信区间估计的是处理后的总体均值的范围嘛~也可以理解为一种处理效应了~

置信区间定义

置信区间是一个区间，或者说是一个范围内的值，以样本统计量为中心。置信区间的逻辑是样本统计量，如样本均值，应该接近于其所对应的总体参数。因此，我们可以合理地认为参数值应该落在置信区间内。就是比如求出样本均值，我们认为样本均值应该是接近总体均值的嘛，我们可以认为总体均值就落在样本均值的置信区间（一段范围内）~

构建置信区间

概述

总体均值是不知道的，我们可以用t值找~ 比如n=9，df=8，找对应的t值（如果以双侧0.2为例），±1.397为界限，中间是80%，那总体均值有80%的概率落在这里。（这也是总体均值的80%的置信区间）

公式

μ = M ± t*SM 原公式的转换，更方便求均值（和z那里思路类似，这里不过是拿样本均值 ± 数去求范围~样本均值是区间的中心，因为是依据样本去求数值，所以用标准误哦~）（这里的t用的是置信水平的t（边界），不是用来检验的t！）

例子

一个n=9的样本，M=13，SM=1

最常用的置信水平是95%、80、90、99%的也很常用。这里用80%（t=±1.397）代入公式：μ = M ± t*SM = 13±1.397 = 11.603 和 14.397 即有80%的信心认为总体均值会落在11.603-14.397这个区间（样本均值M=13是这个区间的中心）

影响置信区间宽度的因素

置信水平

取大的置信水平（置信水平是中间的概率哈，不是尾端的概率），t值更大，置信区间更大，相反就越小。比如图中df=8，0.01就比0.50大得多（0.01 - 99%中间 / 0.5 - 50%中间）

样本量

样本量越大，区间越窄感性认识就是：样本量越大，关于未知总体的信息就越多（就是估计能越集中，区间自然窄）

样本方差

方差影响标准误大小，方差大，标准误大，置信区间越宽（变异性大就越不好估计嘛）

关于效应大小

因为置信区间受到样本量的影响，所以它们并没有为效应大小提供绝对的测量，也不能完全取代 Cohen's d系数和r²。尽管如此，它在研究报告中还是可以用来描述处理效应的大小。

报告t检验的结果

前面例子求出了了t统计量为3.00，df=8，我们决定在0.05的水平上拒绝虚无假设。还得到了SD（标准差）=3.00；r²=0.5294（52.94%）这里可以报告如：被试在20秒的时间里平均花M=13秒注视有吸引力的面孔，SD=3.00。统计分析表明，婴儿对有吸引力的面孔的注视时间显著多于平均时间， t(8)=3.00，p<0.05，r²=0.5294。 t(8)的8是df，自由度可以加入置信区间（CI）来描述效应值进行报告： t(8)=3.00，p<0.05，80% CI [11.603 , 14.397]

关于p的报告

计算机程序还会给出p的具体数据，比如p=0.017，那报告可以把这个p附上，而不是p＜/＞ 0.0x 当效果很显著的时候，会出现p=0.000的情况，这是因为计算机只报告前三位，拒绝力度非常大！也可以报告成p＜0.001~

学习检查

1和3都会用的t值，但是 1的t值是用来求显著的； 3的是用来找置信区间的可以看作t的两种用法，先不用过度联系

9.4 有方向的假设和单侧检验

单侧检验例子

步骤1

提出假设，选择α水平

假设

H0：μ有吸引力 ≤ 10秒 (对有吸引力的面孔的注视时间不多于10秒 - 一半的时间)

H1：μ有吸引力＞ 10秒 (对有吸引力的面孔的注视时间多于10秒 - 一半的时间)

α水平

我们将显著性水平设定为0.01。

步骤2

定位拒绝域

当n=9时，t检验的自由度df=8,使用a=0.01,你可以得到拒绝域的值为t=2.896。（这里不用考虑α要不要除2啥的，单侧本来就只有一端嘛，直接看表就可以~）只要t值＞2.896，就可以拒绝H0

注意

在确定拒绝域前可以先检测均值差异的方向是否一致，不一致就可以停止计算了比如这里的愿望是检测“有效果”的，如果均值差异出来是“负数”，那可以直接停止了，因为方向错了，后面就不用做了~ 方向是对的话（均值差是正值），才开始计算准确的t值，看是否显著（比如这里均值差异是3，方向是对的，可以继续做）

步骤3

计算t值

单侧检验和双侧检验的t值的计算一样。我们发现这个实验的数据产生的t检验统计量为t=3.00。

步骤 4

做出决定

婴儿对有吸引力的面孔的注视时间显著多于没有偏好时的预期时间， t(8)=3.00，p<0.01，单侧检验。注意报告明确指出研究中使用了单侧检验。

第10章两个独立样本的t检验

10.1 独立测量设计/组间设计概述

有些情况研究的问题关注于两组数据的均值差异。（如比较两种教学方式；治疗前后）

比较两组数据的差异一般有两种研究方法。

1.两组数据来自两个不同总体。

例子

例如，研究可能比较男性样本和女性样本。或者比较一个拥有电脑的学生样本的成绩和一个没有电脑的学生样本的成绩。

学名

独立测量研究设计 / 组间设计

定义

对每种处理条件(或者每个总体)使用一个独立样本的研究设计（就是每个总体有它自己的样本）

图示

使用两个单独的样本来回答两个总体(两种处理)的问题。

2.两组数据来自同一总体。

例子

例如，研究者可能在一组病人接受治疗前得到他们的抑郁指数，然后在他们接受治疗6周后得到他们的另一组抑郁指数。

学名

重复测量研究设计 / 组内设计

两组数据来自同一个样本

11章

10.2 独立测量研究设计的t检验

一些符号

独立测量包含两个样本，所以符号进行区分，其实就加个下标1、2

独立测量的检验假设

H0：μ1-μ2 = 0（两个总体均值没有差异）

独立测量目的测量两个总体均值是否有差异，相减=0就是没有效果，两个一样

也可以用 μ1 = μ2 表示，但μ1-μ2会产生数值，建议用减法的

H1：μ1-μ2 ≠ 0（两个总体均值有差异）

也可以用 μ1 ≠ μ2 表示

独立测量假设检验的公式1

t检验公式的区别

单样本t检验公式（第九章的）

只有一个样本

独立测量t检验公式

两个独立样本的数据分子：用了两个样本均值的差异来评价两个总体均值的差异。分母：标准误 - 测量了样本均值差异来代表总体均值差异时的误差总量。（就是测量样本均值差异与总体均值差异之间的误差~）虽然是S（M1-M2）,,,但其实里面的公式是加号耶，哈哈...

单样本t统计量，组内、间测量，都可以简化成如此

可对比学习~

估计标准误（独立测量t检验公式的分母）

估计标准误的解释

两种解释

一

标准误被定义为样本统计量和相应的总体参数之间的标准化的平均差异。

H0为真时，总体均值差异为零（U1=U2嘛）

二

H0为真时，标准误测量了两组样本均值之间的合理差异。（总体均值变0了嘛，那就只剩下M1-M0的差异了~）

总体均值变0了嘛，那就只剩下M1-M0的差异了，换了个表达方式而已

没啥用...浅看下就好

估计标准误的计算（n1=n2）

单样本就是√S²/n 独立测量的样本就是把两个样本的标准误加起来咯~ 得出两个样本均值与两个总体均值的误差总量

估计标准误的计算（n1≠n2）

合并方差（Sp²）

概述

原因

上面的公式运用的前提是两个样本容量n相等， n越大，得到信息越精准，标准误越小（就是越能精确估计到总体的标准差），所以如果两个n不平等，得出的数据是有偏差的因此两个n不相等的时候要合并方差

公式

合并方差符号是Sp² 就是把两个样本方差合在一起处理合并方差实际是两个样本方差的平均值，但在均值计算的过程中，大样本的方差占据了更大的比重（看下面例子）。

相同样本量

可以发现合并方差是两个样本方差的平均（10+6） / 2 = 8

不同样本量

第一种公式

如果这样算的话，结果接近大样本的方差6（样本2的n=9）

第二种公式

分子：就是两个样本方差分别与自己的自由度相乘再相加分母：两个样本的自由度相加比如上面例子，样本1，df=2，方差=10 样本2，df=8，方差=6 即20+48 / 10 = 68 / 10（结果是一样的~）

因为大样本容易更大的df值，所以在平均时会有更大的比重

使用合并方差后的最终公式（相比n1=n2的公式，方差用的是合并方差）

独立测量t检验最后的公式和自由度

公式

总公式

分母

合并方差（两种求法）

不同分数的变异性

独立测量的t检验的公式，分子是均值相减，而分母是方差相加，看起来矛盾，实际可以理解比如总体2的变化范围是30-20=10；总体1的变化范围是70-50=20；而两个总体共同存在的时候，差异就是50-20=30 （因为其中20并没有数据落入嘛~就是等于总体1的范围加上总体2的范围嘛~20+10=）所以其实是相加的~

自由度

t统计量的自由度 = df1 + df2 = (n1-1) + (n2-1) = n1+n2 - 2

10.3 独立测量t检验的假设检验和效应大小

双侧假设检验

例子

想探究童年看没看过《芝麻街》与高中成绩的关系

tips

这个研究是非实验研究，因为研究并没有进行“操控”的行为也即，我们不能得出因果关系（就是看了《芝麻街》就肯定有更高成绩），其中可能和父母受教育水平、经济条件等有关。但这两者中间是存在关系的。

步骤

步骤1

提出假设，选择α水平

假设

α = 0.01

步骤2

自由度

根据自由度与 α水平确定拒绝域

步骤3

计算检验统计量

1 合并方差

2 估计标准误

3 t值

步骤4

做出决定

t值=4，落在拒绝域外~即，看过《芝麻街》的学生成绩更高

效应大小

Cohen's d系数

公式

分子：样本均值差异就能对总体均值差异进行估计，所以用样本的均值差分母：标准误用合并方差的开方（因为这里是两个样本的方差加，所以要开方处理）（注意：用的是合并方差，而不是估计的标准误哦~）

上方例子的 d 系数

M1=93，M2=85，合并方差=20 d=1.79，拥有很大的处理效应

r²

通过 SS 求

把两个样本合并在一起，并且求出他们组合的平均值（89）和 SS（680）

看过《芝麻街》原样本均值是93 没看过《芝麻街》原样本均值是85 把他们的处理效应都去掉（就是让他们原样本的均值变成组合的平均值）即把看过组的（M=93）的每个数都减4（M=93-4=89）把没看过组的（M=85）的每个数都加4（M=85+4=89）注意： 1、这里虽然都同时±4，但只是巧合，如果没看过组的M=84那就是加5了，目的是为了变成平均数！ 2、没看过也可以理解为一种处理呀，就是负增加而已嘛，就是不看成绩变拉了~ 现在处理完的数的SS=360

把处理解释的变异与总变异对比得出47%

通过公式求

t已知= 4；df=18

r² = 0.47也是一个很大的效应。即看与不看《芝麻街》的成绩，有47%的处理效应，来解释他们的变异

估计的μ1-μ2的置信区间

公式

用样本均值差异 M1-M2 来估计总体均值差异μ1-μ2

例子

题目

构建一个总体均值差异的 95%的置信区间。

已知数据（之前已求）

看过《芝麻街》的学生的平均分M=93, 没看过《芝麻街》的学生的平均分M=85,

df=18

t值（查表df18，双侧α=0.05%） = ±2.101

代入公式

[3.798，12.202]，我们有95%信心认为均值差异的真值在这个区间之内

置信区间和假设检验

图例

可以用置信区间去进行假设检验

1、根据相关条件求出95%置信区间后，根据H0得出，u1-u2=0，发觉0 不在置信区间内（3.798-12.202），所以可以拒绝H0，H0为假~ 即： 0值在 95%置信水平下不被接受 or 0差异在 95%置信水平下是被拒绝的

2,、求出置信区间后，如果发觉u1-u2=0是处于置信区间内（比如-1 - 4），那就不能拒绝H0了，H0为真~

报告独立测量t检验的结果

APA格式

看过《芝麻街》的学生的高中成绩(M=93，SD=4.71) 比没看过节目的学生成绩(M=85，SD=4.22) 更高。这个差异是显著的，t(18)=4.00，p<0.05，d=1.79。

如果电脑计算，p给出具体概率值那就附上

如果用置信区间描述效应大小，需要紧跟假设检验的结果

看过《芝麻街》的学生的高中成绩(M=93，SD=4.71) 比没看过节目的学生成绩(M=85，SD=4.22) 更高。这个差异是显著的，t(18)=4.00，p<0.05，95%的置信区间为[3.798，12.202]。书本这里虽然用了置信区间后删除了d值，但实际上你可以都报上~无所谓~

有方向的假设 / 单侧检验

例子

题目

预测是小时候时看过《芝麻街》的儿童在高中时期会有更高的分数。

步骤

步骤1

提出假设，选择α水平。

步骤2

定位拒绝域。

当df=18时，a=0.01的单侧的拒绝值为t=2.552

tips：

可以先检测样本均值差异是否与我们预测方向相同（93-85=8，方向是对的~）

步骤3

收集数据，计算检验统计量。

t值已求 = 4.00

步骤4

做出决定。

4.00超出2.552，因此拒绝H0，得出结论，儿童时期看《芝麻街》的学生的高中成绩显著高于儿童时期不看《芝麻街》学生的高中成绩。

报告形式

看《芝麻街》的学生的成绩显著更高，t(18)=4.00，p<0.01，单侧检验。

tips

单侧检验拒绝虚无假设所需要的样本差异比双侧检验要小，所以只有当理论或者前人结论能清楚地支持预测时才使用。

影响假设检验的因素

因素

两个样本均值之间的差异

差异越大，拒绝H0可能性越大

变异性

标准误和样本方差成正比（分子越大，数值越大）， t值就越小（分母大，数值小），拒绝H0可能性小感性理解：差异性越大，越难预测

样本量

标准误和样本量成反比（分母越大，数值越小） t值就越大（分母小，数值大），拒绝H0可能性大感性理解：样本量越大，数据越精准

例子

变异性小，差异明显，t=8.62，落在拒绝域 d=4.10，r²=0.82，效应大

变异性大，差异不明显，t=1.59，不能拒绝H0 d=0.75，r²=0.136，效应小尽管和上面一样，均值差异都是5，但方差不同，结果就不同总的来说，大的样本方差能够使数据中的任何均值差异变得模糊，并且降低在假设检验中得到显著差异的可能性，同时减小效应值。

10.4独立测量t检验的基本假设

公式前提

1.每个样本的观察必须是独立的。

2.样本来自的两个总体必须是正态分布。

但是样本量足够大，就不是很重要

3.为了得到合理的合并方差，样本来自的两个总体必须有相同的方差。（也可叫方差的同质性）（注意，方差同质性是为了合理的样本方差！）（然后是两个总体有相同方差，不是样本，样本是可以有一定误差的~）

第8章中对于分数假设检验有一个相似的前提。对于这些检验，我们假设处理效应是每个分数加上(或者减去)一个常量（变异性不变，只是左右移动）。结果，处理后的总体标准误与处理前一样。（就是总体性质没变呀，只是考察处理效应）现在我们提出的前提本质上是与这个一样的，只是将它用方差来表述。也可理解处理效应只会改变左右移动，不会改变形状，改变形状那就性质不一样啦~ 本来只是比较两个样本通过不同处理的对比而已嘛，就是左右移动的对比而已，两个总体理应是一样的形状、性质（方差）啥的，不然怎么对比处理效应呢？~ 书本例子：将你的体重和一英镑能买多少葡萄平均就没有意义。

具体地，样本来自的两个不同的分布必须有相同的方差。

检测方差同质性的满足条件

1、观察两个样本的方差

如果两个总体方差相等，那么两个样本方差应当很相似。如果一个样本方差大于另外一个样本方差 3-4倍，就值得怀疑了！

2、Hartiley 的 F-max 检验（Fmax）

概述

F-max检验基于的原理是，样本方差提供了总体方差的无偏估计。该假设的虚无假设是总体方差是相同的，因此样本方差应当很相似。

大多数假设检验的目的是拒绝虚无假设从而说明存在处理效应或显著的差异。然而，在做方差同质性检验时，我们希望接受虚无假设，意味着两个总体方差之间没有显著差异，同质性前提得到了满足（就可以计算独立测量的t检验，否则不可以进行）。如果觉得太绕，就别管这个什么假设不假设，只要出来的值小于临界值就OK可以~

步骤

1 计算样本方差，对于每个独立样本，S²=SS/df

2 选选择最大和最小的样本方差，并且计算

如果F-max值大，表现样本方差差异大，暗示总体方差存在差异，违背同质性前提如果F-max值小（接近1.00），说明样本方差是相似的，同质性前提合理

3 样本数据计算的 F-max值要与表中的临界值比较。

比较需要的条件

k=独立样本数。(对于独立测量的t检验，k=2。)

对于每个样本方差df=n-1,Hartley检验假定所有样本量相同。

α水平。表提供了α=0.05和α=0.01 的临界值。一般来说，同质性检验会使用大的α水平。

如果样本值大于表中的值，你能得出结论：方差不同，同质性前提不能被满足。

例子

两个独立样本，每个n=10，样本方差为12.34和9.15

代入公式

条件α=0.05，k=2，df=n-1=9，表中的临界,值为4.03。

结论：1.35比表中小，所以没有违背同质性前提

替代合并方差的一种方法（可不需要方差同质性）了解就行

求标准误的公式

标准误通过这个方式求，就是两个标准误的简单相加

求自由度的公式

调整后的df值会变小，扩大拒绝域的界限，因此检验更苛刻，从而校正一些偏差问题

注意

很多用来进行统计分析的软件(如 SPSS)都会报告两个版本的独立测量t检验，一个使用合并方差(假设方差具有齐性/方差同质性)计算的，另一个是用这种校正的方法(不假设方差具齐性/方差同质性)得到的。

第11章两个相关样本的t检验

11.1 重复测量设计/组内设计概述

定义

重复测量设计就是对一个样本进行同一因变量的两次或两次以上的测量研究，即在所有的处理条件下都使用相同的样本，也常常被称为组内设计。

优点

不存在两个样本有本质差异的情况（不需要方差同质性）

匹配设计

定义

在被试匹配研究中，一个样本中的个体与另外一个样本中的个体相匹配。被试匹配可以使两个个体在研究者想控制的特殊变量上等值(或接近等值)。

例子

例如，一个研究语言学习的研究者可能有必要确认两个样本的被试在智商和性别上是匹配的。在这个实验中，一个IQ为120 的男性被试应该与另一组样本中的IQ为120 的男性被试相匹配。

作用

匹配的过程是为了尽可能地模仿重复测量研究设计。在重复测量设计中，匹配是完美的，因为每一个被试都出现在不同的实验条件中。(就是都是同一些人接受不同的处理而已，而匹配设计就是希望能找到“复制人”，减少点工序咯~)