导图社区 第六章 假设检验
这是一篇关于第六章 假设检验的思维导图,主要内容包括:6.5 正态性检验,6.4 总体方差的检验,6.3 总体比例的检验,6.2 总体均值的检验。
编辑于2024-05-25 00:51:03第六章 假设检验
6.1.2 假设检验与决策
1.做出决策
假设检验的决策基础
样本信息
决策的两个问题
依据什么做出决策
决策是否正确
两类错误与显著性水平
两类错误
第I类错误(Type I Error)
原假设正确但被拒绝
犯第I类错误的概率记为α
第II类错误(Type II Error)
原假设错误但未被拒绝
犯第II类错误的概率记为β
显著性水平
定义
犯第I类错误的概率的最大允许值
记为α
显著性水平与两类错误的关系
减小α,β增大
减小β,α增大
如何选择显著性水平
平衡两类错误
通常选择较小的α值,如0.05或更小
实际应用中的显著性水平
显著性水平的选择
英国统计学家Ron Fisher建议0.05
通常选择0.05或更小的值
样本量选择
要求第I类错误发生的概率不大于0.05
第II类错误发生的概率不大于0.1
2.决策的依据
假设检验
提出假设
备择假设
原假设
决策依据
传统检验:样本统计量
现代检验:犯第I类错误的概率(p-value)
样本信息与决策
标准化检验统计量
反映了点估计值与假设的总体参数之间的差异程度
决策准则
显著性水平(α)
临界值
拒绝域
决策规则
双侧检验:|统计量的值|> 临界值,拒绝原假设
左侧检验:统计量的值 < 临界值,拒绝原假设
右侧检验:统计量的值 > 临界值,拒绝原假设
P值决策
P值的定义
当原假设正确时,所得到的样本结果像实际观测结果那么极端或更极端的概率
P值决策规则
如果 P ≤ α ,拒绝原假设
如果 P > α ,不拒绝原假设(对于双侧检验,取两侧面积总和为P)
P值决策的优势
提供了更多的信息
反映了实际的显著性水平
统计量决策与P值决策的差异
统计量决策
基于事先设定的显著性水平
无论统计量落在拒绝域的哪个位置,结论相同
P值决策
基于实际统计量计算出的显著性水平
反映了统计量落在拒绝域不同位置时的实际显著性
6.1.3 表述结果
拒绝原假设
样本结果:“统计上显著的”(statistically significant)
含义:有足够的证据证明原假设是错误的
不拒绝原假设
样本结果:“统计上不显著的”
通常表述:不说“接受H₀”
原因:
“接受”表述隐含证明正确性,但P值仅推翻原假设
没有足够证据拒绝不等同于证明原假设为真
描述:没有证据表明参数(如μ)不等于假设值
避免第II类错误
风险:错误接受实际为假的原假设
解决方法:采用“不拒绝H₀”而非“接受H₀”
理由:
“接受H₀”结论可靠性由β(第II类错误概率)度量
β控制复杂,有时β值未知
不拒绝不意味着为真概率高,仅需更多证据
6.1.4 效应量分析
效应量定义
描述:度量参数与假设值之间差异大小的统计量
重要性:指示结果差异程度(小、中、大)
效应量的提出者
Jacob Cohen(1988)
提供不同检验效应量小、中、大的度量标准
假设均值检验
单总体:检验总体均值μ与假设值差异是否显著
双总体:检验两个总体均值之差是否显著
效应量的计算与应用
将在后续检验中介绍不同检验的效应量计算和具体应用
6.1.1设检验的原理
6.1.1 提出假设
反证假设(hypothesis)
对总体的某种看法
原假设(null hypothesis, H0)
研究者想收集证据予以推翻的假设
表达对立互的含义,如参数没有变化、变量之间没有关系等
备择假设(alternative hypothesis, H1)
研究者想收集证据予以支持的假设
表达的含义是总体参数发生了变化、变量之间有某种关系等
双侧检验(two-tailed test):备择假设没有特定方向,含有
≠
单侧检验(one-tailed test):备择假设有特定方向,含有
>
<
例子
例6-1
问题背景
检查机床生产的零件是否符合标准要求
原假设(H0)
生产过程正常(零件平均直径等于15cm)
备择假设(H1)
生产过程不正常(零件平均直径大于或小于15cm)
6.1.2 假设检验与决策
做出决策
假设检验的决策基础
样本信息
决策的两个问题
依据什么做出决策
决策是否正确
两类错误与显著性水平
两类错误
第I类错误(Type I Error)
原假设正确但被拒绝
犯第I类错误的概率记为α
第II类错误(Type II Error)
原假设错误但未被拒绝
犯第II类错误的概率记为β
显著性水平
定义
犯第I类错误的概率的最大允许值
记为α
显著性水平与两类错误的关系
减小α,β增大
减小β,α增大
如何选择显著性水平
平衡两类错误
通常选择较小的α值,如0.05或更小
实际应用中的显著性水平
显著性水平的选择
英国统计学家Ron Fisher建议0.05
通常选择0.05或更小的值
样本量选择
要求第I类错误发生的概率不大于0.05
第II类错误发生的概率不大于0.1
2.决策的依据
假设检验
提出假设
备择假设
原假设
决策依据
传统检验:样本统计量
现代检验:犯第I类错误的概率(p-value)
样本信息与决策
标准化检验统计量
反映了点估计值与假设的总体参数之间的差异程度
决策准则
显著性水平(α)
临界值
拒绝域
决策规则
双侧检验:|统计量的值|> 临界值,拒绝原假设
左侧检验:统计量的值 < 临界值,拒绝原假设
右侧检验:统计量的值 > 临界值,拒绝原假设
P值决策
P值的定义
当原假设正确时,所得到的样本结果像实际观测结果那么极端或更极端的概率
P值决策规则
如果 P ≤ α ,拒绝原假设
如果 P > α ,不拒绝原假设(对于双侧检验,取两侧面积总和为P)
P值决策的优势
提供了更多的信息
反映了实际的显著性水平
统计量决策与P值决策的差异
统计量决策
基于事先设定的显著性水平
无论统计量落在拒绝域的哪个位置,结论相同
P值决策
基于实际统计量计算出的显著性水平
反映了统计量落在拒绝域不同位置时的实际显著性
假设检验
假设检验的原理
大致思路
对所关心的总体提出某种假设
从待检验的总体中抽取一个样本并获得数据
根据样本提供的信息判断假设是否成立
参数检验与非参数检验
参数检验:已知总体分布或能做出假定,关注总体某个参数
非参数检验:对总体的其他特征做检验,或样本数据不满足参数检验条件
假设检验的步骤
提出假设
确定原假设H0和备择假设H1
根据样本信息,构建统计量
使用样本数据计算统计量
确定显著性水平
通常为α,如0.05
作出决策
根据算出的P值与α的关系,判断是否拒绝原假设
小概率事件
定义
在概率论中,发生概率很小的事件
第六章 假设检验
6.2 总体均值的检验
6.2.1 一个总体均值的检验
样本大小与总体分布
检验统计量的选择取决于样本大小和总体分布
样本大小:大样本(n≥30) vs 小样本(n<30)
总体分布:正态分布
总体方差σ²:已知 vs 未知
1. 大样本的检验
样本均值的抽样分布近似正态分布
总体方差σ²已知时,检验统计量:Z = (x̄ - μ₀) / (σ / √n)
总体方差σ²未知时,检验统计量(使用样本方差s²):t = (x̄ - μ₀) / (s / √n) (注意:这里实际上在大样本下使用t统计量近似于Z统计量)
2. 小样本的检验
假定总体服从正态分布
总体方差σ²已知时,检验统计量同大样本(使用Z统计量)
总体方差σ²未知时,检验统计量(t检验):t = (x̄ - μ₀) / (s / √n) 服从自由度为n-1的t分布
效应量分析
单样本t检验的效应量:Cohen's d
计算公式:d = (x̄ - μ₀) / s
效应量大小解释:
d < 0.20:效应量非常小
0.20 ≤ d < 0.50:小的效应量
0.50 ≤ d < 0.80:中的效应量
d ≥ 0.80:大的效应量
Cohen标准仅供参考,应用中可灵活掌握
6.2.2 两个总体均值差的检验
总体均值差的检验类型
独立样本
配对样本
样本大小与检验类型
大样本
小样本
独立样本检验
独立大样本检验
分布:近似服从正态分布
检验统计量:标准化后的样本均值之差
总体方差已知:使用公式 (6.6)
总体方差未知:使用样本方差替代,公式未给出
独立小样本检验
假定:两个总体均服从正态分布
情形:
两个总体方差和已知:使用公式 (6.6)
两个总体方差未知但相等:使用合并估计量s,服从自由度为n的t分布,公式 (6.9)
两个总体方差未知且不相等:近似服从自由度为V的t分布,公式 (6.10)
配对样本检验
假定:配对差值服从正态分布
检验统计量:标准化后的配对差值
分布:自由度为n-1的t分布
公式:未给出具体公式编号,但类似 (6.13)
效应量分析
配对样本t检验的效应量:Cohen's d
计算公式:未给出具体公式编号,但类似 (6.14)
Cohen提出的标准:小、中、大效应量对应的d值分别为0.20、0.50、0.80
效应量计算代码示例
```python import pandas as pd import numpy as np
6.3 总体比例的检验
6.3.1 一个总体比例的检验
大样本情形
统计量p近似服从正态分布
样本比例标准化后近似服从标准正态分布
检验统计量:(6.15)
6.3.2 两个总体比例差的检验
检验思路
与一个总体比例的检验类似
要求两个样本都是大样本(通常指样本量大于或等于10)
检验统计量
(6.16) (此处未给出具体公式)
其中,、是两个样本比例之差抽样分布的标准差
两种情形
检验两个总体比例之差是否相等
即检验或
合并比例p作为最佳估计量
合并后的比例公式:(6.17)
最佳估计量公式:(6.18)
检验统计量:(6.19)
检验两个总体比例之差等于某个常数
即检验
直接用两个样本的比例和作为估计量
检验统计量:(6.20)
6.4 总体方差的检验
6.4.1 一个总体方差的检验
重要性
方差是衡量质量或性能稳定性的重要因素
方差大表示不稳定,方差小表示稳定
检验方法
使用χ²(chi-squared)分布
总体需服从正态分布
检验统计量:(6.21)(未给出具体公式)
拒绝域
双侧检验:如图6-5所示
单侧检验:在分布一侧的尾部
6.4.2 两个总体方差比的检验
比较形式
原假设与备择假设:两个总体方差比值与1的比较
检验统计量
使用F统计量
样本方差比s²₁/s²₂作为总体方差比的估计量
检验统计量:(6.22)(未给出具体公式)
适用于两个独立样本,分别抽自两个正态总体
6.5 正态性检验
6.5.1 正态概率图
重要性:判断数据是否服从正态分布的可视化方法
图示法:直方图、核密度图等,但难以确切判断
正态概率图:Q-Q图和P-P图
Q-Q图:根据样本数据的分位数与理论分布分位数的符合程度绘制
P-P图:根据样本数据的累积概率与理论分布累积概率的符合程度绘制
绘制过程:以Q-Q图为例,计算样本数据的分位数Qo和对应的标准正态分布分位数Qe,绘制散点图
分析:点应随机分布在理论直线周围,越靠近直线表示越接近正态分布
6.5.2 S-W检验和K-S检验
适用场景:当样本量较小时,正态概率图受限,使用统计检验方法
原假设:总体服从正态分布
检验方法
S-W检验(Shapiro-Wilk检验)
由S. Shapiro和M. Wilk于1965年提出
使用顺序统计量W检验分布的正态性
适用于样本量较小的情形
K-S检验(Kolmogorov-Smirnov检验)
另一种常用的正态性检验方法
检验步骤
(以S-W检验为例)
提出假设:总体服从/不服从正态分布
计算检验统计量W(公式未给出)
根据P值和显著性水平判断总体是否服从正态分布