导图社区 统计学刘扬毛炳寰
参数估计与假设检验方差分析非参数检验:方差分析中的假设条件与检验方法:可以通过观察数据的直方图、Q-Q图来判断,也有一些统计检验方法,例如K-S检验等。
编辑于2022-06-02 17:22:46《统计学》
(1) 第四章 参数估计与假设检验
一、 参数估计
1. 参数估计的基本概念
参数估计是指利用样本信息对总体数字特征做出的估计
参数估计
点估计
(1) 点估计是指根据样本数据对总体未知参数的一个估计值
(2) 对总体参数进行估计的方法有多种,如矩估计法和最大似然法,不同的方法得到的估计量(样本统计量)不是唯一的。(也就是说,参数是唯一的,但可以有多个不同的统计量。)
(3) 估计量的评价准则
无偏性:估计量的数学期望与总体参数的真实值相等
有效性:在两个估计量中方差较小的估计量较为有效,方差越小越有效。
一致性:随着样本容量的增大,估计量的取值应该越来越接近总体参数
(4) 样本的随机性决定了估计结果的随机性
区间估计
区间估计的方法则以概率为基础,在点估计的基础上给出了一个置信区间,并给出了这一置信区间包含总体真值的概率,比点估计提供了更多的信息。
区间估计中,置信度为100(1-α)%的含义是:根据不同样本得到的所有置信区间中,有100(1-α)%的区间包括总体参数的真实值。
2. 抽样分布
抽样分布是指统计量的概率分布,是区间估计和假设检验的基本依据
抽样分布是统计量的分布而不是总体和样本的分布,其形状和参数可能完全不同于总体和样本分布。
统计量的标准差被称为标准误
3. 总体均值和比例的区间估计
单个总体均值的区间估计(置信度为1-α)
总体比例的区间估计(置信度为1-α)
不重复抽样的情况下,
4. 样本容量的计算
关于抽样误差的几个概念
(1) 实际抽样误差:样本估计值与总体真实值之间的绝对离差,用公式表示为
实际抽样误差是不可知的,是一个随机变量
(2) 抽样平均误差:反映了所有可能样本的估计值与相应总体参数的平均误差程度
"抽样调查中可以对抽样误差进行控制“指的是抽样平均误差 影响抽样平均误差的因素包括:总体内部的差异程度,样本容量的大小,以及抽样方法
(3) 最大允许误差
最大允许误差也称抽样极限误差,用E来表示,
样本容量的计算
(1) 必要样本容量的影响因素
1| 总体标准差。总体变异程度越大,必要的样本容量越大。
2| 最大允许误差。最大允许误差越大,需要的样本容量越小。
3| 置信度1-α。要求的置信度越高,需要的样本容量越大。
4| 抽样方式不同,必要样本容量也不同。
(2) 简单随机抽样,重复抽样:
(3) 简单随机抽样,不重复抽样:
不重复抽样时的必要样本容量小于重复抽样的情况
二、 假设检验
1. 假设检验的基本原理
(1) 基本原理:小概率事件在一次实验中几乎不会发生。 假设检验采用反证法的思想
(2) 基本概念
假设检验的步骤
1| 提出原假设和备择假设
双侧检验:
左侧检验:
右侧检验:
原假设和备择假设互斥,等号必须放在原假设
2| 构造检验统计量,确认其在零假设成立时的分布
3| 根据样本计算检验统计量的值
可以拒绝零假设的检验统计量的取值的合集称为拒绝域, 不能拒绝零假设的检验统计量的取值的合集称为接受域, 划分拒绝域与接受域的数值称为临界值。
4| 计算p值,并与给定的显著性水平α比较
p值是在零假设成立的条件下,出现检验统计量样本观测值或更极端结果的概率,也称为观测到的显著性水平,是拒绝零假设的α的最小值
5| 下结论
p<α,拒绝原假设
p≥α,不能拒绝原假设
假设检验中的两类错误
第一类错误(拒真错误)
第二类错误(取伪错误)
通常来说,要减小一种错误的概率,就要增大另一种错误的概率。 允许犯第一类错误的概率α称为显著性水平。
2. 常用假设检验的方法
(1) 单样本t检验
要求是大样本或者总体服从正态分布
(2) 匹配样本的t检验
两个样本中的数据有一一对应的关系
两个样本对应数据相减,得到新的变量d
(3) 两个独立样本t检验
要求两个样本数据是大样本或者来自正态总体
方差是否相等的Levene检验(F检验)
等方差的t检验
不等方差的t检验
(2) 第五章 方差分析(ANOVA)
一、 方差分析的基本概念与假设
1. 基本概念
(1) 方差分析(ANOVA),一般用来分析一个定量因变量与一个或几个定性自变量(因素)之间的关系,它可以对多个总体的均值是否相等进行整体分析。
(2) 在方差分析中,自变量被称为因素;因素的不同表现,也就是自变量的不同取值称为因素的水平。只有一个自变量的方差分析称为单因素方差分析;如果同时研究多个因素对因变量的影响,则称为多因素方差分析。
(3) 方差分析模型
固定效应模型
本章用固定效应模型
随机效应模型
2. 方差分析中的基本假设与检验
(1) 基本假设
1| 在各个总体中的因变量都服从正态分布
2| 在各个总体中的因变量的方差都相等
3| 各个观测值之间是相互独立的
(2) 方差分析中的假设条件与检验方法
1| 正态性检验
可以通过观察数据的直方图、Q-Q图来判断,也有一些统计检验方法,例如K-S检验等。
Q-Q图:以实际值为横坐标,正态分布的分位数为纵坐标作散点图,如果图形中的点大致在一条线上则说明数据服从正态分布。
正态性检验不是对数据整体分布的检验,而是对按因素水平分组后各组数据的检验。
2| 方差齐性检验
对总体方差是否相等的检验称为方差齐性检验
各组数据的标准差,最大值与最小值的比例小于2:1
各组数据的方差,最大值与最小值的比例小于4:1
Levene检验是一种更为正式的检测方法
3| 如果数据严重偏离了前两个假设条件,使用方差分析时需要先对数据进行数学变换,例如取对数、开方等,也可以使用非参数的方法。
二、 单因素方差分析
1. 数据结构和模型
假设:研究的因素为因素A,共有r个水平,每个水平的样本容量为m,共有n=rm个观测值
任何一个样本数据都包括了三部分因素的影响:总体平均水平的影响、因素水平的影响、随机因素的影响。
2. 方差分析的基本原理
总离差平方和SST,也称总变异
组间离差平方和SSA,也称解释的变异
组内离差平方和SSE
SST=SSA+SSE n-1=(r-1)+(n-r)
3. 方差分析的步骤
(1) 检验数据是否符合方差分析的条件
(2) 提出零假设和备择假设
(3) 根据样本计算F统计量的值和p值
(4) 根据决策规则得出结论
不能拒绝原假设
拒绝原假设
至少有两个总体的均值有显著差异
事后检验
Fisher最小显著差异(LSD)
如果0包含在置信区间内,不能拒绝零假设。
(3) 第六章 非参数检验
一、 非参数检验概述
1. 非参数检验也称为与总体分布无关的检验,检验中不需要对总体分布的具体形式做出严格假设,或者只需要很弱的假设
2. 相对参数检验,非参数检验的特点
(1) 不需要严格的假设条件,使用范围广。
(2) 非参数检验可以处理包括定类数据和定序数据在内的所有类型数据, 而参数检验只能用于定量数据的分析。
(3) 在参数检验和非参数检验都适用的情况下,非参数检验的功效要小于参数检验。
3. 主要使用场合
(1) 参数检验不适用时
(2) 涉及到定类或定序数据
(3) 检验对象不涉及参数
(4) 对各种资料初步分析
二、 单样本的非参数检验
1. x²拟合优度检验
定性数据
(1)
(2) 观察频数与期望频数越接近,则x²值越小
2. 单样本K-S检验
定量数据
基本原理:经验分布函数是理论分布函数的一致估计
提出原假设和备择假设
:样本数据来自某个理论分布
:样本数据不来自某个理论分布
如果是小样本,则需要求软件输出精确检验的p值
3. 单样本中位数的符号检验
在非正态、小样本的情况下,如果要对总体分布的位置进行推断,t检验不在使用,可以使用非参数方法对总体的中位数进行统计推断
在数据呈(严重)偏态分布的情况下,应该使用总体中位数刻画总体分布的位置
检验步骤
(1) 提出原假设和备择假设
(2) 做决策
1|
2|
(3) 下结论
三、 匹配样本的非参数检验
对应数据相减得到新的序列
服从正态分布
匹配样本t检验
不服从正态分布
匹配样本非参数检验
符号检验
Wilcoxon符号秩检验
(1) 提出假设
:差值总体的中位数=0
:差值总体的中位数≠0
(2) 做决策
算出差值绝对值的秩
将|z|从小到大排序,其位次就是|z|的秩,等于零的不参与排序。 数据中有相同的数值则称为结,结中数字的秩为排序后它们所占位置的平均值
分别算出差值序列中正数的秩和及负数的秩和,分别记为
建立统计量W,计算p值
双侧检验中的p值=2P
双侧检验:
左侧检验
右侧检验
(3) 下结论
注意:参数检验与非参数检验的零假设和备择假设是有区别的
既考虑了差值的符号,又考虑了差值的大小; 在所需条件(连续对称分布)满足时其功效比符号检验高
浮动主题