导图社区 统计 思维导图
医学统计学基础入门,知识全面详细,干货满满,现在不收藏,还在等什么呢。可以作为笔记用,或者日常回顾!
编辑于2021-06-18 14:50:51医学 统计
参数检验
计量资料
统计描述
均数±标准差(正态或近似正态分布资料,标准差一般为均数的1/2),中位数和四分位间距(偏态分布或未知分布)同时出现,一起描述数据集中和离散趋势
步骤
频数表或直方图了解资料分布范围,数据集中的区间和分布的型态
正态性检验
选择和计算统计描述指标
集中趋势
算数均数
正态分布资料
几何均数G
经对数转换后呈正态分布资料
免疫学指标如抗体滴度
中位数M 及百分位数
偏态资料
众数Mode
离散趋势
极差R
最大值与最小值之差
四分卫数间距Q
偏态资料
方差S2和标准差S
正态或近似分布资料
标准差越大离散程度越大
变异系数CV
观察指标单位不同时应用
标准差/均值
应用: 医学参考值范围
正态分布
查u届值表
偏态分布
百分位数法
个体值波动范围,即观察对象某项指标的分布范围
均数估计
标准误SE
样本统计量的标准差SE
样本均数的标准差SEM
反应均数的离散程度及 样本均数与总体均数的差异, 即抽样误差的大小
总体正态分布样本均数也正态分布
来自正态分布总体
总体偏态分布样本量>60样本均数近似
单一总体均数可信区间
总体标准差σ未知而n较小(≤60)
按t分布
自由度趋于无限大∞, t分布就是正态分布
总体标准差σ已知或未知而n足够大(>60)
按u/z 分布
两总体均数之差的可信区间
总体均数可信区间
当α=0.05时,95%可信区间估计正确概率为95%,估计错误的概率为0.05%,即有95%可能性包含了总体均数。
95%医学参考值范围:正常总体中有95%的人在此范围内
均数比较
单个(样本与已知总体比较)或 两样本均数比较(u或t检验)
条件
总体方差齐
假设检验
1-β为检验效能 即发现差异的能力
建立检验假设,确定检验水准
H0原假设或无效假设:μ=μ0
H1备择假设或对立假设:μ≠μ0
α检验水准或显著性水准:常取α=0.05
计算检验统计量: 即两组统计量相差多少
样本含量n较大,t值近似u值
u检验
已知样本均数与已知总体均数的比较
单样本t检验
配对设计计量资料
同质对象配成对子接受两种不同处理
同一对象分别接受两种不同处理
同一对象接受一种处理前后对比
配对t检验
两独立样本t检验
总体方差相等,即方差齐
成组t检验
两样本方差目测差很多,做方差齐性F检验
方差不齐,近似t检验
确定P值,作出推断: 当前值之外的尾部面积
P>α:按检验水准α不拒绝H0,差异无统计学意义
P≤α:按检验水准α,拒绝H0接受H1
P的意义
检验
正态性检验
图示法
P-P图
以累计频率作图
Q-Q图
以分位数作图
数据点在直线附近,说明服从正态分布
计算法
偏度
分布不对称的程度和方向
峰度
分布与正态曲线相比的冒尖或扁平程度
概要
0:对称分布
正值:正偏峰
负值:负偏峰
方差齐性检验
属于方差分析的一种
F检验
理论上资料要服从正态分布
Bartlett
对资料的正态性要求更严格
Levene
适用于任意分布的两组或多组资料,资料可具有正态性
不满足条件时
变量变换
对数变换,平方根变换等
资料不满足正态性或方差齐时,尤其是小样本资料时应用
多个样本均数比较
变异
总变异SS总:Xij与总均数离均差平方和
反映所有观测值之间用的变异程度
组间变异SS组间:各组均数与总均数的离均差平方和
反映随机误差和处理因素的影响
组内变异SS组内:Xij与所在组均数的离均差平方和
反映随机误差
检验假设: 检验各平均值是否来自相同总体
建立检验假设,确定检验水准
H0:μ1=μ2...=μg 各总体均数相等
H1各总体均数不全相等:(μ1≠μ2=μ3或μ1≠μ2不等于μ3)
α检验水准或显著性水准:常取α=0.05
计算检验统计量
计算变异(离均差平方和SS总,SS组内,SS组间)→均方差(MS组间,MS组内)→F值
确定P值,做出统计推断
F值接近于1,没有理由拒绝H0。P>α不拒绝H0,不能认为各样本的总体均数不全相等
F值越大,拒绝H0理由越充分。P≤α,拒绝H0,各样本来自不全相同的总体,认为各样本的总体均数不全相等
F统计量
MS=SS/v
F=MS组间/MS组内
v1=v组间,v2=v组内
方差分析是 单侧F检验
F值接近于1,就没有理由拒绝H0
F值越大,拒绝H0的理由越充分
方差分析 ANOVA(F检验)
应用条件
各样本为相互独立的随机样本
来自正态分布总体
总体方差齐
常用
一个处理因素
完全随机设计的方差分析
一个处理因素不同处理水平的均数有无差异?
单因素多水平,同质对象随机分组
又称单因素方差分析one- way ANOVA
单因素:验因素
g=2时为成组t检验,方差分析结果与两样本均数t检验等价,F=t²
概要
SS总=SS组间+SS组内
MS组间=SS组间/df组间
MS组内=SS组内/df组内
F=MS组间/MS组内
随机区组设计的方差分析
设立区组的目的是控制混杂因素,使混杂因素在各处理水平间达到均衡。提高检验效率
随机区组设计是配对设计的扩展
又称两因素方差分析two- way ANOVA
两因素:试验因素(处理因素,主要因素),配伍因素(区组,控制混杂偏倚),较完全随机设计试验效率更高
应用
正态分布且方差齐采用双向分类的方差分析
不满足方差分析或t检验条件时,进行变量变换后采用双向分类方差分析或Friedman M 检验
概要
SS总=SS组间+SS区组+SS误差
MS组间=SS组间/df组间
MS区组=SS区组/df区组
MS误差=SS误差/df误差
F区组=MS区组/MS误差
F组间=MS组间/MS误差
若结果拒绝H0不能说明各组总体均数 两两间都有差别,要分析差别要进行 多个均数间的多重比较
SNK-q :q检验
适用于:探索研究。研究设计时未考虑均数多重比较,经方差分析得出有统计学意义的结论后。才决定对每两个样本均数进行比较,即所有组之间都比较
q届值表
Dunnett-t
适用于g-1个实验组与一个对照组均数差别的比较
Dunnett-t届值表
LSD-t
适用于多个地位相同时的比较,有专业意义的均数间比较
.Bonferroni法
最保守,适用于所有两两比较,包括多个均数比较和多个频率的比较
多个处理因素
析因设计的方差分析 又称全因子实验设计
两个或以上处理因素的各处理水平间的均数有无差异,或两个或以上处理因素间有无交互作用
说明单独效应,主效应和交互效应
特点:需要的试验次数较多(各实验条件下至少重复两次或以上独立重复实验)
重复测量设计的方差分析
同一受试对象同一观察指标不同时间点进行多次测量所得资料, 分析该指标在不同时间点上的变化特点
强调时间趋势
适用于研究处理效应随时间推移的动态变化情况的实验研究场合
医学课题中应用频率较高
计数资料
统计描述
绝对数:客观事物或现象发生的实际水平
相对数: 相对水平
强度相对数
率=(某时期内发生某现象的观察单位数/同期可能发生某现象的观察单位总数 ) ×比例基数
与时间有关
用条图或线图描述
结构相对数
构成比=(某一组成部分的观察单位数/同一事物各组成部分的观察单位总数)×100%
分子为分母的一部分
用百分条图,圆图描述
相对比
相对比=(甲指标/乙指标)×100%
指标可以是绝对数,相对数或平均数
注意资料可比性
观察对象是否同质
观察对象内部结构是否相同
对比不同时期资料应注意客观条件是否相同
样本率或构成比的抽样误差
率的标准化: 使合计率具有可比性
直接标准化法
两组资料中任选一组的人口数或构成比做为两者的共同标准
两组资料各部分人口之和组成的人口数或人口构成做为两者的共同标准
间接标准化法
另选一个通用的或便于比较的标准作为两者的共同标准
标准化死亡比SMR
SMR>1表示被标化人群死亡率高于标准组
SMR<1表示被标化人群死亡率低于标准组
使用SMR时要做总体SMR是否为1的假设检验
动态数列
绝对增长量
一定时间增长的绝对值
发展速度与增长速度
一定时期的速度变化
平均发展速度与平均增长速度
较长时间中逐期平均发展的程度
参数估计
标准误
率的抽样误差
σp总体标准误
样本标准误
总体率的区间估计
n≤50,尤其样本率p接近0或 100%时, 查百分率可信区间表可得总体率1-α可信区间
n足够大,np和n(1-p)均>5时, p抽样分布近似正态分布总体率π的 双侧(1-α)可信区间近似(p-Zα/2Sp,p+Zα/2Sp)
卡方检验
基本公式χ2=Σ (A-T)²/T
适用于
两个样本率的比较
多个样本率之间的多重比较
两组或多组资料内部构成之间差别的检验
多维列联表的分析
某一频数分布是否符合某一理论分布的判定 即推断频数分布的拟合优度
计数资料的关联度分析、拟合优度检验等
概要
推断两总体率(构成比) 是否有差别
完全随机设计四格表资料
n≥40,且各格子理论数T均≥5,用四格表卡方检验专用公式
Pearson卡方
n≥40,但最小理论数5>T≥1时,用四格表卡方检验矫正公式
连续性修正
n<40或T<1时或p≈α时,用四格表卡方检验确切概率法(Fisher)
Fisher精确概率(仅适用于四格表资料)
配对四格表资料
b+c≥40,配对四格表专用公式
b+c<40,配对四格表矫正公式
仅适用于两法结果不一致的情况,当n很大, a与d很大,b与c较小时,实际意义不大
行×列表(R×C列联表)资料
通用公式χ²=n (Σ A²/nRnC -1 )
资料形式
多个样本率的比较
两组构成比的比较
多组构成比的比较
双向无序R×C表资料关联性
注意
样本量n不能太小,至少50例
理论数不能<1
理论数1-5之间的不能多组1/5永格子数
无序资料用χ²检验
解决办法
增大样本量
删除所在行或列(丢失信息)
合并该行或列(丢失信息,甚至出假象)
改用Fisher确切概率法
检验方法选择
双向无序R×C表资料
研究目的为多个样本率或构成比的比较,用行×列表资料χ²检验
研究目的为分析两个变量之间有无关联性及关系密切程度,用行×列表资料χ²检验及Pearson列联系数进行分析
单向有序R×C表资料
分组变量有序
分析各组构成情况,用行×列表资料χ²检验
指标变量有序
比较不同疗法的疗效,秩转换的非参数检验
双向有序属性相同的R×C表资料
是对配对四格表资料的扩展
通常为分析两种检测方法的一致性
用一致性检验或称Kappa检验
也可用特殊模型分析方法
双向有序属性不同的R×C表资料
研究目的为分析不同年龄组疗效有无差别时,视为单向资料,用秩转换的非参数检验有序
研究目的为分析两个有序变量间是否存在相关关系,用等级相关分析
研究目的为分析两个有序变量间是否存在线性变化趋势,用双向有序分组资料的线性趋势检验
非参数检验
应用条件
不满足正态和方差齐性条件的小样本资料
总体分布类型不明的小样本资料
一端或两端不确定的数值(如<0.02,>65等)的资料(必选)
单向(双向)有序列联表资料
各种资料的初步分析
方法的起点:排队与秩次
统计描述中排秩思想的成功应用:百分位数,中位数
排队的优点:广泛适用于各种分布
排队的结果:将原始数据的比较转化为秩次的比较
配对设计差值比较的符号秩检验 又称Wilcoxon符号秩检验
应用条件
配对设计的计量资料但不服从正态分布或分布未知
配对设计的等级资料
应用
用于配对样本差值的中位数和0比较
建立假设
H0差值的总体中位数Md=0
H1:Md≠0
α=0.05
计算统计量
求差值:算出各对值的代数差
编秩:根据差值绝对值大小编秩,将秩次冠以正负号
若差值的绝对值相等,符号不同时取其平均秩次, 符号相同可顺序编秩
差值为零的对子舍弃不计,总对子数也减去其对子数
求秩和
计算正,负秩和T+和T-
确定统计量T
以绝对值较小者做为统计量T,即T=min(T+,T-)
正负秩和相加等于总秩和T+ +T-=n(n+1)/2
用于检验正负秩和计算是否正确
确定P值,做出推断
5<n≤50查T届值表 n为差值非0的对子数
检验统计量T在上下届值范围内,P值>相应概率水平
T值等于上下届值,P值近似等于相应概率水平
T值在上下届值范围外,P值<相应概率水平
P值内大外小
n>50用正态近似法做u/z检验
单个样本中位数和总体中位数比较
方法近似⬆️
完全随机设计两样本比较的 Wilcoxon检验
应用条件
完全随机设计两组独立样本不满足参数检验时
有序分类变量两组独立样本
应用
原始数据的两样本比较
建立检验假设
H0两样本来自相同总体(两样本总体分布位置相同)
H1两样本来自不同总体(双侧)或样本A高于样本B(单侧)
α=0.05
计算统计量
编秩
两样本从小到大混合编秩
遇数据相等,在同一组可顺序编秩,在不同于取平均秩
求秩和:两组秩次分别求秩和T1,T2
确定统计量T
两组例数相等,任取一组秩和为统计量T
两组例数不等,以样本例数较小者对应的秩和为T
确定P值:查表或正态近似法
n1≤10(n1例数较少者),n2-n1≤10,查两样本比较的T届值表
否则,用正态近似法
频数表资料和等级资料的两样本比较
编秩方法不同
确定各等级合计人数→秩范围→平均秩
计算各等级的秩和(人数✖️平均秩)
计量资料为频数表资料,按数量区间分组;等级资料按等级分组
完全随机设计多个样本比较的秩和检验 Kruskal-Wallis法H检验
应用条件
完全随机设计多个独立样本不满足参数检验时
有序分类变量多个独立样本
应用
原始数据的多个样本比较
建立检验假设
H0多个样本来自相同总体(多个样本总体分布位置相同)
H1多个样本总体分布位置不同
α=0.05
计算统计量
编秩
多个样本从小到大混合编秩
遇数据相等,在同一组可顺序编秩,在不同于取平均秩
求秩和:多组秩次分别求秩和
确定统计量H
各组样本存在相同秩时,求矫正Hc
确定P值
样本个数g=3和每组例数≤5时,查H届值表
g=3且每组例数>5或g>3时,H或Hc近似服从v=g-1的卡方分布,查χ2届值表
频数表资料和等级资料的多个样本比较
编秩方法不同
确定各等级合计人数→秩范围→平均秩
计算各等级的秩和(人数✖️平均秩)
计量资料为频数表资料,按数量区间分组;等级资料按等级分组
随机区组设计资料比较的秩和检验 (多个相关样本比较的Friedman's M test)
应用
建立检验假设
同Kruskal-Wallis H 检验
计算统计量
编秩
每个区组样本从小到大混合编秩(横着比较)
遇数据相等,在同一组可顺序编秩,在不同于取平均秩
求秩和:多组秩次分别求秩和
确定统计量M
确定P值
当g≤15和每组例数n≤15时,查M届值表
每组例数n>15或g>15时,近似服从v=g-1的χ2分布,查χ2届值表
.区组数较多时,还可以用秩转换的F检验
进一步比较哪两两总体分布位置不同
SNK-q :q检验
不同设计类型的符号秩和检验 与对应的参数检验
关系
双变量相关与回归
直线相关
线性相关
条件:双变量随机正态分布资料 先绘制散点图,提示有线性趋势时才进行分析
相关系数:又称Pearson积矩相关系数
r表示样本相关系数
反映两变量x和y呈直线关系密切程度和相关的方向
ρ表示总体相关系数
X和Y是否线性相关
r取值为—1≤r≤1
r值为正且H0(ρ=0)被拒绝时表示正相关,r=1为完全正相关
r值为负且H0(ρ=0)被拒绝表示负相关,r=-1为完全负相关
r=0且H0(ρ=0)被接受两变量不呈直线相关, 但不能排除有某种曲线相关
相关系数的假设检验
建立检验假设,确立检验水准
H0:ρ=0无直线相关关系
H1:ρ≠0有直线相关关系
α=0.05
计算统计量r或t
确定P值,做出统计推断
t检验
r届值表
v=n-2
分析步骤
散点图判断是否线性相关
计算样本相关系数r
假设检验总体是否相关
估计总体相关系数可信区间
注意:一个接近于0的线性相关系数不意味着两个变量无相关,只是无线性相关;相关≠因果;不能是任意两个变量放在一起计算相关关系,而是专业上两者可能存在关系;异常值和分层资料慎用相关
等级相关 或秩相关
条件
不服从二元/双变量正态分布
总体分布未知(如x<0.001)
原始数据用等级资料表示
数据本身有不确定值
Spearman秩相关
相关系数rs(样本)/ρs(总体)
相关系数的假设检验
建立检验假设,确立检验水准
H0:ρs =0无直线相关关系
H1:ρs≠0有直线相关关系
α=0.05
计算统计量rs
定等级:两个变量观测值分别编秩,顺序一致,遇相同数数平均秩次
计算每对观测值的等级差d
计算等级相关系数r s
确定P值,做出统计推断
rs届值表
n>50时可查u届值表
n 为观察值对数
直线回归 或简单回归
条件(LINE):线性(linear),独立(independence),给定x时只要求y服从正态分布(normal distribution),等方差(equal variance);先绘制散点图,点分布呈直线趋势才能进行直线回归分析
①散点图:判断X与Y是否线性相关
直线回归方程Ý=a+bX
经验/样本回归方程:对两变量总体间线性关系的估计
根据散点图假设对于X的各个取值,相应Y的总体均数μx|y在一条直线上μ=α+βX
a为常数项,是回归直线在Y轴上的截距
回归系数,是直线的斜率 样本b总体β来表示
②表示X每增加一个单位时Y的平均改变的估计值
β越大表示Y随X增减变化的趋势越陡
b>0直线从左下走向右上
b<0直线从左上走向右下
b=0直线与X轴平行,Y与X无关
拟合回归方程的估计方法 遵循最小二乘法原则
回归方程的假设检验
建立检验假设,确立检验水准
H0:β=0无直线相关关系
H1:β≠0有直线相关关系
α=0.05
计算统计量t或F
确定P值,做出统计推断
t检验
v=n—2
方差分析
v回=1,v残=n—2
直线回归中对回归系数的t检验和F检验等价
③X与Y代表的总体的直线回归关系是否确实存在, 即统计检验
⑤回归方程的应用:估计和预测
总体均数μy|x的可信区间
给定X数值,相应Y的总体均数的1-α可信区间
个体Y值的预测区间
给定X数值,相应个体Y的数值的1-α预测区间
论文中的统计报告 (4主要指回归系数 5方差分析或t检验)
决定系数R²:回归平方和与总平方和之比
反映回归贡献的相对程度 ④即自变量X在多大程度(?%)上可以解释因变量Y 或自变量X对因变量Y的影响程度
取值0到1且无单位
R²开方得到R值称为相关指数
取值0到1
离1越近,表示两变量关系越密切
不论各种情况,可以描述两变量曲线关系的密切程度
相关与回归
相关:X和Y都要正态分布,反映两变量相互关系 回归:Y服从正态分布,反映两变量依存关系
多元线性相关与回归分析
分析一个应变量与多个自变量之间的线性关系 条件:样本量——样本例数是研究因素的5-10倍 因变量为近似服从正态分布的连续性定量指标,自变量全部或大部分为定量指标,若有少量定性或等级指标需做转换(哑元)
指标的量化
自变量为连续变量:以原始观察值形式呈现,必要时做变换
自变量为分类变量
二分类:一般小的数字是对照
有序多分类:从小到大,从低到高,依次0、1、2。。。
无序多分类:引入哑变量
g个多分类指标,用g-1个取值为0、1、-1的哑变量表达这些类别
将多分类转化为二分类
多分类(有序。无序)最好都采用哑变量
自变量的选择方法
全局择优法
用于估计和预测效果好
自变量数目多时计算量大,且不能保证自变量都有统计学意义
逐步选择法
向前法
开始方程中没有变量,自变量由少到多一个一个引入,按其对因变量贡献由大到小依次挑选
优点:计算量小,容易找到单独效果好的变量
缺点:只进不出,一次只引入一个,若两个变量放在一起效果好,单独一个不好,这样的变量没有机会被选中
后退法
开始变量都在方程中,按其对因变量贡献由小到大依次剔除
优点:一次能引入多个变量,若两个变量一起效果好容易被选中
缺点:只出不进
逐步回归法(多用)
将前进和后退法结合
两个界值α入≤α出
小样本α为0.10或0.15,大样本α取0.05
SPSS:分析→回归→线性→方法
自变量共线性问题:随机自变量之间高度相关
影响:参数估计结果不稳定,统计学意义受到怀疑
克服方法:逐步回归分析,主成分回归分析
多元线性相关
计算偏相关系数r(ij,k)
Spss:分析→相关→偏相关→X1与X2选入变量→X3选入控制→ok得r(12,3)
多元线性回归
条件(LINE):线性(linear)y与x之间程线性关系,独立(independence)n个个体之间相互独立,x取不同值时只要求y服从正态分布(normal distribution),等方差(equal variance)x取不同值时y的总体方差不变;先绘制散点图,点分布呈直线趋势才能进行直线回归分析
检查是否满足条件方法:绘制残差图(非正式检查法)
多元线性回归 分析步骤
建立多元线性回归方程 Ý=b0+b1X1 +b2X2+........+bmXm
最小二乘法原则:根据n个观察数据,使残差平方和最小
b0为常数项即截距,b1,b2,,,,,,为偏回归系数
bi表示将其他变量的作用加以固定后,Xi改变1个单位时Y将改变bi个单位
对回归模型及参数进行假设检验
方差分析法(F检验)对回归方程整体进行检验,即回归方程是否有统计学意义
H0:β1=β2=、、、βi=0 H1:βi(123,,,i)不全为0
Spss:分析→回归→线性→p<0.05①回归方程有统计学意义
采用t检验对方程中的每个系数bi进行检验
生成具体的b0,b1,b2,,,,bi
决定系数R²:=SS回/SS总=1-SS残/SS总
②反映回归贡献的相对程度 自变量X1,X2,,,,,Xi在多大程度(?%)上可以解释因变量Y 或所有自变量X对因变量Y的影响程度
取值0到1且无单位 越接近1表示模型拟合越好
R²开方得到R值称为复相关指数
③说明所有自变量X与Y间的线性相关程度,即观察值Y与估计值Ý之间的相关程度
取值0到1
离1越近,表示两变量关系越密切
只有一个自变量时,R=|r|,r为简单相关系数
标准化回归系数b'
④比较各自变量Xi对Y的影响强度
在有统计学意义的前提下,其绝对值越大,相应自变量对Y的作用越大
其统计学可以无意义 因此做回归分析前应选择有意义的变量
回归模型的评价
拟合的回归方程在总体上有统计学意义
决定系数R²越接近1说明回归方程效果越好
剩余标准差或标准估计误差反映因变量在扣除自变量的线性影响后的离散程度,越接近0说明方程效果越好
回归系数估计值的正负号与专业意义相吻合, 即根据回归方程计算的Y的预测值在专业上有意义
应用
影响因素分析
找出对因变量y有影响的因素
估计和预测
已知X1,X2,,, 数值大小,通过模型预测y的值以及估计y的变化范围
统计控制
给因变量y指定一个值或在一定范围波动,通过控制自变量值来实现
要求:R²要大
回归系数标准误要小
logistic 回归分析
特点
概率型非线性回归,是研究二分类(可扩展到多分类)观察结果与一些影响因素之间关系的多变量分析方法
适合于病例对照研究,队列研究,横断面研究
目的:做出以多个自变量(影响因素)估计应变量(结果变量)的logistic回归方程, 用途:研究某种疾病或现象发生和多个危险因素(保护因子)的数量关系;研究消除其他自变量影响后,某自变量的变化能否引起因变量取某值概率的变化,及引起因变量变化的大小
资料: 应变量为反映某现象发生与不发生的二值变量或多分类 自变量可能是二值数据或等级资料或计量资料,分类变量要数量化
数据结构
logistic回归模型
常数项β0表示暴露剂量为0时个体发病与不发病概率之比的自然对数
回归系数βi(i=1,2。。。)表示自变量Xi改变一个单位时,Logit(P)的改变量
系数解读βi
子主题
子主题
SPSS
选择
变量
有序变量和 分类变量 是错误的, 反了
统计学中几种主要分布
正态分布, 标准正态分布
正态分布X~N(μ,σ2)μ为X的总体均数,σ2为总体方差
标准正态分布:为实际应用方便, 将X~N(μ,σ2)转化为u~N(0,1)
中心极限定理:样本量较大时,虽然总体分布为偏态分布,样本均数的抽样分布仍然服从或近似服从正态分布
t分布
曲线只有一个参数v=n-1
v无限大,t分布就是标准正态分布
F分布
曲线由v=n1-1和v=n2-1决定
取值范围(0,∞)
用于方差分析
卡方χ2分布
连续性分布
只有一个参数v v=(行数-1)(列数-1)
v≤2曲线呈L形
随着v增大,曲线趋于对称
v→♾️,卡方分布趋近正态分布
可加性
参数检验与 非参数检验
参数检验
分析目的
对总体参数进行估计或检验
分布
要求总体分布已知
连续性资料:正态分布
计数资料:二项分布、poisson分布
统计量
有明确的理论依据(t分布,u分布)
有严格的使用条件
正态分布
总体方差齐
数据间相互独立
非参数检验
分析目的
对总体分布或分布位置进行假设检验
分布
与分布无关
基本方法
卡方检验
基于秩(等级、rank)的方法
基于特定参照点(如中位数)的方法
应用条件
不满足正态和方差齐性条件的小样本资料
总体分布类型不明的小样本资料(n<30)
一端或两端不确定的数值(如<0.02,>65等)的资料(必选)
单向(双向)有序列联表资料
各种资料的初步分析
优点
适用范围广
受限条件少
具有稳健性
缺点
对符合参数检验的资料如用非参数检验会丢失部分信息 容县犯第二类错误
统计方法选择
假设检验的选择
用卡方检验(或u检验)的局限性:只能研究1个影响因素;只能得出定性结论
r是ρ的估计值
n1和n2较大的 频数表资料或 等级资料也可用 H检验,两者关系 为H(或Hc)=u²
反复使用t检验拒绝H0的机会增大, 解决办法:以单次检验回答一个整体问题,即方差分析
t检验适合 小样本
自由度V指能够自由取值的变量个数