导图社区 第九章 分类变量的卡方检验
这是一篇关于第九章 分类变量的卡方检验的思维导图,主要内容有卡方检验的基本思想、率的比较、独立性检验、拟合度检验(大样本)、确切概率法、R×C交叉表一般可以分为三类。
编辑于2022-08-06 09:03:45 山东省分类变量的卡方检验
卡方检验的基本思想
卡方检验的基本思想实质:是将对两个或多个总体率(构成比)的比较转化为实际频数与理论频数吻合程度的比较。
卡方分布
2分布是一种连续型随机变量的概率分布。自由度v是其唯一参数,记为卡方(v)如果Z服从标准正态分布,那么Z2服从自由度为1的2分布。
四种自由度卡方分布的概率密度曲线
性质
1)特殊的抽样分布、2)一簇连续光滑的曲线,不同自由度的卡方曲线形状各有不同各种自由度取值下卡方分布右侧尾部面积(概率)为 α 时的临界值记为x2α ,v,列于 界值表。
卡方分布的期望值(均值)为自由度 v,方差为2v。随着自由度v的增大,分布将随均值的增大向数轴右侧延伸,而分布曲线也将随方差2v的增大越趋低阔。
率的比较
2×2交叉表数据的卡方检验
(1)建立检验假设,确定检验水准
(2) 检验统计量的选择与计算。
(3)确定 P 值,作出统计推断
检验适用条件
(1)若n ≥ 40,且任意一个格子的理论频数Tij ≥ 5,可直接使用卡方检验公式。 (3)若n < 40或者任意一个格子的理论频数Tij < 1 时,则检验不再适用,宜采用 Fisher 确切概率法进行处理 (2)若n ≥ 40,但出现1个格子的理论频数1 ≤ Tij < 5时,则需对值按以下公式进行连续性校正。
R*C交叉表数据的卡方检验
特点:用于推断3个以上的总体率(或构成比)之间的差异与2×2交叉表 检验比较不同之处: (1)理论频数 Tij 的公式可泛化为: (2)可直接使用下面公式 计算统计量:
多个构成比的比较
建立检验假设,确定检验水准 检验统计量的选择与计算 确定 P 值,作出统计推断
多个率的比较
建立检验假设,确定检验水准 检验统计量的选择与计算 确定 P 值,作出统计推断
卡方分割
多个率或多个频率分布比较的卡方检验,当结论为拒绝H0时,仅表示多组之间是有差别的。若需明确究竟是哪两组之间存在差别,可做率的多重比较。 将R×C表分割为若干个小的四格表进行检验。 但在具体分割过程中,需根据比较的次数合理地修正检验水准α,否则将人为地增大犯第Ⅰ类错误的概率。例如α'=0.05/3=0.0167
配对设计数据的卡方检验
两种方法的检测结果有无差别就体现在 b 和 c 这两个对子数。
配对R×R交叉表数据的检验
两个样本分布所对应的总体概率分布是否相同,即类似于配对四格表卡方 检验的基本原理,对配对设计下两总体分布进行推断,应采用的检验统计量为: 成立时上式中的统计量T服从自由度为 k-1 的卡方分布
注意事项
行列表中的各格T≥1,并且1≤T<5的格子数不宜超过1/5格子总数,否则可能产生偏性。 处理方法有三种:增大样本含量以达到增大理论频数的目的,属首选方法,只是有些研究无法增大样本含量,如同一批号试剂已用完等。 根据专业知识,删去理论频数太小的行或列,或将理论频数太小的行或列与性质相近的邻行或邻列合并。这样做会损失信息及损害样本的随机性注意:不同年龄组可以合并,但不同血型就不能合并。 改用双向无序R×C表的Fisher确切概率法(可用SAS软件实现)
多个样本率进行比较,结果为拒绝H0时,只能认为各总体率之间有差异,但不能说明任两个总体率之间均有差别。
对于有序的R*C表资料不宜用卡方检验,因为行*列表资料的卡方检验与分类变量的顺序无关。
独立性检验
2×2交叉表的独立性检验
1)建立检验假设,确定检验水准 H0: 患糖尿病与是否肥胖之间互相独立 H1:患糖尿病与是否肥胖之间存在关联 α=0.05 2)检验统计量的选择与计算 3)确定 P 值,作出统计推断 P<0.05,拒绝H0,接受H1,认为肥胖与糖尿病之间存在关联
4)关系系数的计算
2×2配对数据的独立性检验
R×C交叉表的独立性检验
步骤同2×2交叉表的独立性检验
拟合度检验(大样本)
现采用拟合优度检验,判断恶性肿瘤患者的年龄分布是否服从正态分布?
(1)计算样本统计量 获得199名患者年龄的基本信息:平均数= 60.69,标准差=12.49 将样本均数和样本标准差作为总体参数u和 的近似值。
(2)建立假设检验,确定检验水准 H0总体分布服从 N(60.69, 12.492) H1总体分布不服从 N(60.69, 12.492) α=0.05
(3)检验统计量的选择与计算 ①假设是来自总体的一个随机抽取的样本,共199个样本观测值(n =199)。 ②计算全距 R,确定拟分组数。本例R=89-28=61(岁),分为 5 组,组距m=61/5=12.2≈12。 ③计算样本观测值落在各组段的实际频数。本例 k=5,
(4)计算样本值落在第 i 组段的概率 正态分布下各组段的概率值:
(5)计算各组对应的理论频数
(6)计算卡方值
(7)确定 P 值,作出统计推断
注意
拟合优度检验要求足够的样本含量。若样本含量不够大(如:频数表有1/5以下组的理论频数1<T<5),可以通过连续性校正的检验公式进行统计量的估算。若样本量仍然很小,可人为进行适当的合并。
确切概率法
2×2交叉表的确切概率法
Fisher确切概率法基本思想:保持周边合计数不变,计算交叉表中各个实际频数变动的所有可能组合所对应的概率,再将获得现有样本的概率以及比它更极端的所有概率求和,直接求出单侧或双侧的累计概率进行推断。
当2×2交叉表出现以下情况之一时,需采用Fisher确切概率法 (1)样本含量 n<40。 (2)有一个格子的理论频数 T<1。 (3)检验后所得概率 P 接近检验水准。
例
子主题
R×C交叉表的确切概率法
其理论频数不能过小,不能有1/5以上格子的理论频数1<T<5,也不允许有一个格子的理论频数T<1,否则结果容易产生偏性。
增大样本量,以达到卡方检验的应用条件;亦可采用 Fisher 确切概率法,
R×C交叉表一般可以分为三类
(1)双向无序:即交叉表横、纵标目均为无序的分类变量,可直接使用 检验对总体率或构成比进行分析。 (2)单项有序:一种见于组别分类有序而观察指标无序的列联表,此时可直接采用 交叉表 检验。另一种见于组别分类无序而观察指标有序的交叉表,此时应采用非参数检验比较不同治疗方式的疗效差异。 (3)双向有序:分为双向有序属性相同的交叉表与双向有序属性不同的交叉表两种。此时,需根据变量属性与研究目的,选择以下几种方法处理: 检验、基于秩次的非参数检验、Spearman等级相关、Kappa一致性检验、趋势性检验等。