导图社区 卫生统计学配套习题疑难及答案解析
这是一篇关于卫生统计学配套习题疑难及答案解析的思维导图,主要内容有 I.绪lI.统计描述lll.常用概率分布IV.抽样误差与分布V.统计推断等。
编辑于2022-12-25 22:14:03 四川省内涵PA7E四模块考点汇总大全(参照光环VIP课汇总)、配套高模拟度试题错题汇总、应试详细技巧(人员过程环境高频考点应试公式、考点识别、技巧汇总)。
该导图包含了数据管理计划、数据核查计划、数据核查、质疑管理、数据传输与整合、外部数据管理、数据管理人员分工及数据库相关内容。
出版社: 机械工业出版社 译者: 渠海霞 本书用“青年与哲人的对话”这一故事形式总结了与弗洛伊德、荣格并称为“心理学三大巨头”的阿尔弗雷德·阿德勒的思想(阿德勒心理学)。风靡欧美的阿德勒心理学对于“人如何能够获得幸福”这个哲学问题给出了极其简单而又具体的“答案”。了解了足以被称为“这个世界上的一个真理”的阿德勒思想之后,你的人生会发生什么变化呢?又或者,什么都不会改变? 来吧,让我们与青年一起走进这扇“门”!
社区模板帮助中心,点此进入>>
内涵PA7E四模块考点汇总大全(参照光环VIP课汇总)、配套高模拟度试题错题汇总、应试详细技巧(人员过程环境高频考点应试公式、考点识别、技巧汇总)。
该导图包含了数据管理计划、数据核查计划、数据核查、质疑管理、数据传输与整合、外部数据管理、数据管理人员分工及数据库相关内容。
出版社: 机械工业出版社 译者: 渠海霞 本书用“青年与哲人的对话”这一故事形式总结了与弗洛伊德、荣格并称为“心理学三大巨头”的阿尔弗雷德·阿德勒的思想(阿德勒心理学)。风靡欧美的阿德勒心理学对于“人如何能够获得幸福”这个哲学问题给出了极其简单而又具体的“答案”。了解了足以被称为“这个世界上的一个真理”的阿德勒思想之后,你的人生会发生什么变化呢?又或者,什么都不会改变? 来吧,让我们与青年一起走进这扇“门”!
疑难错
I. 绪论
已知在某个人群中,糖尿病的患病率为8%,则可以认为在该人群中,随机抽一个对象,其患糖尿病的概率为8%
对的。属于总体→样本
某校同一年级的 A 班和B 班用同一试卷进行一次数学测验。经过盲态改卷后,公布成 绩:A 班的平均成绩为80 分,B 班的平均成绩为81 分,请评议下列说法是否正确,为什么?
a)可以称A 班的这次考试的平均成绩低于B 班,不存在抽样误差
抽样误差为什么存在?抽样误差源于个体变异和随机抽样。 采用样本估计总体就需要考虑如此,但此题尼玛就是总体, 没有抽样就没有抽样误差。
b)可以称 A 班的数学平均水平低于 B 班
总体上又有总体? 单词的数学测验成绩不足以代表数学水平
该题总体和总体均数都需要分组说明。 idontknowwhy
对于一次随机抽样,能否认为小概率事件是不可能发生的?
小概率事件的规定就是,一次随机抽样中,可以认为不会发生的事件。
在科学研究中采用的设计方案不同,则采用的分析方法也不同
不同的研究设计,其所获样本资料的统计性质不同。 比如设计阶段的配对/成组,配对设计的资料往往不独立,到时候需用对应的统计方法
区分样本、总体和观察单位
样本和总体最后落点都是观察指标观察值 观察单位仅仅是抽样单位。
探究疾病与危险因素的关系时,如果样本没有代表性,而统计分析发现某因素与疾病的发生在统计学上存在关联,则该因素与疾病之间
E. 不一定存在数量上的联系 数量上的联系即存在相关性,存在剂量反应关系。 先讨论有没有显著关联性,再判断其时间顺序有无因果。
A. 存在因果关系
B. 存在数量上的联系
C. 一定不存在因果关系
D. 存在数量上的联系,说明该因素是导致疾病发生的原因
E. 不一定存在数量上的联系
研究人员测量了100例患者外周血的红细胞数,所得资料为计数资料
红细胞数并非真的没有单位,其单位是10^9/ L 且计数资料往往都在分类资料大前提下,比如方差分析当中的列联表频数表 false.这里的有单位的红细胞数属于计量资料
方积乾
必要时体重可进一步表达为分类变量?
为什么不是有序变量,什么破题
因果关系
C. 必定表现为数量间的联系 因果关系≠数量联系,但因果关系一定存在剂量效应数量关系。 故单纯考察两变量关系不足以得出
A. 就是变量间数量上的联系
B. 可以用统计方法证明
C. 必定表现为数量间的联系
D. 可以通过单独考察两个变量间关系得出
E. 可以通过变量间数量上的联系来证明
美国人1954年实施了旨在评价索尔克(Salk)疫苗预防小儿麻痹或死于脊髓灰质炎效果的临床试验。有180万儿童参与,约有1/4参与者得到了随机化,上述试验最终认为索尔克疫苗是有效的。请问此结论是针对_______ 而言
统计推断的最终结论必然是从样本外推至总体。 故结论针对所有接种Salk的儿童,而非仅指这180w样本儿童
假变量可以参与计算,所以假变量是定量变量
https://zhuanlan.zhihu.com/p/157996796 假变量别称:dummy variable、哑变量、虚假变量等。 其本质并非一个变量,而是将多分类变量转为多个二分类变量的一种形式,可避免直线相关中被平均的线性关系
离散变量在数值很大时,单位为“千”或“万”时可以取小数值,此时可近似地视为连续型变量
夸张但正确。
II. 统计描述
赵耐青
不论数据呈何种分布,都可以用算术均数和中位数表示其平均水平。
大前提是,这是统计描述中的集中趋势描述,需要反应得到集中趋势才行 中位数:适合的是定量资料和开口资料(分类资料你没法分析,开口资料没首尾,不需要像均数那般把每个数值都算进去 均数:要想反应集中趋势,那还得是对称分布
在一组变量值中少数几个变量值比大多数变量值大几百倍,一般采用什么指标描述集中趋势?
均数不行。 中位数行,其受极值的影响小
只要单位相同,用s 和用CV 来表示两组资料的离散程度,结论是完全一样的
假象:比较一组体温和一组恒星温度——S算可以,但没有可比性 或比较一组penius长度以及balls重量,这S算可以,还是没有可比性。 这时候需要采用CV。 题中所指单位量纲相同还不够,均数差距过大也不具备可比性。 5.18:如比较天体直径与原子直径的两组数据,S计算时分母自由度无影响,分子离均差影响极大,对于同单位的均数相差悬殊的数据而言,离均差差异也悬殊,导致S差异悬殊。 故此时不能度量绝对误差的S
描述200 人血压的分布,应绘制频数图
正确。但觉可疑。 血压是定量资料,但是分类和定量都有频数表图描述分布
集中趋势的描述也就是平均水平的描述
一组数据观察值以平均数为中心上下波动,该平均数就反映了总体分布的集中趋势。即集中趋势并非一定是频数最多的位置,其反映的是数据的中心位置,它能够对总体的某一特征具有代表性,表明所研究的舆论现象在一定时间、空间条件下的共同性质和一般水平。 表示一个机率分布的中间值,通过数值平均数和位置平均数表示。
为了描述资料分布概况,绘制直方图时,直方图的纵轴可以为
频数、频率、频率/组距 选择频率/组距为纵轴的话,横纵变量相乘的面积即为频率,一般直方图矩形面积表示的频数,此时可表示频率。
对于同一非负样本资料,算数均数一定大于等于几何均数
几何均数适用资料
适用于频数分布呈正偏态的资料,或者经对数变换后服从正态分布(对数正态/对称分布)的资料,以及等比数列资料
四分位数间距和四分位数范围?
范围是区间,间距是长度。 二者是(a,b)和|a-b|的区别 Messiah.: 噢,大概知道了。范围涵盖的信息要比间距多一些,不同资料不同范围也可能有相等间距 Messiah.: 所以四分位数范围作为指标优先级高于间距一些
箱式图5个基本指标
想象其图形样貌:极值、2个四分位数、中位数
算术均数不易受极值影响
什么叫易或不易? 不受极值影响的倒是:中位数和众数。
对于定量资料,直接法和加权法计算算术均数的结果是相同的
加权法用组中值估计了直接法中的原始数据,存在误差。
直条图与直方图均可用于描述连续型资料
bar chart——分类资料用 histogram,连续型
定性变量与定量变量都可用频数分布表描述
只要有频数分布,就可以用频数分布表。
平均发展速度是环比的几何均数?
粗出生率为频率型指标?
粗出生率表现为:同年活产数/同年平均育龄妇女人口数
死因别死亡率可反映各类死因重要性?
无关 死因顺位才是反映各类死因重要性,它按死因构成比大小从高到低排列
年龄组生育率是强度型指标?
单位时间内活产数?
不同地区总和生育率可直接比较
TFR通过各年龄组别之和得到,消除了性别年龄因素的影响,故可在不同地区直接比较
总和生育率的理解
各年龄组生育率之和,相当于妇女一生的平均活产率。 若TFR=2500/千,即1k名妇女一生平均生育2500活产
描述年龄(分8组)与疗效(有效率)的关系,应绘制什么统计图?
直方图还是线图? 首先直方图反映的是频数的分布,题干强调的是变量与变量变化的关系,应用线图。 线图不需要横标目变量连续变化,取部分值串联成线也是线图。
李晓松
编制频数分布表时,每个组段均包含组段下限值,均为闭区间,且最后一个组段要求写出上限
错在均为闭区间。 1~ 3~ 5~ 7~9 频数表首先要包含所有数,所有两头都是闭区间,首部是闭区间,各区段又都按照首部格式书写,故各段都是左闭区间,所有右侧只能为开区间
偏态数据可通过对数变换呈现对称分布
正态性检验章节所述: 样本量小且明显偏态的可通过数据变换使其呈现正态分布。数据变换其中就包括了对数变换、cox变换等
算术均数一定大于中位数
算术均数等于中位数的时候,分布呈对称。 非对称时的偏态分布,均数≠中位数,均数向右偏离中位数为右正偏态
定量数据的统计指标的度量单位
首先CV没有度量单位
若发现数据中存在离群值,最好的处理办法是将离群值删除
最好先对离群值进行核查,再考虑删不删
用不同的颜色(或深浅)表示观测值的大小,常用来表示事物内部各组成部分所占的比重,称为热图
热图常用来表示的是疾病的时间与空间分布,而非构成比
变异系数CV的计算
变异系数首先是衡量离散程度的。需要标化的是不同均数下的标准差 所以分母是均数,CV=S/Xbar
某研究者进行一项研究中,需要对同一批研究对象进行流行病学调查和临床实验室检查,分别建立了两个数据库,两个数据库中研究对象的基本信息,如ID号、年龄、性别等应一致。对两个数据库进行的该类检查,属于
交叉检查
12名进展期胃癌根治术后患者生存期(月)为:28,28,28,29,29,30,31,33,38,40,45,155
计算一般生存期
首先确定分布类型 这一看就不是对称正态,故用中位数描述集中趋势
计算该指标变异程度
离群值如何判断和处理
离群值一般通过频数分布表或直方图进行初步判断,若连续几个组段的频数均为0,之后出现特别大或小的数据,这样的数据往往是离群值; 进一步可利用箱式图判断,若观测值距箱式图底线或顶线的距离大于或等于1.5倍四分位数间距,则可视为离群值; 还可通过统计检验的方法,或结合其他变量信息进行判断。 当出现离群值时,应慎重,应将专业知识和统计学方法结合起来,了解造成偏离的原因。若因为测量或记录过程中出现错误而产生,则应予以剔除;若无明确的理由剔除离群值,则可分别对资料进行离群值删除前后统计分析比较。若删除前后分析结果矛盾,则需要谨慎;必要时,也可采取稳健分析方法以降低离群值的影响
陈长生
直方图可以用于反映一批新生儿出生体重分布情况
yes 直方图用于反应:连续型资料的频数分布。
各观察值乘以一个大于0的常数后,()不变
E.变异系数 各观察值同乘某数,其均数和标准差均变为某倍。
A,算术均数
B.标准差
C.中位数
D.几何均数
E.变异系数
比较某地区解放以来三种病的发病率在各个年度的发展速度,应该绘制
反映发展速度只能是半对数线图。 线图只能反映趋势,纵轴是指标值本身,半对数线图的纵轴进行了对数转换
分析大样本数据时可以构成比代替率
率具有时间维度,二者不能替换
实际工作中,容易将构成比当成率分析的主要原因可能是
E.计算构成比的原始资料较率容易得到
A.构成比较率容易计算
B.构成比较率难计算
C.构成比与率的计算方法一样
D.构成比用得较多
E.计算构成比的原始资料较率容易得到
少年儿童人口系数下降,粗死亡率上升
某年婴儿死亡率的计算分母
活产总数。
定基比和环比区别
定基比是统一用某个时间的指标值作基数,其他各时间的指标值与之相比,是动态数列分析的一种方式 环比的发展速度是报告期水平与前一时期水平之比,表明现象逐期的发展速度
平均增长速度
各增长速度的平均数,说明某事物在一个较长的时期中逐年平均增长的程度
平均增长速度=平均发展速度-1 由于平均发展速度是一定时期内各期环比发展速度的序时平均数,各时期对比的基础不同,所以不能采用一般序时平均数的计算方法。计算平均发展速度通常采用几何平均法。采用这一方法的原理是:一定时期内现象发展的总速度等于各期环比发展速度的连乘积。根据平均数的计算原理,就应当按连乘法,即几何平均数公式计算各指标值的平均数。即: yn/y0=y1/y0×y2/y1×...×yn/yn-1=b1×b2×...×bn b表示平均发展速度,n表示环比发展速度的时期数,则: b=n√yn/y0=n√b1×b2×...×bn 累积之后约掉不少只剩下an/a0
. 从动态数列的分析中可以准确反映出事物随时间的变化和发展趋势
false but dont know why
方积乾
离散型定量变量的频率分布图可以用_________ 表达
B.直条图 其余ACD均要求连续,而E不必要?
A.直方图
B.直条图
C.百分条图
D.箱式图
E.复式条图
把P25、P50、P75标在一个数轴上,则
E. 以上都不是 明晰百分位数定义,如P25指资料中25%<该数,75%>该数
A.P50一定在P25和P75的中点
B.P50 一定不在P25和P75的中点
C.P50一定靠近P25 一些
D.P50一定靠近P75 一些
E. 以上都不是
测得200名正常成年男子的血清胆固醇值(mmol/L),为进行统计描述,下列说法不正确的是__
E.可用直条图表示频率分布图 题干为连续型资料,直条图适用于离散型
A.可用频数表法计算均数
C.可用直接法计算标准差
B.可用直接法计算均数
D.可用加权法计算标准差
E.可用直条图表示频率分布图
患病死亡指标时记得看题干说的是年发病率死亡率还是总的发病死亡率
III. 常用概率分布
赵耐青
二项分布越接近Poisson分布时,也越接近正态分布
首先,二项分布参数有n&π,n任意正整数,π0-1 通过数学关系可证明当n→∞而保持π较小时,二项分布趋近于Poisson分布 而只要二项分布的π不太接近0或1,随n的增大,二项趋近于近似对称分布 Poisson分布的μ(nπ)较大时,Poisson分布也会趋近对称。 故二项趋近Poisson和趋近正态的条件不一。
从同一新生儿总体(无限总体)中随机抽样 200 人,其中新生儿窒息人数服从二项分布
正确,二项需要满足哪些条件? 事件仅2结果且互斥,事件之间独立,事件概率固定
在 n 趋向无穷大、总体比例π趋向于0,且nπ保持常数时的二项分布的极限分布是Poisson 分布
说的是μ为constant,并不必须整数
关于Poisson相加性应用的例题
相加性原则外的乘除不影响均数
μ=40,Y=X/2则服从 正态分布/2 仅仅是正态分布的变量除以2,不能算进去
确定参考值范围时,必须选取足够多的健康人来进行计算
考点不在“足够多” 而是“健康人” 正常人选哪些取决于入选和排除因素,这两个因素也决定了入选的是否为健康人。
记忆Z分布横坐标对应的概率取值
±1.64之间为0.90 ±1.96之间为0.95
Poisson分布有两个参数:n和π
nope 只有一个参数μ,所谓参数就是其概率函数中除自变量和常数以外的值。 泊松通过二项n取∞极限而来,将n&π构成了μ的总体
μ足够大时,Poisson分布就是正态分布
知道这里“就是”用的太绝对,应该用近似或趋近。 为什么?因为包括泊松的二项是离散型分布,同连续型正态分布之间有鸿沟。鸿沟决定了质的差异:即二项分布永远不可能=正态分布
关于Poisson函数的加减乘除
相加性,分布加上分布,结果仍是Poisson分布(均数变化) 乘除可能改变Poisson判定条件之一:μ=σ² 的改变。因为乘除改变了每个因变量值大小,故改变了均数μ。 而正态分布乘除之后仍是正态。
自变量变化x倍,标准差就变化x倍
某一放射物体,以一分钟为单位的放射性计数为 50,40,30,30,10,如果以5分钟为时间单位,其标准差为多少?
 ??
正常人尿氟浓度X呈对数正态分布,Y=lgX,G为X的几何均数,则尿氟浓度的95%参考值范围的界值计算公式是
X在过程中被导了一次,结果时需要导回来 lg右上角,有一个“-”号,那是反函数的意思。例如lg-1(右上角)3=1000,完全等价于10的3次方。2的反对数,则等于100,就是这样啦!
值得练手
设 X 服从μ=40 的 Poisson 分布,请问:Y = X /2 是否服从 Poisson 分布?为什么?
李晓松
Pr(A和B)=0.35, Pr(A|B)=0.7,求Pr(B)
重点在于Pr(A|B)=Pr(AB)/Pr(B)=Pr(A)=0.7 故Pr(B)=0.5
若A事件和B事件互斥,则A事件和B事件相互独立?
随机变量的均数是总体的一个参数,并不会随着样本的不同而改变
总体和样本都是随机变量。随机变量并不只是单个随机试验得到的变量
随机变量的方差是样本离均差平方和的平均值,随样本的不同而改变
随机变量这里指总体?
单峰对称分布就是正态分布
正态分布和t分布是两个概念 单峰对称除了正态、t、还有啥柯西分布
一批产品,优质品占20%,进行重复抽样检查,共取5件产品进行检查,则恰有三件是优质品的概率等于
需要运用二项分布概率函数计算
二项分布近似正态的条件?
nπ>0.5
陈长生
当nπ>5时, 二项分布接近正态分布
nope。 条件不够完善,应为nπ>5且n(1-π)>5且n较大时,二项近似正态分布
服从泊松分布的随机变量, 其取值为0到n的概率之和为1
nope。 这里要明确泊松分布随机变量的由来,我们将一段时空划分成n段,这个n段非常小,以至于每一段仅允许发生1次事件。我们把这种段称为单位时间/空间。 理论上n为无穷大,故指定累加到取值n,其概率之和永远是<1的 (即随机变量X取值不能穷尽∞,故其发生次数的概率和始终小于1
服从二项分布的随机变量, 其取值为0到n的概率之和为1
truth 二项分布不同于泊松分布。二项分布的独立重复试验次数n是研究者设计的,n是定值,n次试验之下所有情况的概率之和为1。 随机变量X可等于0~n,分别对应所有情况,概率和为1.
根据500例正常人的发铅值原始数据(偏态分布),计算其95%医学参考值范围应采用
单上侧百分位数法. 判断单双侧要从实际出发,发铅值属于指标过大为异常,故参考值范围只有上限没有下限,超过上限为异常。
区分参考值范围单双侧分别是Xbar+多少S
90%双侧正态分布法是Xbar±1.64S, 所以单侧是Xbar+1.64S. nope 单侧90%的上限界值在于其右是10%,其左涵盖Xbar和左尾在内的概率是90%。 需要算的界值为均数往右40%的对应值。
正常情况幂那里是x-μ,这里是x+2,故μ=-2 σ=√2
正态分布概率密度函数式:
对称分布在“均数±1.96倍标准差”的范围内,包括95%的观察值
对称分布≠正态分布。 题干中的计算式只适用于正态分布法
为什么二项在n够大,π接近0.5时就可以近似正态?
这要通过二项分布图形判断。 首先n小了是不行的不能完整反映总体特征。 其次π过小和过大分别会使分布左偏或右偏(概率越小,发生次数接近0的概率就越大
方积乾
参考值范围计算对于不服从正态分布的资料直接按资料人数百分比计算参考值范围
即百分位数法,单侧100个人指标排序前95个就是95%参考值范围
IV. 抽样误差与分布
赵耐青
大样本量的非正态分布,可认为其资料变量近似服从正态分布的
中心极限定理用的是资料的“样本均数”,不是资料本身。
某研究者做了一个儿童血铅浓度的流行病学调查,共调查了 1000 人,检测了每个人血铅浓度,计算这 1000 人的血铅平均浓度。对于现有的 1000 人的血铅浓度资料,可以认为该资料的样本均数近似服从正态分布。
样本均数概率分布需要在抽样发生之前。 此如同量子态,观察之后为定值,观察前为概率云。 该资料已为现有资料,样本均数已经可以计算出来,为一个数值。不存在概率分布
样本均数的抽样误差定义
即样本均数与总体均数之间由于抽样所导致的差异。 误差源于随机抽样和个体差异。通常用样本均数标准误度量平均的抽样误差大小
样本均数抽样误差与总体标准差的关系
前者是σx。 后者σ σx=σ/√n
样本越大置信区间越可信?
可信与否只与可信度1-α有关,而α为研究前所设定值。 可信/置信二字在于,所估计的CI,有多大把握包含总体均数μ
样本量越大,CI精度越小
精度?精密度的简称。准确度简称为准度。 CI的精度是指CI的宽度大小,即CI的集中度。越集中,越精确,CI越窄。 可知置信区间宽度的一半为tα/2,v*Sx-。 Sx-=S/√n, n越大Sx-越小,标准误越小,抽样误差越小 n越大,t界值也越小:n越大ν越大,t曲线越瘦高,同等P面积下的t界值更接近于0。
利用抽样所得样本率估计总体率95%CI,所得CI是以样本率为中心对称分布的?
这里的样本率和总体率是率,为分类资料描述指标,不是均数。 总体率CI的估计有2种方法,n(1-P)P≥5,可用正态近似,否则用确切概率法计算,后者算得得CI并非像正态以样本率为对称中心。
认真贯彻随机抽样原则可减少抽样误差?
随机抽样原则和方法属于系统误差。 而抽样误差属于随机误差(随机误差包括抽样误差和随机测量误差
从正态总体中抽样,无论样本量多大,样本均数都服从于正态分布?
首先服从这一概念:某某值服从于某某分布,即指某某值在不同情况下的取值存在分布规律,可用函数表示。 抽样样本所得样本均数根据抽样不同而变化,其变化服从某规律型函数分布。 中心极限定理已证明:正态总体中抽样所得的样本均数就是服从正态分布。
来自于正态分布的样本,其样本均数服从t分布
来自正态分布N~(μ,σ²)的样本的均数服从于N~(μ,σ²/n) 而t分布公式为 只有t服从于t分布,t由样本均数代数变换而来。平时将均数代入t分布也是通过t分布变换式。
样本含量一定时总体率越大,样本率抽样误差越大?
σP=√π(1-π)/n,可知要π不大不小接近于0.5时σP最大。
有100名男童坐高资料,估计95%坐高在60-80cm范围内,由此推断总体均数95%CI为
题中的60-80为样本描述范围。通过Xbar±1.96S计算。 即Xbar+1.96S=80,而Xbar=80+60/2=70,可知S≈5.10 μ的95%CI为Xbar±1.96SXbar,易得为(69,71)
100名女童换龋病40人,可推断总体率95%CI为
样本率P=0.4 总体率CI公式为P±1.96SP SP=√P(1-P)/n≈0.049,算得总体率95%CI为(30,50%)
xbar±1.96S与xbar±t0.05/2,ν*Sxbar的区别
区别主要位于t界值和标准差。 前者直接应用标准正态分布,标准差也直接用描述性的S。 后者则是t分布,比的是样本均数,用的是均数标准差。 前者就是根据正态分布曲线描述一个正态分布的95%资料数值范围。——参考值范围 后者则是总体均数μ的CI估计。
μ±Z0.05/2,ν*σxbar与xbar±Z0.05/2,ν*σxbar的区别
由于样本均数xbar服从N(μ,σ²x'bar),故前者即是样本均数xbar的概率函数的95%区间。 后者则是总体均数95%CI的估计。 两者都是用的Z界值,用的都是Z分布以替代t分布,两者n都>100
李晓松
统计量也是一个随机变量,其值也会随着重复抽样而变化,样本均数是一个连续剧随机变量,而样本率是一个离散型随机变量
对的。主要看原资料类型
中心极限定理只是针对样本均数的抽样分布而言,样本率的抽样分布并不遵循中心极限定理
错。 率的抽样分布性质与样本均数类似,样本率抽样分布同样遵从中心极限定理。
在利用二项分布的正态近似来计算累计概率时,如果想提高这个方法的准确性,可以对 需要计算的“成功”次数的整数实施加0. 5或者减0. 5后再采用正态分布近似法来计算
蒙特卡罗模拟方法只适用于分析大样本量下统计量的抽样分布
false
样本率的抽样分布近似服从正态分布的一般条件为
nπ>5 且 n(1-π) >5 和 nπ(1-π)>5 二者等价?二项分布近似正态分布的条件和样本率P近似正态的条件一致?
在计算样本率的概率时,当样本量很小时,为获取样本概率进而描述样本率的抽样分布可以采用
A.直接利用概率公式 B.查二项分布表 C.应用统计软件 D.利用蒙特卡罗模拟 E.以上方法均可
样本均数的标准差计算(标准误)
首要的是理论值算法 σ/√n 其次才是退而求其次的估计算法 S/√n
衡量样本均数可靠性的是?
可靠性是准确性。是实际测得值与真实值的差距 故应求多次测得的Xbar与μ的差距,理论值为σ/√n 估计值为S/√n
p38计算题
陈长生
为了解某地区9岁女孩血红蛋白含量的平均水平,某医疗机构随机抽取该地9岁女孩200名, 获得其血红蛋白含量平均数为139.2g∕L,标准差为2.5g∕L,因而估计该地9岁女孩血红蛋白含量的 平均水平为134.3~144.1 g/L。试问该估计是否正确(α=0.05)?
十分狡猾的易混题,区间估计要依靠均数标准差(标准误) 不能直接拿S开始1.96,S需转为Sxbar
区间估计优于点估计
优不优于设计两个指标,准确性和精确性。 点估计精确性好,将所有可能范围集中在样本均数一点,但由此损失准确性,可能无法包括总体均数。 点估计有简易的有势,并不存在绝对的弱于区间估计。 两种估计方法依据研究设计而决定
对于一个参数可以获得几个估计值
同一个参数,同一个总体,可以抽多个样本,每个样本得到的估计值都不一样
置信度由99%下降到95% ,置信区间估计的准确度也下降
准确度反映可信度1-α大小,1-α越接近1,准确度越好。 置信度越大区间越宽
方积乾
为了解某城市女婴出生体重的情况,随机得到该市区120名新生女婴的平均出生体重为3.10kg,标准差为0.50kg;其中有10名新生女婴的出生体重低于2.5kg;试问该市女婴出生体重低于2.5kg的概率π的95%置信区间为
考点是总体率π的CI估计。 本质上也需要样本率P来估计π。样本率P也可视为频率,即10/120=1/12 正态近似法:n(1-P)P>5满足 π的CI公式为P±Zα/2·Sp Sp=√P(1-P)/n类比Sxbar=√(S²/n),两点分布S²=P(1-P)
严格区分二项分布的σ和率的抽样分布的Sp
二项σ=√np(1-p) Sp=√p(1-p)/n
V. 统计推断
赵耐青
t 检验统计量服从自由度为ν 的t 分布
这个陈述需要一个大前提。即H0成立 首先什么是t分布,它是从μ为参数的总体中抽样得到的样本的样本均数服从的分布。 所以如果一个统计量需要服从t分布,那它必须是从μ的总体中抽样。 原t分布公式中分子的Xbar和μ源于同一总体,这是大前提。 由于样本均数也服从μ的正态,故借此检验。如果该样本均数取自此总体,在允许抽样误差前提下,其样本均数Xbar与μ接近。故当t绝对值较大时,二者距离较大,可考虑否认H0
后面的大于关系是指检验统计量t的位置在H0假设承受范围之外,即属于小概率事件,表明应该拒绝H0接受H1. 此时本题的意思即为:H1为真且判断准确的概率为多少? 记住α和β分别为俩型错误的概率。犯II的概率为β,那么判断正确的概率即为1-β
需要知道的是α是实验之前确定的,为定值。故其与n无关,尽管n可影响β而β与α反相关。 但β取值也不能影响α
在同一总体随机抽样,其他条件不变,样本量越大,则总体均数的 95%可信区间越___
CI只有两个要素,准确和精确性。 准确性由α决定了,剩下的精确性受α、样本量和个体变异影响。精确性越好,CI越窄。
可信度是个什么?
可信度也叫置信度,即confidence level,1-α α有且仅代表I型错误概率。越小犯错概率越小,置信度也就越大了,算出来的CI越宽
Messiah.: 就是那个,我们做统计推断的假设检验最后是需要下定论的。认为这俩均数等或不等 然后这道题考点可能偏向于结论文字表达,无统计学意义是指这俩样本均数的差异是由随机误差导致,不是俩样本代表的总体有本质差异 Messiah.: 所以认为样本均数有统计学意义,也就认为样本均数的差异并不单单是随机误差导致,其中存在总体层面的本质差异 A
反证法假设检验不涉及H0成立的概率
假设检验中,当P>α时,虽不能拒绝H0,但不能推断H0成立,为何?
假设检验的逻辑学基础是:反证法。 什么是反证法?即假设结论成立,在推理过程中寻找疏漏倒推结论错误。 故反证法仅仅是寻找推翻结论的证据,而非支持结论的证据。 并且假设检验存在“存假”的II型错误,即便不拒绝H0,H0仍然有不成立的概率(β)。
Poisson的μ的区间估计
p79
4题有问题
样本量较大时成组t检验可忽略方差齐性要求
样本量大小与方差齐性无关。 只与破格近似正态有关。 方差不齐有t',非正态也有秩和。
大样本资料的配对t检验要求方差齐性?
配对和单样本t检验均无需检验方差齐性。 方差齐性检验是比较两组资料的样本方差。 配对t检验由于实验设计原因,其分组是源于同质总体,即视为同一总体,故无需检验方差齐性。 单样本t是一组样本资料同一个总体均数作比较(多数情况无σ信息);相当于一个值比一个值,更无需分布可比性。 放入公式X=Xbar-μ/Sxbar 更易理解。 放入公式分子的前提是服从同一分布。单样本t检验相当于μ的CI估计翻版,配对t将Xbar定义为差值d;只有独立样本t公式分子纳入两个资料的均数信息,故需知道二者方差齐性如何。
检验效能?
power of test————检验差异的能力————即反证法反证强度———— 即察觉H0为假的能力——即不存伪β的能力————即1-β
单样本t检验μ和μ0谁是谁
p70 μ0是已知总体均数。μ是未知的样本所代表的
H0为真时,t才服从t分布?
t分布公式要求分子上的玩意儿均需服从同一个t分布 故才有了单样本t中H0先假设Xbar源于已知μ的同一个总体 故才有了独立样本t中假设俩Xbar源于一个总体 故才有了配对t中,H0假设μd=0(即认为相差的两值源于同一总体)
对H0为真而言,|t|<tα/2,ν 是一个小概率事件
H0为真时,|t|确实应该<tα/2,ν 即H0为真时正确判断的概率1-α  此概率肯定不小
对H1为真而言,P≤α 不一定是一个小概率事件
 此时对应1-β。 概率不一定小
两样本t检验的检验效能与哪些因素有关
样本量
n1n2/n1+n2
方差
两总体均数差异大小
李晓松
减少置信区间误差范围的方法包括选择较低的置信度和增大样本量
对同一数据作单侧检验比双侧检验更容易获得拒绝H0的结论
视图化的假设检验是,先确定单双侧及α,就此可在资料所属分布上确定拒绝域 (α和单双侧决定拒绝域大小 由于拒绝域存在α的概念,故拒绝域=小概率事件范围 确定拒绝域之后计算检验统计量。若检验统计量落在拒绝域内则可认为支持该检验统计量的检验假设是小概率事件。 单侧检验拒绝域更大,故检验统计量落在其中的机会更大
假设检验的P值,是在H0成立的条件下,出现现有样本统计量的概率
出现现有样本统计量的概率?单个t值对应的曲线上一点,曲线下面积:概率为0 P应是大于等于当前样本统计量绝对值的概率
通常情况下,差值的置信区间可以回答差别有无统计学意义,也可以提示差别有无实际意义
√。 差值的置信区间。包括0就无统计学意义,判断有无统计学意义后确实可以提示有无实际意义,但还要根据研究背景确定。
样本量从100增加到200时,I和II型错误概率都减小
减小的只有β。1-β增大 I型错误概率只与最先设计的α有关
在均数估计中,为什么说95%的置信区间比60%的置信区间正确性高?
以CI定义来解释。 95%CI包含μ的概率比后者高。 100次抽样结果的100个x%CI中,平均而言有多少个包含μ
如何计算研究的检验效能?
关键图,H1代表的分布在左或右取决于单侧检验的大小于
检验效能大小即计算H1成立前提的分布中1-β曲线下面积
可通过带入H1曲线公式计算≥(或≤)α对应的t值(也就对应H1分布下β界值的t值)的概率
陈长生
( )时,应作单侧检验
A.已知A药不会优于B药 你如果已知AB具体优劣,你还假设检验个什么呢? 这里是要假设检验AB两总体有无差别,然后根据已知的“不会高/低于”来推断优劣
A.已知A药不会优于B药
B.已知A药优于B药
C.已知A药劣于B药
D.不知A药好还是B药好
E.以上答案都不对
当总体方差已知时,检验样本均数和某个已知总体均数的差别有无统计学意义只能用t检验
首先单样本检验的方法是很多的,分类资料有一系列,二分类多分类等 定量资料仅有Z和t检验,知道总体标准差那就Z检验
为研究某种疫苗接种后的效果,作两样本抗体滴度几何均数(G1,G2)差别的t检验,其检验假设是两总体算术平均滴度相等,即H0:μ1=μ2
错误。其检验假设是两总体对数滴度均数相等,即H0:μ1=μ2 对两几何均数做t检验时需要将其对数转化为lgX
作两样本均数差别的假设检验,当P<0.01时,表示所对应的两总体均数相等的可能性小于0.01
错误。 P值表示在H0规定的总体中抽样,得到等于或大于现有统计量的可能性,而并非检验'假设成立的可能性,检验假设是否成立不取决于假设检验的结果。 P对应的是检验统计量值,当t大于界值时才说P<α
方积乾
下面有关假设检验的描述,错误的是
C. H1是从反证法角度提出的. 什么是反证法?即反向证明,寻找可以推翻现有假设的证据以证明其错误,这是针对H0。寻找不利于H0成立的证据来支持证明H1,这是正常证明方法
A. 检验假设又称无效假设,用H0表示
B. 备择假设用符号H1表示
C. H1是从反证法角度提出的
D. H0、H1既相互联系又相互对立
E. H0、H1都是根据统计推断的目的而提出的对总体特征的假设
当样本例数相同时,定量变量的两独立样本t检验与配对样本t检验相比,一般情况下为
配对,使对子内无关因素减小,对子之间差别扩大? 配对控制了混杂因素,检验效率更高,检验效率也即检验效能?
Α.两独立样本t检验效率高一些
Β.配对样本t检验效率高一些
C. 二者效率相等
D. 大样本时二者效率一致
Ε.检验效率与两组样本均数的大小有关
在根据两个独立样本资料比较总体均数时,进行t检验的前提条件是
D.两总体方差相等 问的不是之前赵的常考点:统计量t服从t分布的前提条件,而是两独立样本那么多方法我用t检验需要什么前提条件。(独立性、正态性、方差齐性 这里给了独立性,有总体均数暗示服从正态性?
Α.两总体均数不等
Β.两总体均数相等
C.两总体方差不等
D.两总体方差相等
Ε.以上都不对
某地成年男子红细胞数普查结果为:均数4.8×10^6∕mm3,标准差4.1 × 10^5∕mm3。标准差反映的是
D.个体差异 还在选抽样误差,做题做魔怔了
A.抽样误差
B.总体均数不同
C.随机误差
D.个体差异
哪些情况下使用Z分布?
第一种情况即Z分布的来源,知道μ、σ的准正态分布直接转化而来。 2.t分布但n很大,近似标准正态。(t由Z得来,t仅能反映样本 其他情况界值全部用t界值
样本量一定时,欲提高假设检验的水准,则必须令
样本量一定时α和β必定相互影响 故欲提高1-α,需减小α,由于样本量一定的限制,β需要相应的增加。
VI. 研究设计
赵耐青
随机区组设计检验效能一定高于完全随机设计
否。 设计全方面都控制得很好的完全随机设计,其混杂效应可忽略,可吊打随机区组。 而随机区组也可存在矫枉过正,即加入太多因素配对,以致丧失代表性,检验效能降低
RCT是实验性研究
RCT,包含三元素之一:实验。(采取了干预措施) 但实验性研究不一定满足RCT,可能没有随机分组或设立对照。
随机对照试验就是完全随机设计
RCT的研究设计可以是完全随机设计,也可以是随机区组设计。 RCT贯彻了随机化原则,对照和实验组之间除了实验因素不同以外,其他条件基本相同。
采取随机分组可提高检验效能
否。 随机分组的作用是控制混杂因素。 而提高检验效能,最有效方法即是增大样本量。
队列研究所获样本资料不能估计人群中研究因素的暴露比例
注意是“人群中”,即总体暴露比。 其中选入队列的暴露和非暴露组人数为1:1,不属于随机抽样。 只有从人群中随机抽样获得的样本暴露比才可估计总体的暴露比。
实验设计的三个基本原则是什么?
随机对照重复。
随机化的作用是什么?
均匀分配混杂因素,使其可归于实验误差 是统计推断的前提基础
样本量过少会出现假阴性
假阴性?即真阳误判为阴性,即检验效能1-β不足
作假设检验时所需样本含量计算必备条件

在试验研究中设计对照的目的是什么
设立对照使得实验和对照组之间除了干预因素不同外,其余因素在概率上相同。 使二组具备可比性,突显干预因素效果。
调查时最好采用完全随机抽样方法?
不存在完全随机抽样。 抽样要么是随机抽样要么非随机抽样,随机抽样中也没有什么完全随机抽样。 也不存在完全随机性?
调查表中调查问题应尽可能全面和详细
应尽可能简便简单
李晓松
随机对照实验的原则
对照、随机化、重复。 实验设计的原则是随机对照重复。
观察性研究与实验性研究最大的区别就是在于,前者是用观察的方法获得信息,而后者是采用实验的方法获得信息的
最大的区别是干预与否
基本的数据伦理学原则包括
A. 知情同意、保密性、伦理审查委员会审查
一项评价培美曲塞联合奈达钳治疗中晚期肺腺癌效果的临床试验,有310名患者参与,并被随机分为两组。这310名患者是
只是1份样本 只是样本量为150 一次抽样得到一次样本,n次抽样得n个样本
统计数据的来源有以下途径
轶闻数据
指由杂志、报纸、电视、互联网或其他媒体报道的一些个案数据,由于其特殊性往往给公众留下突出和深刻的印象
代表性较差
可得数据
指为了某些特定目的已收集或积累的数据
特点是可以免费或以非常低廉的价格获取,并节约大量的时间
抽样调查数据
通常是从一个总体中抽取具有代表性的样本来进行调查所获取的数据。
实验数据
是通过实验性研究所收集的数据。
实验设计的原则及其作用
设置对照组以减少非处理因素对处理因素效应的影响; 随机化的作用是使各组受试对象在重要的非实验因素方面具有极好的均衡性,提高不同组的可比性; 通过重复可减少实验的随机变异
降低统计量变异和偏倚的方法
统计量变异反映由抽样引起的统计量与总体参数之间或统计量取值之间的差异,可通过增大样本量或实验组数降低。随机误差 统计量偏倚表示抽样分布的集中位置偏离总体参数的真实值,可通过随机抽样的方法和实施盲法降低。系统误差
简单随机抽样存在的问题
(1) 在现实中,总体列表有时难以获得,所以大部分的抽样都会有一定程度的涵盖不全,或选择志愿者应答样本等方式,造成样本代表性差。 (2) 有时即使样本代表性很好,但由于测量可能存在缺陷,得到的数据仍然具有问题,访谈 者或者被访者的一些行为可能产生应答偏倚。 (3) 问题措辞也是影响回答的重要因素,模糊或者带有引导性的问题常常产生较大的偏倚
实验研究中的伦理基本原则
(1) 所有计划实施的研究必须通过伦理审查委员会的审查,避免研究对象受到可能的伤害。 (2) 所有进入研究的个体在数据收集之前均知情同意。 (3) 所有研究个体的数据都必须保密,仅人群水平的统计汇总报告可以公开
分层抽样要求各层间的差异尽可能大

一个调查表的信度越高,说明调查的结果越能显示所测对象的真正特征
量表中效度表示准确性,信度表示精确性。 信度越好一致性越好,同个问题问同一个对象,答案越一致
一般来说,信度与效度的相关系数小于( )表示信度与效度较差
0.4
某研究者拟从社区中收集居民生活习惯调查问卷,在对这些调查问卷的整理分析过程中,以下的做法不正确的是
D. 严格按照事先制订的计划进行数据分析
A. 提前制定统一的数据编码规则方便后续数据分析
B. 采用双录入法保障问卷录入质量
C-对问卷同时进行逻辑检查和完整性核查
D. 严格按照事先制订的计划进行数据分析
E. 数据录入后要进行数据整理
分组隐匿≠盲法
二者都是隐藏分组信息,但是目的有所不同。 分组隐匿防止选择偏倚,发生在干预之前,避免提前公布分组信息,研究者主观分配对象分组 盲法防止表现偏倚,发生于干预之后,盲法四个层面:
群随机试验相对于个体随机试验的劣势在于,群随机试验容易产生对照组的沾染
群体随机试验的劣势在于相同样本量情况下其检验效能低于个体随机试验。 因为其群体内同质性更大,得到的处理反应有更大的相似性
所谓的样本含量估计是指人力、物力、时间允许下的最大观察样本数
样本含量估计不是通过人力物力时间来估计的。 而是通过诸如现患率、α、β等指标公式计算出来
析因设计能分析两个或多个处理因素的效应以及各因素间的交互作用,是一种高效的实验设计方法
true
析因设计特点
以上两个问题研究的特点为:涉及的因素为两个,每个因素至少两个水平,因素间各水平进行所有可能的交叉组合,每种组合就构成了一种处理组,每种处理组内乂有相同的几个样本;研究的目的不仅是要知道单个因素不同水平效应之间的差异,还要知道两个因素各水平间效应的相互影响
安慰剂对照和空白对照区别
空白对照真的是一点处理因素都没有。 安慰剂对照用于临床试验,其药物特征与处理组药物一致,不会引起心里差异
为研究某种手术方式对脑外伤治疗疗效,以已有脑外伤的狗作为实验对象,实验组采用某手术方式,对照组仅给予脑外伤后的手术缝合。该对照属于
只能说是控制了变量。但做了处理不是空白,做了处理和实验组不同也不是安慰剂对照 加上处理因素需要伴随缝合这一其他因素,故应为实验对照
陈长生
临床试验研究样本量估计??
方积乾
对调查表考评的主要内容是
信度、效度、可接受性
某医生欲研究清肝活血颗粒治疗非酒精性脂肪肝的效果,将在该院用清肝活血治疗的60例患者作为试验组,采用常规疗法的30例患者作为对照组,从而比较两种治疗方法的效果。该方案
B.未遵从随机化原则 应该先确定总数,再随机分组
A.可行
B.未遵从随机化原则
C.对照组样本量太少
D.只需进行自身治疗前后对照
E.对照设立不当,应设立空白对照
某小学共有6个年级,每个年级5个班,共1500名学生。要估计该学校学生身高的总体均数及95%置信区间。1.在每个年级中的5个班级中抽取学号为5的倍数的学生进行调查,此种抽样方式是
系统抽样。 如果是分层系统抽样,则是以每个年级的每个班级为层单位,划分层的因素为班级因素。而分层抽样的分层因素需要是与研究目的相关的因素或特征。 本研究目的为估计该校学生身高CI,分层应为为年龄、性别。
系统抽样?
分层系统抽样?
在调查表的效度评价指标中,不一定进行评价的指标是
校标效度 效标效度是指测验分数与效标的相关程度。所谓效标,就是检验测验有效性的一种参照标准。效标常用一种公认比较可靠或权威的测验结果表示。这实际上就是用一种已知的且认为其“有效”的测验结果去检验另一个新测验的有效性。之所以不直接用效标测验去代替新测验,往往是因为新测验可能比效标测验更为简单、易行。 化学教学中,常用学生的实际高考成绩与模拟高考试题得分之间的相关来检验高考模拟试题的有效性。这里应用的就是效标效度的检测方法,高考就成了模拟考试的效标。
在医学研究中不可避免,但可以用统计学技术进行控制和估计的是
A.抽样误差 Sxbar 混杂因素怎么量化估计?不能
A.抽样误差
D.测量误差
B.过失误差
C.选择偏倚
E.混杂偏倚
观察性研究与实验性研究最大的区别就在于前者是用观察的方法获得信息,而后者用实验的方法获得信息
最大区别不是获得信息资料的方法。? 而是有没有人为干预。
量表的可接受性评价包括
可接受性是指被测定者对调查表的接受程度。它主要取决于调查 表是否简单、内容是否为被测者所熟悉、是否容易填写、完成调查表所需的时间是否较短。 具体可通过调查表接受率(回收率)、合格率和填表所需平均时间等来评价
VII. 基本情形的参数推断-李晓松
BartIett法检验和Levene检验都不依赖总体分布的具体形式,而且都可用于两样本方差齐性检验和多样本方差齐性检验

将接种麻疹疫苗后已阳转的96明麻疹易感儿作为观察对象,三年后复查,96名中仍为阳性者85名,则该疫苗接种阳者三年后仍保持阳性百分率的95%可信区间采用何种方法计算?
正态近似法。 源于总体率的区间估计
简述两总体率之差置信区间的正态近似法的适用条件及当条件不满足时的处理方法
两总体率之差置信区间的正态近似法的适用条件是一般规定n1pj.zι1 (I-Pl)、5、 n2( 1 ~p2)均大于50当此条件不满足时,应使用校正样本率的正态近似法,对样本率实施“分子+2, 分母+4”校正,推得求解两总体率之差π1-π2的l-α置信区间计算公式。
VIII. 两独立样本定量资料统计分析
区分清概率分布和抽样分布
随机变量存在于随机现象之中。 大量观察随机现象可得到随机变量在概率意义下的取值规律,这种描述随机变量取值规律或刻画这种随机现象的东西叫做概率分布。 而样本统计量的概率分布被称为抽样分布。(例如样本均数的概率分布
两样本t检验中,t检验统计量服从自由度为n1+n2-2的t分布
坑又来了。 注意t检验是假设检验,核心是反证法:即假设统计量t服从t分布,去寻找可推翻该假设的依据
当两个样本统计量都很大时,t检验对正态性的要求可忽略
首先t分布是作为样本均数的抽样分布。 而根据中心极限定理,当样本量很大时,其分布近似正态。
当两个样本统计量都很大时,t检验对方差齐性的要求可忽略
错。 抽样误差由2方面带来, 一为样本量带来的误差(即样本量过小使其代表性不足 一为个体变异带来的误差,可通过方差标准差表示。 个体变异可通过实验设计阶段的混杂因素控制上进行影响。 故方差与样本量无关。
但两样本量相同且很大时,t检验可忽略对方差齐性的要求
Y服从Poisson分布,若Y观察值为40,则X=Y/10服从什么分布?
观察值>30时,μ就≥20了。所以此时Y近似服从正态。 那么重点是判断其是否服从Poisson分布: 针对Poisson特点之一:其μ=σ² 随机变量乘除术后一般不满足上等式,故不服从Poisson
两组资料进行正态性检验,是分别检验还是合并在一起作检验
当然分开。 两分布峰值不同情况下,就算都是正态分布,但合并会有双峰,结论会为非正态分布。
两个Poisson分布均值资料如何检验?
样本量大还好,用t检验。 小样本要借助程序
关于大样本两均数Poisson分布检验,其中观察值差值服从的近似正态中,其方差为啥是μ1+μ2?
服从正态分布的两独立样本Var(x1±x2)=Var(x1)+Var(x2)???
IX. 多组独立定量资料统计分析
方差分析是双侧检验
单侧还是双侧取决于假设检验。 仅谈差异即是双侧。
对于完全随机设计,总样本量不变的情况下,如果各组的样本量相同,则检验效能相对较高
正确。 直观揣测:样本量相等的话,越相同把,可比性越大,越均衡
方差分析分析的是变异程度离散程度,是怎么过渡到总体均数集中趋势的推论的?
检验假设是关于总体均数。方差分析方法过程中的计算利用了检验假设中关于总体均数的前提(即只有总体均数的前提成立,之后计算的各成分变异程度才接近。
为什么方差分析需要3大前提条件?
要根据F分布推导。 方差分析是理论的应用,是先有F分布这样一个理论,它的成立前提就是方差相等的两正态分布中抽两个独立样本,平方后分别服从各自的χ²分布。最后得出F比值 先有上述理论,后才有卡方分析这一应用手段,故也依赖于理论的适用条件。
完全随机设计方差分析要求多组资料都服从某一个正态分布且资料独立和方差齐性
文字游戏 应该是分别服从
随机区组设计方差分析?
F公式中把分子换为MS处理,分母换位MS误差?
其要求残差服从正态分布
随机区组设计不存在每组资料服从正态,而是残差服从正态,要求残差方差齐性。
其误差均方一定小于处理组均方
F=MS处理/MS误差 而F可以<1
方差分析用的F界值表中F0.05,ν1,ν2界值,即是F分布的第97.5百分位数
无论H0规定方差分析是单侧还是双侧检验,其界值是单侧的。 故应为95百分位数
方差分析I类错误概率小于KW法
α是实验开始设计的,故2者犯错概率一致
完全随机设计方差分析的H0是否成立与组内平均变异无关
组内均方正好是t检验中的合并方差Sc²
随机区组设计方差分析中所查F临界值表中分母自由度为何自由度
根据随机区组方差分析公式,分母为MS误差。故为误差自由的
随机区组设计资料用随机区组方差分析得其区组效应,结果为无统计学意义,该资料能否用完全随机设计方差分析进行检验?
尽管区组效应无统计学意义, 但区组设计始终不是独立得,故不能用完全随机设计的检验方法。
方差分析各SS的自由度计算
SNK法和Dunnett法的应用条件区别
前者是探索性研究,适用于临时起意对比两两大小 后者是验证性研究,设计阶段就已决定两两比较
X. 配伍区组设计
成组设计的资料作配对t检验,合理并且平均起来可提高统计效率?
资料做配对还是做独立样本t检验。取决于资料的性质。 若资料本身存在关联,如自身前后对照;或资料通过同性质来划分区组,这时候同区组内的样本在非处理因素上存在共性的关联。 而成组资料没有进行过配对,没有控制过非处理因素,且其本身源自不同总体,故也非自身对照实验。
什么时候用独立样本t,什么时候用配对样本t检验
满足参数检验的配伍区组设计资料如果采用非参数检验则会增大I类错误概率
为什么参数检验是统计方法的首选? 因其利用了概率分布中的抽样分布来以样本统计量估计总体参数,合理地利用了数据信息。 而非参数检验则是退而求其次,其因为总体分布未知或非正态原因,无法利用抽样分布函数,失去了这一枢纽。故利用数据的信息也较少 故前者具有更大的可靠性,即分辨总体差异的能力越大,存假的可能性越小。
参数检验与非参数检验对比
随机区组设计的方差分析通常需要从背景上排除研究因素与区组因素的交互作用?
√ 分析过程中分别检验了处理因素和区组因素有无效应。而并没有混杂一起考虑
设配对设计资料的一对变量为(X1, X2),则相应配对符号秩检验的编秩方法是把X1、X2的差d=X1-X2从小到大进行编秩
配对资料秩次分析中编秩要看差值的绝对值。 直接看差值得到的是残差。
为分析某市 2005 年不同区域大气中的氮化物含量,某研究者选取了 8 个采样点,对每个采样点的 4 个不同时点进行监测与资料收集,则该资料属于配伍区组设计资料?
首先何谓配伍区组设计? 依据一些性质将样本划分为各区组,如此以来组间差异拉大,也不存在关联(独立?),之后在组内进行随机分组,由于组内各样本性质类似,故其存在关联,不能算独立 而本体压根不是配伍区组设计,没有按同性质分组的描述,更像是单组重复性抽样推总体的设计
统计学中的“独立”作何解释
仍未有严格的数理定义。互不影响则独立,否则不独立。 通常独不独立是根据专业知识和经验来判断。 该案例同城选8个采样点,测量大气氮化物含量,这个物质随大气播散,类比如连续型资料,即各采样点含量很难保证独立。
配伍区组设计的优点是什么
双因素设计同时考虑区组因素和处理因素,在确实存在混杂因素的情况下,选择合适的控制措施,可以提高实验效率。
XI. 直线回归和相关
赵耐青
双变量正态分布的资料,样本回归系数b <0,经假设检验 P<0.05,可以认为两变量间呈负相关
首要大前提:针对同一样本,tb=tr,故其P都<0.05。 故两个假设检验都拒绝H0:β=0/ρ=0 故r=b<0
相关系数的假设检验 P >0.05,说明两变量无关系
统计学基于概率论,此处判断不能100%确定。只能说没有足够证据证明其有关系。 就如同两独立样本资料假设检验的结尾,说的是:可认为该样本均数有无统计学意义,在α检验水准下,两总体均数有无差异
|r|越接近 1,两变量间相关关系越密切
直线回归系数的数值表示自变量变动一个单位时因变量的值变动的量
这里需要2个公式。 1. μY|X=α+βX 2. Y =α+βX+ε 由2可知自变量变动一个单位,因变量Y值不一定变动β,还存在随机误差ε。 且可知当X固定时,其对应不同观察对象的观察值Y呈正态分布,其总体均数为μY|X。此时认为X变化1单位,Y平均(Y总体均数)变化β单位。
回归系数越大,两变量的数量关系越密切。
关系越密切是ρ管。 β越大,自变量变1单位,因变量平均改变的量越大
回归和相关的联系中只有同样本tb=tr,不存在b=r
如果相关系数r =1,则一定有SS总=SS回归
区分相关系数和回归系数。 相关系数=1不是斜率,而是相关程度拉满,故此时不存在误差项,回归描述所有。
ρ为总体参数,r是ρ的样本估计值。类似于μ=0,但Xbar不一定=0 而r和b是同方向的。r符号反映正负相关,b反映斜率
一组双变量正态分布资料,用最小二乘法建立回归方程:Yˆ = a1 + b1X ,Xˆ = a2 + b2Y ,计算得到的相关系数为 r =b1b2
b1=LXY/LXX b2=LXY/LYY r=LXY/√LXX*LYY
在线性回归分析中,如果决定系数R²= 0.01,请问:回归分析是否有意义?
R²=SS回归/SS总。 表示通过回归模型能够解释的总变异的部分。 0.01表示回归模型仅能解释1%,故没有意义?
定律:当b ≠ 0 时,相关系数的绝对值越大,Y 与 X 伴随变化的离散程度就越小
在线性回归中,如果所有的样本点均在一条斜率不为0的直线上,请问:回归系数的标准误Sb有什么特点
Pearson相关系数的显著性检验,若结论为不拒绝H0,则认为两变量无关系
认为两变量无关系,即H0假设成立。 假设检验为反证法,着重寻找推翻原假设的证据,而不是支持原假设的证据。 结局只能阐述为认为两变量没有足够的证据证明无相关性
计算列联系数时两随机变量不能为无序分类资料?
false
ρ≠0,意味着X与Y之间因果关系成立
相关关系无法推至因果关系。
lxy可出现负值,而lxx&lyy仅能为正
直线相关系数假设检验自由度为
n-2
积差相关系数的计算要求
X&Y服从双变量正态分布
两组资料进行相关性分析,r0.01,ν1>r1>r0.05,ν1;另一个r2>r0.01,ν2;试问两组资料谁关系更密切?谁计算的tr值更大?
带有P值的r只能说明谁关于相关性的推断更可靠,是统计学概率大小,不能判断哪个r值更大。由于tr根据r值计算故tr大小也无从判断
r、rs、列联系数三者应用条件的区别
线性相关分析基本步骤
线性相关分析中绘制散点图的目的?能否用散点图代替相关系数?
目的: 1.粗略查看两变量有无线性关系 2.看有无异常点 不能替代,散点图不能分析关联性强弱以及判断此相关有无统计学意义
直线相关反映两变量间的相互线性伴随变化关系
什么叫nmd相互线性伴随变化关系? 能不能说人话 "线性相关分析主要考察两个变量伴随变化中的相关程度,相关程度越高相关系数绝对值越接近1"
同组资料中相关分析算出的r越大,则回归分析算出的b也越大
r和b无直接联系。 二者的联系仅仅是正负符号一致(斜率的正负决定了正相关还是负相关)
利用直线回归估计X值所对应的Y值均数置信区间时,增大残差标准差可减小区间长度?
错、 由公式知CI与残差标准差成正比??????????
若直线相关系数r=0,则直线回归的SS残差必等于0
R²=SS回归/SS总=1-SS残差/SS总=r² 可知r=0,SS残差=1?
直线回归中如果自变量X乘以一个不为0或1的常数,其截距和回归系数是否改变?
大前提是直线回归,方程和模型是确定的。 改变的是原始资料中自变量X值统一乘以某数值。推理可知回归的直线相比原直线,仅是X变化一单位时Y变化值的改变,而令X=0时的截距不变。
直线回归方程y^=3.4+1.6X, 则X每增加一个单位,y^相应增加多少
此处考察回归系数的定义。 原方程公式为μY|X=a+βX,此处β定义为X每改变一个单位,Y平均改变的值,“Y平均”可表示为y^,即样本的回归方程。 此处就是1.6 若考察的是Y相应增加多少,由于Y取平均才增加1.6,故Y增加值未知。
如何检验回归直线图示是否正确?
直线段必须过点(X-,Y-)
若横纵坐标无折断号,纵坐标交点应为截距a
直线段在自变量X实测范围内
线性回归模型前提条件
线性
Y总体平均值与自变量X呈线性关系
独立
任意两个观察值相互独立
正态
线性模型误差项εi服从正态分布。
等方差
X在范围内取任何值,Y都有相同的方差。
直线回归与直线相关在资料要求和应用上的区别
直线回归要求因变量Y 服从正态分布,X 是可以精确测量和严格控制的变量,一般称为Ⅰ型回归;直线相关要求两个变量X 、Y 服从双变量正态分布。这种资料若进行回归分析称为Ⅱ型回归。
李晓松
如果两变量X与y之间的相关关系成立,则可以认为x与y之间存在因果关系
相关但难确定因果前后,谁因谁果
Pearson列联系数用于分类变量的关联性分析
?
残差图是残差相对于另一变量的散点图,可以帮助评价回归直线与散点的接近程度
相关系数和回归系数的大小均受变量单位的影响?
?nope
秩相关系数的计算与直线相关系数相似,区别在于计算直线相关系数时用原始数据,而计算秩相关系数时用秩次
用列联系数
配对2x2列联表的相关性分析用Pearson列联系数计算??
列联系数就是配对四格表进行相关性分析
直线相关系数和秩相关系数在应用上有何区别?
直线相关系数主要用来描述两定量变量之间的相关关系;秩相关系数用于等级变量、分布不明确或者无法用均数和标准差描述其分布特征的变量
如果散点图显示两变量无线性关系,该如何处理?
(1) 先进行变量转换,使其呈现线性关系,然后进行直线回归分析。 (2) 直接用原始数据拟合曲线。
在进行相关和回归分析时绘制散点图的用途是什么?
散点图可描述两定量变量之间关联的形式(线性/非线性)、方向以及密切程度;识别离群值。 即初步判断关联形式、关联方向及密切程度、找出离群值
两变量间的相关关系是否等价于因果关系?怎样才能说明两变量间存在因果关系?
相关关系不等价于因果关系。 欲确定两变量间有无因果关系,最有说服力的办法是设计 一个实验。在实验中控制所有混杂变量的效应,固定除X外的其他影响变量后,如果变量Y随变量X值的变化而变化,此时可以认为是X的变化导致了Y的变化,即X和Y之间存在因果关系。
直线回归要求解释变量与反应变量都服从正态分布
一般认为总体中同一X对应的Y近似服从正态分布,总体均数为μY|X.
直线回归分析中Sb的大小反映了回归直线斜率的抽样误差大小
直线回归分析中的Sb源于对β进行假设检验t检验中。 Sb是t检验统计量的分母
直线回归分析中,对同一数据作总体回归系数是否不为0的假设检验,t检验和方差分析 的结果是一致的,且|t|=√F
回归方程的F检验和回归系数的t检验等价。
回归直线的置信带关于回归线中心对称,且在样本均数点(xbar,ybar)处置信带宽度最小
弧形区带中心最窄。
关于直线回归和相关分析的假设检验自由度为什么都是n-2?
因为相关系数需要确定2个参数,相对于有2个限制条件,所以自由度为n-2。 回归分析需要估计斜率和截距2大参数 在统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。
样本回归系数的标准误与残差均方的算术平方根成正比
均方及方差。指离差平方和与自由度之比
Sy,x为回归的残差标准差
Sb为样本回归系数标准误
一组双变量正态分布的资料,既作相关分析,又作回归分析。总体回归系数β是否不为零的假设检验可用
E.以上都可以
A.回归系数t检验
B.回归方差分析
就是回归方程的F检验
C.相关系数t检验
通过检验ρ是否为0也可反映β是否为0
D|r|查相关系数临界值表?
这都能算假设检验?
E.以上都可以
反映y对y^的离散程度的是
Sy,x 为回归的残差标准差
利用回归方程进行统计预测,给定% 时,计算条件总体均数为片的置信区间用到
p154
总结从样本数据判断总体回归关系是否成立的统计方法有哪些?
推断总体中两变量是否存在回归关系,就是对总体回归系数是否不等于0进行统计推断, 可以用回归系数t检验、回归系数的方差分析,总体回归系数的置信区间估计也具有假设检验的 功能。如果资料满足双变量正态分布,相关系数和回归系数的假设检验是等价的,此时还可以用 相关系数t检验或直接用统计量|r|查相关系数临界值表
陈长生
依存关系和相关关系的区别?
依存关系是函数关系,是回归领域 相关关系是指关联性
直线相关系数的统计检验除了计算相应t值,还可以直接查r界值表,Pearon的r或Spearman的rs都可以
关于直线回归和相关分析的假设检验自由度为什么都是n-2?
因为相关系数需要确定2个参数,相对于有2个限制条件,所以自由度为n-2。 回归分析需要估计斜率和截距2大参数 在统计学中,自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。
直线回归和直线相关分析的资料要求
直线回归资料要求要联系到回归方程,在线性回归方程(而非模型)中,因变量是Y的均数,指定X对应的Y服从正态分布,故直线回归要求X可以精确测量和严格控制,在给定X情况下得到的Y服从正态分布
对某样本的相关系数r和0的差别进行假设检验,结果为tr<t0.05/2,n-2;则有
两变量存在直线相关的可能性小于5%?
P是H0实际成立前提下,依据现有样本来拒绝H0的犯错概率 α不仅仅是拒绝实际成立的H0的概率,而应该是拒绝实际成立H0的最大犯错概率,最高风险,是一个参照标准。 P>α,即依据现有样本推断拒绝H0的风险超过标准,过高,故尚不能拒绝H0
繁杂推理
即认为H1成立概率<5%,即H0成立概率>5% 题干反映的是P>α,即P>5% 那么P=H0成立的概率? H0成立的概率不是单独存在的,H0成不成立是需要统计推断的,推断之前H0成立概率未知。推断之后,如果拒绝H0则存在错误判断概率α和正确判断概率1-β 如果接受H0则有错误判断概率β和正确判断概率1-α 故P值并不是H0成立概率,P值仅代表统计量t到尾部那段面积,这段面积是小于α代表的面积的。我们只能说在现有统计量t和规定的α的综合约束下,H0成立前提下计算出的统计量t存在的概率小于α。
就本资料而言,尚不能认为两变量存在直线关系?
表述正确。
研究一种治疗措施和一种病的治愈率的关系,能推断两者
A 关系的推断只能说关系有无显著性统计联系 有无因果还需因果推断??
A.有无统计联系
B.有无因果联系
C.有无直接联系
D.有无间接联系
E.有无实际意义联系
相关系数的t检验适用于检验假设H0:ρ=ρ0
无效假设我们认为无相关,即该样本相关系数r所代表的ρ=0 低级错误
分析三种工种与工人是否患有(或有无)腰背痛之间关系,例数不太少时,可考虑用χ2检验
这里考查的是分类资料的关联性分析。直线回归需要保证Y的正态,也就必须是连续型资料。 秩相关用于非正态的等级,剩下的非正态分类资料就需要χ²检验了。 详见11章:配对四格表资料两种处理效应的关联性分析
分析两个变量的回归关系,如果散点分布呈直线趋势,X增加时Y减少,则可初步判断为
E。 B的表述已经是在做相关系数统计推断的结论了?B应该等价于ρ<0 而题中仅能推断r<0
A. 两变量呈正相关关系
B. 两变量呈负相关关系
C. 两变量无相关关系
D. b>0
E. b<0
Sy,x ?
扣除了x影响后的y变异 当r=1时等价于Sy,x=0 即SS总=SS回归,SS残差=0,所以Sy,x是残差ε^=Y-Y^,Y是直线回归模型中的因变量的实际计算定值,Y^是源于样本估计的直线回归方程,Y^是μY|X的估计值。μY|X是因变量Y的总体均数。 故Sy,x是因变量Y的自身变异,为什么会有自身变异,是由于ε^=Y-Y^的存在,为什么会存在ε^是由于我们估计的回归方程存在局限。而当完美契合时,ε^=0,因变量Y可以完全被X点对点精确计算。
E 巧妙。太巧妙了 熟记下b和r的计算公式,掌握公式的重要性油然而生
B 困了,下班了
方积乾
为什么要求r的计算服从双变量正态分布?
r是可以拿去t检验的。 tr=r-0/Sr 分子本应为r-ρ,但H0要求ρ=0,可知r是需要代入t分布的,故r必须满足正态分布,要想r满足正态,则需要求计算r的X和Y都满足正态。
对于双向有序且属性不同的RxC列联表资料,若分析两个属性之间有无线性相关关系,则须计算的统计量为
Gamma值
对于RxC列联表资料作频数分布的比较与作两变量关联性分析
A.设计不同,统计量一样 两变量关联性分析即列联表配对卡方
A.设计不同,统计量一样
B.两者仅假设不同
C.两者仅结论不同
D.两者的P值不同
E. 两者的检验水准不同
对至少一个变量为无序分类变量的列联表资料作关联性分析可用何系数
列联系数
关于秩相关应用范围的叙述,不正确的是
D. 秩相关适用于单向有序且属性不同的R×C列联表资料
A. 当总体分布型未知时,可用秩相关
B. 当原始数据为等级资料时,可用秩相关
C. 当两变量不服从正态分布时,可用秩相关
D. 秩相关适用于单向有序且属性不同的R×C列联表资料
E. 秩相关对原始变量的分布不作要求
计算r,假设检验得P>0.05,结论认为两变量间无相关
r是直线相关系数。 P>0.05即不拒绝H0:ρ=0,只能说明不存在直线关系。但可能存在非直线关系
调查某地经济收入与某病发病率间的关系,发现收入低的人群,某病的发病率高;收入高的人群,某病的发病率低,两者呈负相关关系。经收集10个乡的资料并计算出积矩相关系数r为负值,作假设检验后P<0.05,结论认为两变量间确有负相关关系,这个结论存在什么问题
收入的高低在这里并未反应为定量变量,而是等级变量。 故应用秩相关
XII. 无序分类资料统计分析
赵耐青
两独立样本检验效能比较上,Fisher优于Pearsonχ²?
Fisher用于小样本量特殊情况。且Fisher检验假定行列合计数固定,即abcd任何一个数确定,其他数都可算出。 此与实际抽样情况有违
配对设计的四格表资料也可以用 Pearson χ² 检验,只是检验效能较低
独立性要求不一且公式也不一样? 官方答案:Pearson卡方检验只能检验行变量与列变量之间的关联性,不能检验配对四格表中的两个率是否相等
χ²分布是一种连续型随机变量的概率分布,因此 Pearsonχ²检验也可用于均数的比较
。。。定量资料不存在频数构成比?卡方是分布类型检验而无能对集中趋势进行推断? 官方:均数比较往往还应考虑消除标准差的影响,如 t 检验,而 Pearson 2 χ p 检验无法完 成此类检验 即按χ²检验的公式,其不能像t检验除以标准差以消除标准差的影响。
对于某个统计方法检验一类资料,当 H0 为真时,拒绝 H0 的概率≤α;当 H0 非真时,检验效能很低,则称该资料统计分析方法的选择是错误的
错。不能认为该资料统计分析方法的选择是错误的,只是所选择的统计方法不够优。
切记四格表分析方法的选择有赖于的是T理论频数,不是实际频数A
对于总合计数 n 为 51 的 5 个样本率比较的 Pearsonχ²检验,其自由度为
ν=k-1-g 4组。由于比较的是样本率,故未有需要算的总体参数,故g=0
为什么检验统计量χ²服从χ²分布?
χ²分布公式
统计量χ²可视为Poisson分布的转化,(X-μ)²/σ²
比较两个独立样本四格表资料,用Pearsonχ²检验,则Pearsonχ²统计量近似服从ν=1的χ²分布
Pearsonχ²终究只是假设检验的检验统计量。只有确实服从χ²分布的才服从χ²分布,对于检验统计量是否服从都是未知的,所以需要统计推断,假设检验。 所以才会有反证法,我们先假设Pearsonχ²所代表的样本分布服从目标分布,所以此时实际与理论频数差异为随机误差,二者差值较小,χ²原公式中的分子部分(Xi-μ)²是来自同一总体的。才可以利用分布概率曲线证伪。 而ν=1此处计算正确。
配对四格表资料中可用Pearsonχ²检验行列因素之间的关联性
两个总体率检验的配对四格表资料用Pearsonχ²检验,设检验水准为α,则犯两类错误的情况为
配对χ²检验/McNemar检验和Pearsonχ²检验的无效假设不一。 无效假设是假设检验的根基,配对χ²检验的无效假设成立时,Pearsonχ²检验统计量并不服从ν=1的χ²分布(虽然计算ν确实=1,但这是配对资料,资料间不独立? P和临界值基于无效假设而成立,无效假设不同时二者的P和临界值是错位的。 故其I类错误概率≠α
RxC列联表的自由度计算
(R-1)*(C-1)
成组设计的四格表资料用χ²检验基本公式和专用公式得出的χ²统计量值是否可以不同?
二公式本质上等价。算出χ²均相等
熟记独立样本和拟合优度χ²检验统计量、独立样本/校正、配对资料/校正的χ²统计量公式
四格表周长合计不变时,若某个格的实际频数有变化,则其理论频数如何变化?
不变。 
为什么两独立样本四格表在特殊情况下需要校正
四格表资料本质上是两个二项分布资料的阳性和阴性数组成。 H0为真且当样本量较大时,二项分布逼近正态,四格表实际频数的抽样分布逼近正态分布,同时得到的χ²检验值也逼近ν=1的χ²分布。 故当样本量充足但理论数<5(较小)时,逼近正态的误差较大(本身四格表为离散资料,χ²和正态为连续分布,之间的鸿沟需要样本量弥补 此时需要做连续性矫正。
两样本率比较的Z检验与Pearsonχ²检验有何异同?
对于双侧的两样本率比较的检验,因为Z²=χ²,故二者等价,都可使用 而对于单侧检验,由于²消磨了正负,故只有Z检验能使用。
RxC表分类及其检验方法的选择
行列因素均为无序分类资料时,可用Pearsonχ²
行列因素均为无序多分类且为反应变量,则按情况选择Pearsonχ²检验或趋势χ²检验
行列因素均为有序多分类资料,选用Spearman相关分析
行列一个为有序分类&反应变量,另一个为无序分类,则可用多组秩和检验或CMHχ²检验
关联性分析χ²与多个频数分布比较的χ²检验设计和意义区别
配对设计确切概率法?????
李晓松
多个样本率间的两两比较,可以采用χ²分割法
行X列表用χ²检验的条件为
理论频数小于5的格子数少于总格子数的1/5且无任一理论频数小于1 区分四格表和列联表检验条件。
多组等级资料的比较采用何方法
不能只记一个秩和。 这里应采用KW秩和
简述χ²检验的主要用途
χ²检验主要用于 两个或多个独立样本率或构成比的比较, 配对设计两样本率的比较, 频数分布的拟合优度检验, 线性趋势检验等。
陈长生
卡方检验自由度计算
分两种,分布拟合检验用ν=k-g-1 列联表检验则是(R-1)*(C-1)
四格表的χ2检验与U检验有何异同?
u检验也称Z检验 相同点: 凡是能用U检验进行的两个率比较的资料,都可用四格表χ2的检验,两者是等价的,即u2 =χ² 不同点: u检验可进行单侧检验,四格表的χ2检验常用于双侧检验。 两个率比较的u检验进一步计算可得到两个率之差的可信区间,并可依据专业知识判断两个率之差有无实际意义;四格表的χ2检验不能进行两个率之差的区间估计。
对四格表资料做χ²检验,如果将四格表的行与列对调,则对调前后的χ²值如何变化?
你再怎么对调他的AT还是那些 虽蠢但新
大样本时,两个样本率的比较可以采用χ2检验,也可以采用u检验。
凡是能用u检验进行的两个率比较的资料(此时列联表自由度为1),都可用四格表χ2的检验,两者是等价的 “大样本怎么玩儿都行”
χ2检验可用于两个样本均数的比较
卡方用于分类资料。你比均数μ、Xbar,公式都带不进去
方积乾
拟合优度检验自由度计算
首先拟合优度检验的资料样式是左侧列分类变量,右侧为A和T两大频数。 根据公式(A-T)²/T,可知有k组分类变量,由于频数总数已知,故最后一组不独立,ν=k-1 这里还加了一个g— 以样本数据估计参数的个数 总公式为ν=k-1-g
XIII. 等级资料统计分析
有序分类资料两样本比较的秩和检验中,如相同秩次过多,应计算校正 Zc 值,校正的结果使
c位于根号内并且位于分母,故其取值为0~1 故Z/√c>Z,由于Zc比Z值更大,此处默认Z值大于0(不严谨),故P减小
按等级分组的资料做秩和检验时,如果用H值而不用校正后的HC.值,则会
会把来自不同总体的样本差异推断为无统计学意义
反应变量为有序多分类的多组资料比较统计分析首选Pearsonχ²检验
首先Pearson卡方首选用于行列(两因素)均为无序分类资料,或无序分类反应变量。 等级资料不用χ²,用秩和检验
比较某两种药物的有效率,在样本量较大时可用Pearsonχ²p检验
为什么Pearson卡方要求大样本?? Pearsonχ²其实就是最一般的χ²,即最具普适性质的要求N≥40,T≥5的χ²检验。用于检验独立样本RxC列联表,并不只适用于2x2四格表。 而当条件不满足时,才使用Yates卡方或Fisher,或不独立配对样本的McNemarχ²
比较某两种药物治疗疼痛的疗效,把疼痛分为无、轻、中、重4个等级,可考虑使用Wilcoxon秩和检验
对的。两独立样本等级资料采用Wilcoxon,就如同两独立样本定量资料不满足t检验要求时采用Wilcoxon秩和一样。 多样本等级资料用Kruskal Wallis, 两样本等级资料相关性采用Spearman秩和检验
双变量等级资料相关性分析可进行秩变换后计算Pearson线性相关系数e
正确 Spearman等级相关系数公式与Pearson相关系数一致,但是代入的是秩次而非原始数据
秩和检验不同于秩变换的统计方法?
秩变换是编秩结束后将秩次数据代入对应的t检验或方差分析等公式进行统计分析。(t检验或方差原本是带入原始数据,但这里却代入秩次 而秩和检验则是直接用秩次进行假设检验
XIV. 生存分析
赵耐青
未发生失效事件而停止观察的生存时间叫终检?
结局事件总是用两分类变量定义的
凡生存数据均可画生存曲线,并可求出中位生存时间
存在大量失访的截尾数据无法计算中位生存时间
如何理解中位生存时间?
是累积生存概率0.5时对应的时间点。 强调的是概率,生存期超过该时点的概率为0.5,不能说生存期超过该时点的对象占50%
生存分析有几个结果变量?
生存时间t和生存结局
李晓松
生存分析中的效应变量包括
生存结局&生存时间
所有观察对象必须在同一时间点开始随访,否则不能进行生存分析
生存时间的分布通常不服从正态分布,而呈现偏态分布
通常呈右偏态?
在随访结束时未出现感兴趣的终点事件,这种删失类型为右删失
censor即删失,同终审
寿命表法主要用于小样本生存资料的生存率估计
寿命表适用于大样本或无法准确得知研究结果出现时间的资料
Log-rank检验的检验统计量为χ²统计量,因此log-rank检验和卡方检验均可用于两组或多组生存率比较的假设检验
生存率比较,其资料一般不能满足参数检验条件
生存分析资料通常含有删失数据,但删失率不宜过大,且删失的模式应是随机的
多组生存率比较时,若分组变量是等级变量,经log-rank检验后若组间生存率有统计学意义,还可进行趋势检验,分析生存率是否随分组等级而变化
√
Log-rank检验可用于比较两条生存曲线上某个时间点处的生存率差异
×
KM法和寿命表法描述生存曲线时如何定位中位生存时间
生存率S(t)表示过了该时点t之后仍存活的概率。 KM中即t之后生存率 寿命表是区段上限过t之后生存率
删失的类型有几种,分别是什么?
删失的类型有3种,分别是左删失、右删失和区间删失。如果只知道感兴趣终点事件会在目前知晓时间(如截止时间、失访时间、死于其他疾病时间)之前发生,则称为左删失;如果只知道感兴趣终点事件会在某一区间内发生,则称为区间删失;如果只知道感兴趣终点事件会在知晓时间之后发生,则称为右删失。
请简述生存概率与生存率的联系与区别
生存概率是指单位时段开始时存活的个体,到该时段结束时仍存活的可能性,(即这个时段是可以有死亡病例的,1-q=p 而生存率是表示观察对象活过k个单位时段的概率。生存概率是单个时段的结果,生存率实质上是累积生存概率,是多个时段的累积结果
方积乾
下列不属于非参数统计方法的是
只有F检验是参数检验(方差分析 log-rank从名字来看就用了rank秩次
A.秩和检验
B. F检验
D. spearman 相关
C. log-rank 检验
E.χ² 检验
生存分析的自变量和因变量?
自变量是研究因素,导致个体生存率下降的因素。 因变量即是该研究因素所导致的生存时间变化和结局变量
KM分析法是参数分析法
KM分析法无需对对象资料作任何假设,故非参数分析法
寿命表法为什么只适合大样本资料,KM为什么又大小均宜
KM属于是死一个就时点记录下生存率,估计得是每一个死亡时点的生存率,故在没有新死亡之前,KM曲线持平。 而寿命表按时段分横坐标,均匀分段,该段内具体的死亡和失访时点未知,故按平均估计,故寿命表曲线两点间为线性。 寿命表存在概率估计(假设失访和死亡时点均匀),故样本量越大随机误差越小。故适用于大样本 KM逐一分析每个死亡时点,故大小皆宜。
log-rank检验可以处理删失值,所以生存时间的单位不必非常精确
为非参数检验,对资料的分布基本没有要求,但要求每组均含有失效事件发生的观察对象资料。
陈长生
生存资料的主要特点
含有删失数据、生存时间的分布不服从正态分布
生存分析的主要用途
估计:根据样本生存资料估计总体生存率及其他生存指标,常用KM和寿命表法估计 比较:logrank用于多组生存率的整体比较 影响因素分析:用Cox回归模型 预测:对不同因素水平的个体进行生存预测,借助Cox回归模型
观察某病患者经某药物诱导缓解后的缓解时间,其起始事件和终点事件是
缓解、复发
乘积极限法适用于大样本分组资料
分组就像是寿命表适用的分了组段的。 乘积极限法所适用的资料不存在分组,表按个体排序
年生存概率指年初尚存人口活满一年的可能性,三年生存率指观察对象活满三年的可能性
true
log-rank检验中,各组实际死亡数之和必等于理论死亡数之和
陈长生262笔记推导易得。
XV. 单样本与总体比较的统计分析
时于样本量很大时,已知总体率为π0,样本量所对应的总体率为π(未知),则单样本率的检验统计量Z近似服从标准正态分布
考查点与以往课后习题一致,问统计量Z是否近似服从标准正态分布。 Z本身是标准正态分布的服从变量,Z本身属于标准正态分布,但统计量Z不同,我们利用分布作为枢函数检验样本与总体的差别,借用假设检验法为反证法,必须建立在H0:假设统计量Z确实近似服从标准正态,故其假设前提H0很重要
在单样本率的统计检验中,α =0.05,P = 0.001 ,则可以认为这是一个小概率事件
“这是一个小概率事件”,指代不明。 假设检验有H0和H1,由于α的存在,后续检验都以H0为前提。 但该题中没有说明P的由来,若按正常流程,即H0为真计算统计量得到对应P,则可认为检验统计量绝对值大于其对应界值是一个小概率事件。若P是以H1为前提得出的,则结论相反。
如果卫生监督部门的法规规定:合格的饮用水要求 1 毫升饮用水中,细菌总数不得超过100 个,即:可以理解 1 毫升合格饮用水中的平均细菌数总数不能超过 100 个。
卫生监督部门的法规规定就是针对样品中的细菌总数而言的,不是针对总体平 均数而言的,事实上制定合格饮用水的样品细菌总数的标准也是为了控制细菌总数的总体 均数在某个范围内的目标。为了法规执行方便,通过计算样品中的细菌总数在某个范围内 才能以一定概率(如 95%)保证控制细菌总数的总体均数在预定的范围内。 即规定了CI区间上限?
对于单样本率的检验,确切概率法检验的准确性要优于正态近似的检验方法
对,单样本确切概率法的计算完全符合其背景,所以确切概率法所计算的 P 值是准确 的。 ??
对同一资料,使用双侧检验所得的 P 值一定是单侧检验的两倍
要看所使用的枢函数分布是否对称。
对于样本量较小时,单个样本定量资料平均水平的检验应当首先考虑使用 Wilcoxon 符号秩检验
平均水平的检验? 正常情况下单样本均数比较不用wilcoxon,而用t检验,因为均数Xbar秩和检验无法利用。 考查中位数百分位数时可用Wilcoxon,其优先度高于二项分布检验,但若满足t检验要求则首选t检验。
采用近似正态法对样本率P进行检验时,若H0 确实不成立,当样本含量一定时,检验效能仅受π−π0的影响
检验效能不仅受π −π 0 差异大小的影响,还与π 0 大小有关,在固定样本量和π −π 0 差异 大小的情况下,π0越接近 0.5,检验效能越低,反之检验效能越高。 总体间实际差异越大,检验效能越高。 由于近似正态法要求π的估计值P:P和1-P都不太小,故要求P尽可能接近0.5,若π0也接近0.5
12.22 22:20
已知某药的治愈率为 70%,现欲研究在用此药的同时加用维生素 C 是否有增效的作用, 某医生抽取 10 名病人试用此药加用维生素 C,结果 9 人治愈,则假设检验的 P 值为
P(X=9)+P(X=10) 此处为单侧检验,确定拒绝域要加上更偏离当前H0的样本取值,此处H0假设为加用 VC后疗效没有增加,同样为70%,此处H1为>0.7,单侧检验的确切概率法要加上更接近于H1的累积概率
若需检验样本所在总体的75%分位数是否等于常数θ75,令p为样本数据中大于或等于 θ75 的比例,则检验统计量的表达式为
 考查百分位数比较的检验统计量中π0的含义, H0为π=π0 π是p的估计值,p是检验样本中观察值大于已知常数θ0的频率,即p=1-θ0
XVI. 卫生统计常用指标
李晓松
负担系数又称抚养系数,是指人口中非劳动年龄人数与总人口数之比
负担系数分母是劳动人群
人口金字塔是将人口的性别、年龄分组数据,以年龄为纵轴,以年龄构成比为横轴,按左侧为男、右侧为女绘制的直方图
√。将年龄性别结合起来表示人口结构
某地某年5岁以下儿童死亡率,是指某地某年5岁以下儿童死亡数与该地该年5岁以下儿童平均人口数之比
child mortality under age5是IMR的替代(许多发展中国家IMR资料不准确 二者的分母都是某年活产数
出生率是指某地某年平均每千人口中的活产婴儿数,总生育率则是指某地某年平均每千妇女中的活产婴儿数
为什么错
IMR定义
分母为某年活产数,分子为同年不满1岁的婴儿死亡数。 28d以内为新生儿,婴儿1岁以内,幼儿3岁以内
孕产妇死亡定义
妇女在妊娠期至产后42天以内,由于任何与妊娠有关的原因所致的死亡称为孕产妇死亡,但不包括意外事故死亡
进行死亡统计时,必须按根本死因进行死因归类
某病病死率增加,则该病死亡率必增加
前者是病中病死 后者是平均人口中该病病死 死亡率=病死率*发病率。发病率降低的话死亡人数有限
总再生育率等于女婴占出生婴儿的构成比与总生育率之积
应该乘以总和生育率
甲地总生育率高于乙地,则甲地总和生育率也高于乙地
总和生育率涵盖各年龄段 总和生育率=各岁组生育率之和
平均就诊次数指某地某年平均每人的门诊诊疗次数
false 平均就诊次数 = 年末总诊疗人次数/年末常住人口数
死胎是指临产前存活,在生产过程中死亡的胎儿
临产前存活,生产过程中死亡是死产。 死胎是临产前即死亡
以下哪个指标可反映疾病危害居民生命健康严重程度
E.某病死亡率 涵盖了发病率和病死率,只看病死率的话发病率可能很低,威胁并不大
A,某病病死率
B-某病治愈率
C-某病生存率
D.某病发病率
E.某病死亡率
孕产妇死亡率计算
分母是活产数。 每活产多少个孩子死一个孕妇
围生儿死亡率计算?
分母不单是活产数了
自然增长率可反映人口再生育水平
产后访视率反映卫生服务水平
围生儿死亡率反映孕妇保健水平
XVII. 秩和检验
赵耐青
完全随机设计两样本比较的秩和检验中,遇到相同数据在同一组时,可求平均秩次也可不求,但要按相同秩校正
相同秩校正? 总之同一组遇到同数据可以直接编n,n+1;效果和求平均秩次一样
成组非参数检验对资料没有严格要求,所以进行两组数值比较时可以直接使用秩和检验
再怎么没要求也要求两资料独立。 大前提毕竟是两独立样本定量资料的统计分析
等级资料秩和检验中用H而不用校正后的Hc值会降低检验效能
完全随机设计两独立样本比较秩和检验的H0为真时的意义为
浅表意义即两份资料所代表的总体分布相同。 深层含义指两份资料的秩和检验统计量T,都接近一个理论值,(注意不是二者T1和T2接近,而是二者都分别接近各自的一个理论值。) 由于存在两个T,故一般定义n较小的那一组的T1作为统计量T, 与其理论值n1(N+1)/2应该相差不大,否则H0不成立。
非参数检验的基本思想?
一组数据最基本的信息是次序,排序编秩得到每个数值在整个数据中的相应位置和次序,即“秩”。
等级资料为什么不能用χ²检验而需要用秩和?
前者只能回答率在组间的构成比有无差别,而无法判断组间的平均率有无大小差异
对于同一资料,参数和非参数检验结果不一致,该如何是好?
此时应结合数据的分布特征进行判断。 即符合参数检验要求的,就以参数检验结果为准(废话?)
李晓松
秩和检验有哪些类型/秩和检验家族
单样本秩和检验:Wilcoxon Signed Rank Test
两独立样本:
Mann-Whitney Test
Wilcoxon Rank Sum Test
二者等价?
配对样本:
Wilcoxon Signed Rank Test 和单样本相同的方法
Fisher Sign Test
多组独立样本:
Kruskal-Wallis Test
随机区组设计:
Friedman test
等级资料
两样本
Wilcoxon
多样本
K-W
相关分析
Spearman等级相关
在配对符号秩和检验中,对两个或多个相同差值编秩时,可以不算平均秩次
赵书不够清楚。 差值0的秩次直接不计。差值非零异号要计算平均秩次,差值非零同号按顺序编秩。
为什么配对秩和差值为0舍去不计?为什么同号等值按顺序编秩?
秩和检验的检验效能和样本量有关,样本量越大,检验效能越大?
yes but dont know why 1-β影响因素估计是通用
多个独立样本定量变量经秩和检验拒绝H0时,还需要作两两比较
K-W检验的检验假设仅仅是多个样本的总体分布是否一致 不包含两两比较
非参数检验方法有很多,秩和检验是其中一类方法
废话。 曼-惠特尼U检验:Mann-Whitney U Test K-S检验:Kolmogorov-Smirnov 检验 符号检验法:the sign test 维尔克松(Wilcoxon)T检验,也翻译为威尔科克森符合秩次检验:Wilcoxon signed-rank test 克瓦氏(Kruskal-Wallis)单向等级方差分析,简称为H检验 中位值(Median)检验 弗里德曼(Friedman)双向等级方差分析 游程检验:the runs test
关于什么时候取平均秩次?
数据相同时取平均秩次。无论组内还是不同组 不同组同数据如果按顺序编秩明显不对,影响二者秩次比较 同组相同数据取平均秩次或不取,效果等价
配对设计的WilCoXOn符号秩和检验时两组数据混合编秩
做了差值之后才编秩,这时候只有一组数据了
陈长生
在进行Wilcoxon符号秩检验时, 备择假设(双侧)应为
首先应用Wilcoxon检验的情况有多种。 单样本检验、两独立样本、配对、等级两样本 其中两独立样本检验有别称:Wilcoxon-Mann-Whitney Test(包括等级两独立样本) 单样本秩和本质与配对一致,都运用了差值,有正负,故才成为符号秩和检验。 选项没有单样本情况,符号秩和应针对配对资料——E
A. H1:两样本对应的总体均数不同
B. H1 :样本的差数应来自均数为0的非正态总体
C. H1:两样本对应的总体分布不同
D. H1:两样本的中位数不同
E. H1 :差值的总体中位数不为0
Friedman检验原理?
首先它是运用于随机区组资料的,有处理因素和区组因素两类 其次它忽略了区组间的变异——这个意为各区组内部秩次和相等 所以它在每个区组内部编秩,每个区组内部都对应了数个处理因素下的数值 
等级资料两样本比较的秩和检验,使用正态近似法在计算Z值时,如相同秩次过多,应计算校正Zc值,校正的结果使
“值增加,P值减小
XVIII. 方差分析
陈长生
完全随机设计方差分析中
D. F值不可能是负数 只考虑随机误差时MS组间=MS组内,所以考虑处理因素后MS组间>MS组内,如果,如果H1成立,各组代表的总体处理效应趋于一致,此时F接近1 所以C也是正确的 至于AB,SS受自由度影响,SS比较没有意义? --------------------- 新的更正 根据附表中的方差分析F分布,可知F分布以ν为横轴,F值为纵轴,其F值经过原点0。故MS组内和MS组间大小不定,可大可小,由此可推SS之间也可大可小
A.组间SS不会小于组内SS
B.组内SS不会小于组间SS
C. 组间MS不会小于组内MS
D. F值不可能是负数
E. F值可能是负数
q检验中,q 值与P值的关系为
q值越大则P值越小
关于方差分析为什么要求正态性和方差齐性、独立性和随机性
正态性和方差齐性
正态性是源于,服从Z的变量²后,其服从χ²分布。所以服从χ²分布的变量是源于正态Z分布的,非正态变量²后不能服从χ²。 由于χ²也是抽样分布,故用Xbar替代,样本统计量代替之后自由度从ν变为ν-1,可从最开始的Z²公式转为 (n-1)S²/σ²,这个服从χ²——(n-1) 之后从两正态样本抽样,二者的χ²/ν,即S²/σ²的比值——S1²/S2²的比值服从F分布,这里如果方差不齐,即两样本代表的总体σ不等,不能够通过χ²/ν约掉(n-1)
独立性和随机性
随机性保证了样本是随机抽样,可以充分代表反映总体分布。 独立性保证了所比较的两个资料变量不相关,相关可以联系到直线相关分析, 两变量相关的话,其资料中变量值存在联系,所求的统计指标存在类同。直接统计推断会受到蒙骗
两因素析因设计方差分析中的SS关系
. SS总 = SSA + SSB + SSAB + SSE
重复测量资料的方差分析中,有
ν总=ν受试对象间+ ν受试对象内
方差分析不能用于
E
A.多个样本均数的比较
B.两个样本均数的比较
C.回归系数的假设检验
D. 两个样本方差的比较
E.两个样本频率的比较
随机区组设计的资料用完全随机方差分析处理会降低检验效率
区组减少了混杂因素,一般情况下确实提高检验效率
重复测量资料方差分析中如果不存在交互作用,分析某一个因素的作用时只需分析该因素的主效应
随便记下就行。761不包含重复资料的分析
Bartlett法可用于多个方差的齐性检验,其检验统计量为χ²值
Bartlett和Levene都适用于多个样本方差的检验。 后者统计量为F,前者为χ²
方积乾
方差分析基本思想
有且仅有那一个:变异分解。
方差分析变异各成分的自由度计算
前提是理解清楚各变异怎么算的。 总变异,所有观察值与总体均数差值的累加,已知总体均数已知,故算到还剩最后一个时即便最后一个观察值未知也能算出,故自由度为N-1 组间变异,求的是各组均数与总体均数的差值的累加,总体均数同样已知,故ν=g-1 组内变异,各组内各观察值与其对应组均数的累加,这个特殊一些,每一组中最后一个算的值都不独立,故为N-g 总结就是a-b,a是算了多少个差值,b是其中有多少个不独立值。
在相同自由度(ν1,ν2)及F值时,方差齐性检验与方差分析所得的P值大
同自由度即F分布相同,同F值但由于方差齐性检验是双侧所以是2倍方差分析的P值? 注意P值是比当前统计量更极端的值。 什么破题
在相同自由度(ν1,ν2)及α水准时,方差分析界值比方差齐性检验界值小
看附表图。 方差分析是单侧界值,而方差齐性检验是双侧界值。 同自由度即F分布曲线相同,同α即总拒绝域面积相同,单侧检验单边拒绝域面积肯定大于双侧检验单边拒绝域面积。且方差分析界值只有右侧,其面积更大故界值更靠左更小
方差分析双侧检验单侧界值,方差齐性双侧检验双侧界值