导图社区 医学统计学知识点网络结构
这是一篇关于医学统计学知识点网络结构的思维导图,有学医的小伙伴,对医学统计学还不是特别熟悉的,可以收藏起来哦
编辑于2022-05-08 18:59:12医学统计学
计量资料的统计推断
均数的抽样分布与标准误
抽样误差:由个体变异产生的、抽样造成的样本统计量与总体参数的差别。(抽样误差是不可避免的)
抽样误差的分布规律:(中心极限定理)从任意总体中随机抽样,当样本含量足够大时,样本均数近似服从正态分布。
标准误
均数的标准误:为了区别个体观察值之间变异的标准差与反映本均数之间变异的标准差,将后者称为均数的标准误。 总体标准差未知时,用样本标准差S估计
率的标准误:样本率的标准差称为率的标准误,可用来描述样本率抽样误差的大小。(率的标准误越小,则率的抽样误差越小) 总体率未知,用样本率p来估计
标准差与标准误的区别(当n不变,标准差越大,标准误越大)
t分布
t分布的图形与特征
t分布是一簇曲线
由自由度n决定
n越小,t分布越分散,t分布的峰部越矮尾部越翘
当n→¥时,t分布逼近Z分布
单峰分布,以0为中心,左右对称
t界值特点
参数估计
参数估计指由样本统计量估计总体参数
点估计:使用单一的数值直接作为总体参数的估计值。(没有考虑抽样误差,无法评价其可靠程度)
区间估计
指按预先给定的概率(1-α),计算出一个区间,使它能够包含未知的总体参数。
可信区间:事先给定的概率1-α称为可信度(通常取0.95或0.99),计算得到的区间
准确度:用可信度(1-α)表示,即区间包含总体均数的理论概率大小
精确度:即区间的宽度,愈窄愈好
总体均数可信区间估计
总体率的区间估计
小样本率的区间估计
大样本率的区间估计
两总体率差值的区间估计
两总体均数差值的区间估计
假设检验
基本原理:是利用小概率反证法思想,从问题的对立面(Ho)出发间接判断要解决的问题(H1)是否成立。然后在Ho成立的条件下计算检验统计量,最后获得P值来判断。
基本步骤
建立假设(Ho、H1)和确定检验水准α (一般α=0.05)
选择检验方法和计算检验统计量
根据P值做出统计推断
假设检验中的两类错误
Ⅰ类错误和Ⅱ类错误
Ⅰ类错误:拒绝了实际成立的Ho,即“弃真”,“假阳性错误”,概率大小为α。相应推断正确的可能性为1-α(可信度)
Ⅱ类错误:没有拒绝实际不成立的Ho,即“存伪”,“假阴性错误”,概率大小为β,1-β(把握度,检验效能)
α越小,β越大 同时减小α和β,唯一方法是增加样本量n
检验效能:指当不同总体间确实有差别时,按规定的检验水准α能发现其差别的概率,其值为1-β
t检验
单样本t检验
适用于来自正态分布的某个样本均数X与已知总体均数μ的比较
自由度
配对样本均数t检验
适用于配对设计的计量资料
配对设计类型
同源配对:同一受试对象或同一标本的两个部分分别接受两种不同的处理
异源配对:两同质受试对象分别接受两种不同的处理
自由度
两独立样本均数t检验
适用于完全随机设计两样本均数的比较
条件
独立性:观察值之间是互相独立的
资料来自正态分布
两总体方差相等,即方差齐性相等
自由度
假设检验的注意事项
严谨的研究设计(假设检验结论正确的前提)
检验方法的选用及其适用条件
双侧检验与单侧检验的选择
假设检验的结论不能绝对化(概率性)
正确理解P值的统计意义
正确理解专业结论与统计结论的区别
统计结论有意义,专业结论无意义,可能由于样本含量太大或设计不合理造成,那么最终结论就无意义;
统计结论无意义,专业结论有意义,则可能由于样本量较小或误差过大造成。
可信区间与假设检验的区别和联系
可信区间进行量的推断,用界值估计区间,说明总体均数所在的范围(定量)
假设检验进行质的推断,用界值判断P值大小,进而推动总体均数是否不同(定性)
定性数据的统计描述
常用相对数
率
表示在一定空间和时间范围内某现象的发生数与可能发生的总数之比,说明某现象出现的强度或频率
构成比
表示某事物内部各组成部分在整体中所占的比重,常以百分数表示
相对比
是A和B两个有关联指标值之比,用以描述两者的对比水平,说明A是B的若干倍,通常用倍数表示。
两类别例数之比:如男女性别比
相对危险度RR:反映暴露组发病或死亡的危险是非暴露组的多少倍,说明疾病与暴露之间的关联强度RR=暴露组发病率/非暴露组发病率
比数比OR:反映疾病与暴露因素之间的关联强度(P1病例组暴露比例,P0对照组)
标准化率
在比较两不同人群的患病率、发病率等资料时,为消除其内部构成(如年龄、性别、工龄等)对率的影响,可使用
医学中常用的相对数指标
死亡率
发病率
患病率
病死率
治愈率
x²检验
四格表资料的x²检验
配对四格表资料的x²检验
一般用于样本含量不太大的资料
配对设计的四格表x²资料只能用配对的x²检验,不能随意转化为两组独立样本的x²检验
RXC表资料的x²检验
正态分布与医学参考范围
正态分布
正态分布曲线的特征
非负性
单峰性(X=μ为中心,左右对称);有一个最高点(X=μ±σ处有拐点)
对称性
由两个参数决定:位置参数μ(只变μ,曲线沿X轴平行移动)和形状参数σ(σ越小曲线越瘦高)
正态分布是一个分布族
曲线下面积的分布有一定的规律
标准正态分布
对于任意一个服从N(μ,σ²)分布的随机变量X,经z转换为μ=0和σ=1的标准正态分布
当μ和σ未知时,可用样本均数与标准差S对数据进行标准化
医学参考值范围
指“正常人”的解剖、生理、生化指标等数据大多数个体值的波动范围,通常使用95%参考值范围
第二章 定量数据的统计描述
频数分布
频数表
频数:对一组研究对象进行观察,其变量或指标数出现的次数
频数表:将各变量及相应的频数分组,按组计数列表即可得
频数表的编制步骤
确定组数
通常组数8~15
确定组距
全距即R=Max-Min i(组距)=R/k(组数)
确定组限
不能兼属。如“3.80~”“4.0~”
确定频数
直方图
条段的高度:各组频数 纵轴标度 (必须从0开始)
条段的宽度:各组组距 横轴标度
类型
对称分布
偏态分布
正偏态:集中位置偏向变量小的一侧 均数>中位数
负偏态:集中位置偏向变量大的一侧 均数<中位数
频数分布表和直方图的用途
作为陈述资料的形式,便于进一步分析
便于观察数据的分布类型
集中趋势:变量值集中位置
平均水平指标
离散程度:变量值偏离集中位置。离“中心”位置越远,频数越小
变异水平指标
便于观察数据的分布类型
对称
偏态
便于发现资料中某些远离群体的特大或特小值
当样本量较大时,可用各组段的频率作为概率的估计值
描述集中趋势的统计学指标
算术均数:用于说明一组观察值的平均水平或集中趋势
直接法(n较小):
加权法(n较大):
适用于正态分布/近似正态分布
几何均数G
观察值按倍数关系变化
直接法(n较小):
加权法(n较大):
适用于对数正态分布/等比资料
如抗体滴度、细菌计数、血清凝集效价、某些物质浓度等
中位数和百分位数
中位数M
直接法:观察值从小到大排列
频数表法:
所有资料,特别是偏态分布
百分位数
位置指标,中位数为第50百分位数,用P50表示
可用于任何频数分布的资料,尤偏态分布
描述变异程度的统计学指标
极差
R=Max-Min 极差越大则变异程度越大
适合任何资料
四分位数间距:
Q=P75-P25 值越大变异程度越大
适用于任何资料,多用于偏态分布资料
方差
方差越大,变异程度越大,均数的代表性越差
对称分布,特别是正态分布
标准差
标准差越大,变异程度越大
适用于对称分布,特别是正态或近似正态分布
变异系数
CV=S/X×100%
是相对比,无单位
适用于单位不同或均数相差悬殊的资料(正态分布)
绪论
医学统计学概念
是关于收集数据、分析数据和有数据得出结论的学科,目的是从随机的数据中探索规律
基本内容
1、统计设计
2、数据整理与核查(收集资料)
完整性
准确性
及时性
3、统计描述(整理)
4、统计推断(分析)
基本概念
同质与变异
同质:指观察单位或研究个体间具有相同或相近的性质,通常要求主要研究指标的影响因素相同或基本相同
观察单位是研究对象的基本单元,即可为一个患者,亦或一份生物样品等
变异:是指同一种测量在总体中不同观察单位或个体之间的差别
变量与数据类型
变量
数据类型
定量数据(计量资料)
(数值型)可用数值大小衡量观察单位不同特征水平的高低。连续型定量数据为有无限可能的值,如身高,体重,血压,温度;离散型只能取正整数,如白细胞计数、家庭成员数,脉搏等
定性数据(计数资料)
观测值是定型的,说明研究对象的品质特征,表现为互不相容的类别或属性。如性别、血型
有序数据(等级资料)
将观察单位按某种属性的不同程度分成等级后分组计数所得的资料
总体与样本
总体指研究对象的全体,通常由所有的同质观察单位或个体组成
样本指从总体中选取的有代表性的一部分观察单位或个体,通常使用随机选取方法得到
有代表性
随机化方法
可靠性(样本量足够)
可比性
误差
非随机误差
系统误差
过失误差
可消除杜绝
随机误差
随机测量误差
抽样误差
只能尽量避免
概率与概率分析
范围:0≤P≤1
习惯上将P≤0.05的事件称为小概率事件。