导图社区 医学统计学思维导图
这是一篇关于医学统计学的思维导图,梳理了绪论、正态分布、统计设计、统计分析等方面,结构型知识框架方便学习理解!
编辑于2021-09-22 14:22:30医学统计学
统计分析
对变量的分析
变量的描述
指标
定量数据
频数分布
频数表
离散型变量
连续型变量
直方图
描述指标
集中趋势
正态分布
几何均数G
适合于正偏态数据经过对数变换等方法处理后,成正态分布
正偏态:数据的集中位置偏向数值小的一侧。
算术均数
偏态分布
百分位数Px
中位数M
变异程度
正态分布
方差
总体方差ρ2
样本方差S2
标准差
个体与个体之间
变异系数CV
比较计量单位不同的几组数据的离散程度
比较均数相差悬殊的几组资料的离散程度
偏态分布
四分位数间距QL
极差R
上机操作
统计描述指标的输出可通过“ Analyze”→“ Descriptive Statistics”→“ Explore…”实现。选择要进行统计描述的变量,单击按钮“➡️”,将变量选入到“ Dependent List”列表框,点击“ Statistics,在弹出的对话框中选择“ Descriptives”和“ Percentiles”,即可得到计量资料常用的统计描述指标。
定性数据
描述指标
常用相对数
率
表示在一定空间或时间范围内某现象的发生数与可能发生的总数之比
比之和是100%,某一构成部分的增减会影响其他构成部分的增减 而某一部分的率的变化并不影响其他部分率的变化
构成比
表示某事物内部各组成部分在整体中所占的比重
相对比
用来描述两者的对比水平
相对危险度(RR)
反映暴露组发病或死亡的危险是非暴露组的多少倍,说明疾病与暴露之间关联强度
医学中常用的相对数指标
死亡统计指标
死亡率
反映某年某地每千人口中的死亡人数
公式:死亡率=(某年某地死亡人口数/同年该地平均人口人口数)*1000
疾病统计指标
发病率
表示在一定期间内,一定人群中某病新发生的病例出现的频率
公式:某病发病率=(某时期某病新病例数/同期间内平均人口数)*比例基数
患病例
表示某一时点某人群中患某病的频率,通常用来表示病程较长的慢性病的发生或流行情况
公式:某病患病率=(某地某期间某病患病例数/该地同期内平均人口数)*比例基数
病死率
表示某期间内,某病患者中因该病死亡的频率
公式:某病病死率=(某期间内因某病死亡人数/同期该病的患病人数)*100%
治愈率
表示接受治疗的病人中治愈的频率
公式:治愈率=(治愈病人数/接受治疗病人数)*100%
图表
条形图,饼形图,百分条图,线图,直方图,散点图,箱式图,统计地图
上机操作
直方图
点击“Graphs"→" Legacy Dialogs ”→ “Histogram.... ”,选择观测变量XX ,单击按钮“➡️”, 选入到Variable 表框, 点击“Ok ”, 即可。
散点图
点击“Graphs ”→ “Legacy Dialogs ”→" Scatter/dot" ,在弹出的“Scatter;Dot ”对话框中选择“Simple scatter ”, 点击“Define ”。在“Simple Scatterplot ”对话框中, 把指标“YY ”选入“Y Axis ”框、把指标XX ,选入“X Axis ”框,点击“OK ”" 得到。
变量的推断
参数估计
抽样误差
由抽样造成的样本统计量与总体参数之间的差异,来源于个体的变异
标准误
样本与样本均数之间
均数的标准误:
t分布
从Z变换到t分布
特点
单峰对称,其形态和自由度有关,当自由度趋向于无限时,近似标准正态分布。
所以一般求得的标准误可以对照t分布,找到相应的概率,判断发生概率大小。
应用
置信区间
假设检验
率的标准误:
区间分布
假设检验
类型
t检验
类型
单样本
例题步骤
理解
验证样本均数与已知总体均数是否有差异
完全随机设计
例题步骤
理解
检验两样本所来自的两总体的均数是否相等
上机操作
点击“Analyze ”→ “Compare Means ”→ “Independent- Samples T Test…" ,在弹出的对话框左侧的变量列表中单击选择观测指标“XX ”, 单击按钮“→ ”, 将变量选入到“Test var-tablet(s) ”列表中。选中分组变量“YY ”, 单击按钮“➡️”, 将变量选入到“Grouping variable ”框中。单击“Define Groups.…", 在弹出的对话框中, 录入两组的赋值“1 ”和“2 ”。如需输出两均数差的95%可信区间,可以单击“Options…”,设置“ Confidence Interval”为95%,点击Continue”。最后单击“OK"完成。
配对设计
例题步骤
理解
配对设计有两种情况: ① 同源配对: 同一受试对象或同一标本的两个部分随机分配接受两种不同处理; ② 异源配对: 为消除混杂因素的影响, 将两个同质受试对象配对分别接受两种处理, 如把同窝、同性别和体重相近的动物配成一对, 或把同性别,年龄相近及病情相同的病人配成一对, 每对中的个体随机给予不同处理
检验两相关样本所代表的总体均数是否有差别
上机操作
点击“ Analyze”→“ Compare Means”→“ Paired-Samples T Test…”,在弹出的对话框左侧的变量列表中单击选择成对分析的变量“变量A”和“变量B”,单击按钮“➡️”,将变量选入到“ Paired Variable”变量列表中,如需输出差值的总体均数的95%可信区间,单击“Options…",设置“ Confidence Interva”为95%,点击“ Continue”。最后单击“OK"完成。
条件
正态分布
正态检验
图示法——P-P图,Q-Q图等 计算法——W检验,矩法,D检验等
点击“analyze ”→ “Descriptive Statistics ”→ “Explore…" ,在弹出的对话框左侧的变量列表中, 选中观测指标“变量A ”单击按钮“➡️”, 将变量选入到“Dependent List ”列表框中; 将分组变量“XX ”选入到“Factor List ”框中,单击“Pos…",在弹出的对话框中,选中“ Normality plots with tests”,点击“ Continue”。最后单击“OK”完成
方差相等
方差若不相等,采用t` 检验或者进行变量变换
方差齐性检验
方差分析/F检验
类型
完全随机设计
例题步骤
理解
利用差异的思想,把多组样本均数比较转换成组间差异和组内差异的比较
上机操作
点击“ Analyze”→“ Compare Means”→“ne- Way Anova…”,在弹出的对话框左侧的变量列表中单击选择“XX”,单击按钮“→”,将变量选入到 “ Dependent List”中;单击选择分组变量“YY”,单击按钮“→”,将变量选入到“ Factor list”中。然后继续进行多重比较和方差齐性检验。均数间多重比较的实现:单击“ Post Hoc…”,在弹出的对话框中选择多重比较的方法,如LSD,Bonferroni sidak、SNK、 Tukey、 Dunnett等,再点击“ Continue”返回主界面。方差齐性检验的实现:单击“ Options…",在弹出的对话框中选择“ Homogeneity of variance test”,然后单击“ Continue”返回主界面,最后单击“OK”完成。
随机区组设计/配对设计
例题步骤
理解
将样本分组再分别进行不同处理,利用处理组的差异和区组的差异,验证是否存在差异
上机操作
点击“Analyze ”→ “General Linear Model ”→ “Univariate…”,在弹出的对话框中, 将左侧的变量列表中“变量A ”选入到“Dependent Variable" 中; 将变量“处理”和“窝别”选入到“Fixed Factor(s) ”中。单击“Model…”, 在弹出对话框中的“Specify Model ”下选择“Custon ”; “Build term(s) ”中的“Type:" 下选择“Main effects ”", 然后将左侧“Factors& Covariates ”中“处理”和“窝别”选入“Modl ”中; 在“Sum of squares ”" 下选择“Type ”, 选中“Include intercept in Model ”, 然后单击“Continue ”。点击“Post hoc…”, 在“Factor(s) ”选择分组变量“处理”, 单击按钮“→ ”, 将变量选入到“Post hoc tests for: ”中; 在“Equal Variances Assumed ”框中, 选择多重比较的方法, 然后单击“Continue ”,最后点击OK 即可
两两比较
方差分析表
完全随机设计
随机区组设计
条件
正态分布
方差相等
多个样本或多组间的均数比较
X2检验
表的不同决定了abcd 的不同,所以表一定要画好。其次需要对数据加权,就是软件认为输入的数字代表的只是数字,通过加权,要把它变成个数。
类型
多组/列联表资料
完全随机设计
表格
例题步骤
上机操作
操作同于四表格的完全随机设计,需进一步进行两两比较时,可在校正a的基础上,分别对欲比较的两个组进行四格表x2检验
注意事项
如假设检验的结果是拒绝无效假设,只能认为各总体率或构成比之间总的来说有差别,但并不是说它们彼此之间都有差别。如果想进一步了解彼此之间的差别,需将行x 列表分割,再进行χ2 检验
对行x 列表资料的χ2 检验,要求不能有1/5 以上的格子理论数小于5 ,或者不能有一个格子的理论数小于1 ,否则易导致分析偏性。出现这些情况时可采取以下措施:①再可能的情况下再增加样本含量;②从专业上如果允许,可将太小的理论数所在的行或列的实际数与性质相近的邻行中的实际数合并;③删去理论数太小的行和列
公式
n 为总例数,A 为列联表中第i 行和第j 列格子中的实际频数,ni 和nj 分别为相应行和列的周边合计数。R 为行数,C 为列数。
两组/四表格资料
公式需要记忆,自由度等于1
类型
配对设计
例题步骤
表格
上机操作
点击“Analyze ”→ “Descriptive Statistics ”→ “Crosstabs…”实现。在弹出的对话框左侧的变量列表中选中行变量“组别”, 单击按钮“→ ”, 将变量选入到“Row(s) ”列表框中, 将列变量“XX ”选入“Column(s) ”列表框中。点击“Statistics ”, 选择“McNemar ”; 点击“Continue ”。点击“cell ”, 可以根据结果显示的需要, 选择“Observed ”"( 显示四个格子的实际频数) 、“Expected ”( 计算四个格子的理论频数), “Row ”( 显示行百分比) 和Column ”( 显示列百分比) 及“Tota ”( 显示合计的行和列百分比), 点击“Continue ”。最后点击OK 完成
完全随机设计
例题步骤
表格
上机操作
点击“ Analyze”→“ Descriptive Statistics”→“ Crosstabs…”实现。在弹出的对话框左侧的变量列表中选中行变量“组别”,单击按钮“→”,将变量选入到“Row(s)”列表框中,将列变量“XX”选入“ Column(s)”列表框中。点击“ Statistics”,选择“Chi- square ”;点击“ Continue”。点击“cell”,可以根据结果显示的需要,选择“Observed”"(显示四个格子的实际频数)、“ Expected”(计算四个格子的理论频数),“Row”(显示行百分比)和Column”(显示列百分比)及“Tota”(显示合计的行和列百分比),点击“ Continue”。最后点击OK完成
公式的选择
N≥40 且T≥5,用不校正公式计算χ2 值
N≥40 且1≤T<5,用连续性校正χ2 检验
当n<40或T<1时,用四格表资料的 Fisher确切概率法
理解
利用理论频数和实际频数的差异,验证总体有无差别
条件
分类变量
结局无序
用于构成比或率的比较
秩和检验
类型
配对设计
理解
假定两种处理效应相同, 则差值的总体分布对称, 总体中位数为0, 也就是说样本正负秩和绝对值应相近; 反之, 若两种处理效应不同, 则差值总体中位数不为0, 中位数偏离0 越明显, 样本的正负秩和绝对值就会相差越大。
表格
例题步骤
上机操作
点击“ Analyze”→“ Nonparametric Test”→“2 Related Samples…”实现。在弹出的对话框左侧的变量列表中选中分析变量,单击按钮“→”,将变量“XX”和“YY”选入到“Test Pair”变量列表中的“ Variable”和“ Variable2”中。并在“ Test Type”中选择“ Wilcoxon”,单击“OK”完成。
完全随机设计
理解
通过编秩,验证两总体分布位置是否相同
表格
例题步骤
上机操作
点击“Analyze ”→ “Nonparametric Test"→ “2 Independent Samples…" 实现。在弹出的对话框左侧的变量列表中选中分析变量“生存时间”, 单击按钮“➡️”, 将变量选人到“Test Variable List ”列表框中, 将变量“组别”选入到“Grouping Variable ”变量列表中。并点击“Define Groups…", 在弹出的对话框中, 分别在“Group1 ”选框中输入1, 在“Group2 ”选框中输入2, 单击“Continue ”。在“Test Type ”中, 选择“Mann-Whitney U ”,单击“OK ”完成。
条件
分类变量
结局有序,多种适用的非参数检验
相关知识
单双侧
自由度
两类错误
总体步骤
1,建立假设检验,确定检验水准
2,计算检验统计量
3,确定P值,作出统计推断
变量之间的关系
两变量回归
目的是建立直线回归方程
回归方程的估计
步骤
根据数据绘制散点图
计算回归系数和常数项
作出回归直线
理解
回归方程的检验
b≠0 原因:①由于抽样误差引起,总体回归系数β=0 ② 存在回归关系,总体回归系数β ≠0
方法
方差分析
例题步骤
t检验
例题步骤
上机操作
点击“Analyze”→“ Regression”→“ Linear…",在弹出的对话框左侧的变量列表中选中因变量“Y”,单击按钮“➡️”,将因变量选入“ Dependent”;选中自变X”,单击按钮“→”,将自变量选入“ Independent(s)”列表中。单击“ Statistics…",在弹出的对话框中“Regression Coefficient”下选择“ Estimate“ Confidence intervals”分别输出回归系数的相关计量及其95%可信区间;选择“ Model fit”,输出拟合优度检验的相关信息。其中,“ Estimates”和“ Model fit”为默认选项。然后单击“ Continue”。单击“Save…”,在弹出的对话框中“ Prediction Intervals”下选择“Mean”和“ Individual”可分别输出条件均数的95%可信区间和个体值的容许区间。然后单击“ Continue,单击“OK
应用
① 分析两个变量之间是否存在线性数量变化关系
②利用回归方程由自变量X对因变量Y进行预测,必要时可以作区间估计
③利用回归方程进行统计控制,即利用回归方程进行逆运算,通过控制自变量X取值来限定因变量Y在一定范围内波动。
注意事项
作回归分析时, 如果两个有内在联系的变量之间存在因果关系, 则应该以原因变量为X, 以结果变量为Y; 如果变量之间因果关系难以确定, 则应以易于测定或变异较小者为X
在回归分析中, 自变量X 既可以是随机变量( 称为Ⅱ 型回归模型, 两个变量都服从正态分布), 也可以是给定的量( 称为I 型回归模型, 在X 取值固定时Y 服从正态分布) 。如果Y 不服从正态分布或两个变量间呈曲线关系, 则可以通过适当的变量变换使曲线直线化实现参数估计, 或直接根据特定的曲线类型通过最小二乘法实现参数估计。
使用回归方程估计y值时,尽量不要把估计的范围扩大到建立方程时自变量的取值范围外。由于超出样本取值范围,其线性关系是否成立难以判断,故外推应慎重。
两变量相关
目的是找到相关关系
相关系数/Pearson 积差相关系数
相关系数r没有度量衡单位,其取值范围为-1≤r≤1。r>0表示正相关,r<0表示负相关,r=0表示无线性相关,当|r|=1时为完全相关。相关系数的绝对值愈接近1,相关愈密切;相关系数愈接近
检验
例题步骤
上机操作
点击“analyze ”→ “Correlate ”→ “Bivariate…" ,在弹出的对话框左侧的变量列表中选中要分析的变量, 单击按钮“→ ”, 将变量选入到“Variables ”变量列表中,在“Correlation Coefficients ”框中选择“Pearson ”, 表示做线性相关分析。点击OK 完成
区别与联系
对同一资料进行相关与回归分析, 相关系数r 与回归方程中的b 正负号相同, 为正, 说明X 与Y 的数量变化的方向是一致的,X 增大,Y 也增大; 如果符号为负, 说明方向相反
对同一样本可以得出r 与b 互相转化的公式:b=rS/Sx, 即回归系数b 等于相关系数乘以因变量Y 和自变量X 两者标准差的比值。两种假设检验完全等价。
相关系数的计算只适用于两个数值变量都服从正态分布的情形, 而在回归分析中, 因变量是随机变量, 自变量既可以是随机变量(Ⅱ 型回归模型), 也可以是给定的量(I 型回归模型) 。
线性相关表示两个变量之间的相互关系是双向的, 不分主次, 主要关注两个变量是否有一定的线性关系; 线性回归则反映两个变量之间单向的数量变化或依存关系, 更加关注的是自变量能够解释或预测因变量多少, 更适合分析需要探索因果关系的数量变化。
多变量回归分析
用途
多个自变量与一个因变量的关系和精确预测
筛选疾病的危险和保护因素
辅助诊断和统计控制
步骤
收集各自变量数据
计算各偏回归系数估计值,列表并建立回归方程
假设检验
对多变量线性回归方程是否有统计学意义进行检验
?
对方程中各偏回归系数进行检验,判断到底是哪些自变量对因变量有影响
对自变量进行筛选
逐步筛选法
?
写出回归方程
比较各自变量对因变量的影响程度/标准化偏回归系数
绝对值越大,该自变量对因变量的影响越大
回归效果的评价
校正决定系数
越大,模型拟合效果越好
剩余标准差
越小,模型拟合效果越好
上机操作
点击“Analyze ”→ “Regression ”→ “Linear…" ,在弹出的对话框左侧的变量列 表中选中因变量,单击按钮“➡️”, 将变量选入到“Dependent ”框中,选择自变量, 单击按钮“➡️”, 将其放入“Independent 列表中, 在“Method 框中选择自变量方法,SPSS 提供了5 个选项: “Enter ”为全部自变量进入法, 是系统的认值; “Remove ”为消去法; “Forward ”为向前法; “Backward ”为向后法; “Stepwise ”为逐步回归法。点击“Options. ”, 在弹出的对话框中, 选中“Stepping Method Criteria" ”框内的“Use probability of ”分别在“Entry: ”,“Removal: ”后键入纳入和剔除标准, 单击“Continue
变量为二分类资料时
Logistic回归
条件
二项分类资料:结果为A或非A (成功与失败) 。
每次试验的条件不变:每次试验A的发生概率均为π。
各次试验独立:每个观察单位的观察结果不会影响到其他观察单位的结果。
一般形式
?
偏回归系数=优势比OR,偏回归系数>0,OR>1为危险因素;偏回归系数<0,OR<1为保护因素
步骤
收集各自变量的数据
计算偏回归系数等指标,列表并去除OR值的置信区间包含1的自变量,因为其没有统计学意义
偏回归系数假设检验
?
自变量筛选
类似?
上机操作
点击“Analyze ”→ “Regression ”→ “Binary logistic…”,在弹出的对话框左侧的变量列表中选中因变量, 单击按钮“➡️”, 将因变量选入到“Dependent ”栏框中,在弹出的对话框左侧的变量列表中选中所要分析的自变量, 单击按钮“→ ”, 将自变量选入“Covarates" 列表框中。在下方的“Method ”列表中选择“Forward:LR ”, 单击“Categorical…”, 赋哑变量。将需赋哑变量的自变量选入“Categorical Covariates ”列表框中, 在“Change Contrast ”中定义哑变量赋值的对照水平。选择后单击“continues ”, 单击“Options…”, 选择“CI for exp(B):95% ”, 表示输出OR 值及其95% 可信区间。并在“Probability foStepwise ”中键入纳入( Entry:) 和剔除( Removal:) 标准。单击“Continu 最后, 单击“OK ”
统计设计
观察性
横断面研究
病例对照研究
设计原则:患不患病—暴不暴露
要求
病例组:明确诊断,就近发生
对照组:属于产生病例群体中的非病例
特点:由果到因,探寻病因
队列研究
设计原则:暴不暴露—患不患病
要求
形成内外对照
特点:一因多果,验证病因
研究性
动物实验
临床实验
社区干预实验
正态分布
属于连续性随机变量的分布类型
图形特点
单峰对称,均数决定位置,标准差决定形状
面积
任意正态曲线
标准正态曲线
均数为0,标准差为1
查表得
应用
估计总体某范围所占比例
制定医学参考值范围
首先确定单双侧
选择百分界限
实验质量控制
上下警戒限
上下控制限
绪论
总体与样本
参数与统计量
变量
系统误差与随机误差
系统误差由一些固定因素产生,如仪器未进行归零校正、标准试剂校准不好、测量者读取测量值有固定方向的偏差等;另外在临床试验或观察研究中研究对象选择不合适、医生对疗效标准掌握不准等也属于系统误差。其大小通常恒定或按照一定规律变化,具有明确的方向性。这类误差可以通过周密的研究设计和测量过程标准化等措施加以消除或控制。
实际中,产生随机测量误差的主要原因是生物体的自然变异和各种不可预知因素,这种误差往往没有固定的大小和方向,但具有一定的统计规律(如服从正态分布)。随机测量误差不可避免,但可以通过多次测量对真实值进行比较准确的估计。
一类错误与二类错误
抽样方法
随机抽样
系统/等距/机械抽样
分层抽样
整群抽样
误差大小排序:4123