导图社区 统计学习30天
这是一篇关于统计学习30天的思维导图,主要内容包括:回归建模的基本过程,多因素回归如何自变量筛选,回归的哑变量设置分析,回归分析控制偏倚的过程与报告撰写,利用回归方法控制混杂因素,混杂的基本概念与控制方法,生存分析的统计策略,队列研究基本统计策略,Logistic回归简明教程,病例对照研究的基本统计策略,如何开展多因素线性回归分析,简单线性回归的历史。
编辑于2025-03-02 13:27:43这是一篇关于医学研究的思维导图,主要内容包括:不同研究类型的统计分析策略,医学研究的偏倚和控制,常见科研设计类型,研究目的。
这是一篇关于统计学习30天的思维导图,主要内容包括:回归建模的基本过程,多因素回归如何自变量筛选,回归的哑变量设置分析,回归分析控制偏倚的过程与报告撰写,利用回归方法控制混杂因素,混杂的基本概念与控制方法,生存分析的统计策略,队列研究基本统计策略,Logistic回归简明教程,病例对照研究的基本统计策略,如何开展多因素线性回归分析,简单线性回归的历史。
这是一篇关于独立性肺结节的思维导图,主要内容包括:对策和建议,误诊分析,诊断鉴别诊断,孤立性小结节常见和少见疾病,常用检查方法和优缺点,定义。
社区模板帮助中心,点此进入>>
这是一篇关于医学研究的思维导图,主要内容包括:不同研究类型的统计分析策略,医学研究的偏倚和控制,常见科研设计类型,研究目的。
这是一篇关于统计学习30天的思维导图,主要内容包括:回归建模的基本过程,多因素回归如何自变量筛选,回归的哑变量设置分析,回归分析控制偏倚的过程与报告撰写,利用回归方法控制混杂因素,混杂的基本概念与控制方法,生存分析的统计策略,队列研究基本统计策略,Logistic回归简明教程,病例对照研究的基本统计策略,如何开展多因素线性回归分析,简单线性回归的历史。
这是一篇关于独立性肺结节的思维导图,主要内容包括:对策和建议,误诊分析,诊断鉴别诊断,孤立性小结节常见和少见疾病,常用检查方法和优缺点,定义。
统计学习30天
医学研究类型与统计分析
研究类型
实验性研究
干预性研究:包括随机对照及非随机对照研究
完全随机对照研究RCT
研究对象(随机分配)
试验组(干预组)
有效无效
对照组
有效无效
分为完全随机或者配对随机
复杂随机对照研究
随机区组设计、群随机对照、实效性随机对照
非随机对照研究
无对照、历史对照、无随机化研究
观察性研究(不施加干预)
目的
了解健康的分布与暴露因素的关系
分类
横截面研究
横截面调查(现况调查)
采用一时性调查方法,获得某地人群在某一时点上关于某种疾病及有关因素暴露水平的现况信息,同时探索疾病与暴露因素之间的相关性
病例报告或病例系列分析
病例对照研究(回顾性调查)
病例组/对照组(阳性组/阴性组)
比较发病/阳性事件发生前接触某暴露因素的状况,比较暴露水平的差异性,初步分析因果关系,为确证性研究提供线索
队列研究(前瞻性研究或随访研究)
是对暴露因素不同水平(或不同治疗方法)的对象进行追踪观察,确定其疾病发生(康复、死亡、生存率)情况,从未明确暴露因素(治疗措施)与阳性事件(疾病发生、临床效果)之间的因果关系
比如研究吸烟和肺癌的关系,围绕吸烟、吸烟年限、吸烟种类吸烟方式、每日吸烟量等
文献性研究
文献综述
文献计量分析
荟萃分析(meta)
RCT原则
对照、随机化、重复
医学研究的偏倚和控制
误差
随机误差(不可避免)
分为测量误差和抽样误差
系统误差(偏倚)
由于实验因素或控制条件不严而发生的一种误差,研究过程中加以控制可消除,包括选择偏倚(选择对象)例如:就诊机会偏倚或失访偏倚;信息偏倚、混杂偏倚
不同研究类型的统计策略
实验性研究
RCT研究
分组均衡,混杂偏倚小
统计方法:卡方检验、F检验、t检验、秩和检验
定量数据分析策略
分类数据分析策略
观察性研究
分组不均匀,存在混杂偏倚
统计方法:线性回归、logistic回归、cox回归控制偏倚
观察性研究的统计策略
分组不均衡的统计策略
回归分析的建模方法
统计报告的撰写方法
文献性研究
统计策略要考虑的细致条件
我的研究设计类型是什么
我的结局变量是定性、定量、等级?
如果是定量,是正态还是偏态的?
几个变量,几组;我要比较组别是2组还是多组
我要研究的影响因素是1个还是多个?
分组均衡吗?混杂变量有哪一些?
定量数据统计策略
正态性判定
成组2样本t检验
成组2样本秩和检验
配对t检验
成组多样本方差分析
多重比较方法
成组多样本秩和检验
统计文章策略
分类变量数据统计策略
2组率比较的卡方检验
多组率或构成比比较的卡方检验
等级数据的秩和检验和数据的转换分析技巧
随机对照研究综合案例分析
观察性研究方法
分类
现况调查
病例对照研究
队列研究
主要目的
1、描述和比较疾病的分布(横截面研究)
2、分析疾病致病/预后影响因素(病例对照研究、队列研究)
3、评价预防、控制和治疗效果(队列研究)
主要回归方法
线性回归
研究一个或多个原因对一个定量结果的影响,应用在现况调查和队列研究
Logistic回归
研究一个或多个原因对一个分类结局(主要为二分类)的影响,并计算关联性指标OR值,应用在现况调查、病例对照研究和队列研究
修正Possion回归
研究一个或多个原因对一个分类结局(主要为二分类)的影响,并计算关联性指标RR值,应用在队列研究
COX回归
研究一个或多个原因对一个分类结局对带有时间资料的二分类结局影响,并计算关联性指标HR值,应用在队列研究
现况调查的统计策略
概念
采用一时性调查方法,获得某地人群在某一时点上关于某种疾病及有关因素暴露水平的现况信息,同时探索疾病与暴露因素之间的相关性
统计学方法
1、描述统计
均数+-标准差、中位数(四分位数间距)、率、构成比、相对比
和随机对照试验统计方法使用规则相同:正态的用均数及标准差描述、偏态的用中位数和四分位数间距,分类数据用率和构成比描述
2、总体参数置信区间估计(估计总体)
总体均数95%置信区间、总体率95%置信区间-DAY2-2推文
3、2组或多组人群的差异性分析(人群的“三间”分布与比较-不同空间、不同时间、不同特征人群的比较)
与随机对照试验方法相同-两样本t检验、多样本方差分析、两样本卡方检验、多样本卡方检验、两样本秩和检验、多样本秩和检验
4相关与回归方法(关联性分析)
相关分析(分析关系的有无和大小)
直线相关分析
方法
步骤
1、判断线性趋势-做散点图
数据-图形-图标构建器-选择图库中散点图-将模型数据拖入图表预览-将待观察的连续型变量拖入X轴Y轴,点击确定,在结果输出窗口
2、分析变量的正态性
3、计算r值
4、从样本推断总体,判断相关性的有无及大小
要求数据符合正态分布,出现异常值慎用,P值表示关系的有无,r值表示关系的大小
秩相关分析
回归分析
变量之间不仅存在相关性,也可能存在因果关系
可以通过构建回归方程来拟合变量之间的因果关系
常用的回归模型是线性回归和logistics回归
直线相关分析
步骤
1、判断线性趋势-做散点图
数据-图形-图标构建器-选择图库中散点图-将模型数据拖入图表预览-将待观察的连续型变量拖入X轴Y轴,点击确定,在结果输出窗口
2、分析变量的正态性
3、计算r值
分析-相关-双变量-皮尔逊相关系数
4、从样本推断总体,判断相关性的有无及大小
要求数据符合正态分布,出现异常值慎用,P值表示关系的有无,r值表示关系的大小
秩相关分析
研究对象
偏态或者等级变量的相关
两定量变量至少有一个变量是非正态分布-
两等级变量资料
若双变量有一个是二分类变量或者无序多分类变量,不能用
等级变量可用斯皮尔曼或者肯德尔进行分析,肯德尔只用于等级资料之间的关联性分析
方法
分析-相关-双变量-斯皮尔曼
肯德尔相关系数专用于等级资料变量
简单线性回归的历史和基本方法
线性回归要符合四大条件
线性、独立性、正态性、方差齐性
回归方程不能探讨因果关系,只能去实证结果,从数据上论证因果关系
概念
两个变量存在对应的函数关系。Y=a+bX,其中a为截距,b为斜率,统计学上称为回归系数
方法
1、绘制散点图,了解线性关系
2、计算a和b值,构建回归方程
分析-回归-线性-具体看30天统计学16-2,调整后R方,即决定系数,越接近1说明对真实世界的模拟度越好
3.开展假设检验,分析回归系数的总体参数是否β=0?
P<0.05,说明模型有统计学意义
如何开展多因素线性回归分析
一个因变量和多个自变量的关系
应用条件
线性(用散点图)、独立性、正态性(要求残差符合正态性分布,用残差图分析)、方差齐性(要求残差的方差齐性)
多元回归的分析步骤
1、线性关系描述,二分类变量不要求线性关系
绘制散点图-图形-旧对话框-散点图-矩阵散点图
2、用各变量的数据建立线性回归方程
分析-回归-线性-因变量(如血压)、自变量(如年龄、性别、体重指数-统计-德宾沃森(D-W)-图-Y(ZRESID)、X(ZPRED)、直方图、正态概率图,看Day-17
D-W值在1-3之间,独立性可认为符合,越接近2,越符合独立性
3、对总的方程进行假设检验
4、回归分析应用条件诊断
病例对照研究的基本统计策略
目的
也称回顾性调查,通过比较暴露因素在阳性组和对照组的差异性,初步探讨 发生阳性事件有关的原因,更广义来说,是探讨阳性事件发生的影响因素
步骤
1、统计描述(四格表、频数、频率、均数、标准差)
表格列表-变量、分组、病例组、对照组
2、简单关联性研究方法
差异性分析:常用卡方检验,有差别即相关
四格表资料一般用卡方或者Fisher确切概率法
表格横向列表-变量、分组、病例组、对照组、卡方值/t值、P值
单因素回归分析-logistic回归
线性回归针对定量数据,病例对照研究一般结局是二分类变量,不采用线性回归,一般采用Logistic回归
3、多因素logistic回归分析方法
方程中的变量列表
关联性指标(优势比/比数比 OR)
优势:是指二分类事件中一类事件相对于其对立事件的优势
OR值意义
OR值>1,提示暴露是阳性事件的促进因素
OR值<1,提示暴露是阳性事件的阻碍因素
OR值等于1,提示暴露因素与阳性事件的发生无关联
病例对照研究三大值不可缺
OR值
OR值95%置信区间
P值
Logistic回归简明教程
步骤
分析-回归-二元log回归-选项界面勾选EXP置信区间95%即OR值95%置信区间
模型摘要--2log似然值,该值越小,模型拟合度效果越好
模型系数的Omnibus检验-对模型的成功性进行判断,P<0.05,意味着回归模型被成功构建
方程中的变量表-输出模型中各自变量的偏回归系数B及其标准误,瓦尔德X2、自由度、P值,OR值(即exp(B),OR值95%置信区间
结局事件赋值较高者为阳性事件,如男性较女性冠心病发病风险提高5.24倍,男性促进冠心病发生
统计报告:纳入性别、年龄、心电图等构件多因素logistic回归方程。结果发现:性别对冠心病的影响具有统计学意义(OR=6.24,95%CI 2.5-15.56,P<0.001)
队列研究基本统计策略
定义
又称前瞻性研究或者随访研究,对研究因素不同暴露水平的对象进行追踪观察,确定其疾病发生(康复、死亡、生存等)情况,从而分析暴露因素与阳性事件(疾病发生、临床效果)之间的因果联系,结局资料可以是二分类资料,也可是定量资料
分类
1、前瞻性队列研究
先确定研究对象暴露水平,然后随访各暴露水平人群的健康结局情况
2、回顾性队列研究
在研究开始时已经出现结局的情况下,常回顾性收集关于暴露的历史档案
3、双向性队列研究
历史资料积累的时间太短达不到疾病的潜隐期,需继续观察一段时间以满足研究的要求
方法步骤
进行t检验、F检验、秩和检验、相关分析,评价不同组别随访一段时间后各项数值是否存在差异
进行线性回归,研究定量结局的有关影响因素
计算相对危险度RR
暴露组发病率与非暴露组发病率的比值,表示暴露相对于非暴露组发病的危险程度,如RR=13,表示吸烟者患肺癌的风险为不吸烟者的13倍。
RR检验,P<0.01,吸烟与患肺癌有的关联性有统计学意义
多因素回归分析
队列研究 的回归方法-修正Poisson回归,计算RR值
分析-广义线性模型-广义线性模型,模型类型(泊松对数线性),响应因变量-是否患冠心病,预测变量-因子(分类数据),协变量(定量或等级变量),选项(指定谁是暴露对照)-降序(以赋值最小者为对照,模型-age,类型(主效应),估算-选中稳健估算量,选中为修正泊松回归,不选为普通泊松回归,统计-包括指数参数估算值RR
或者logisitic回归,计算OR值
生存时间资料的结局-COX回归
生存分析的统计策略
概念
一种通过计算研究对象出现阳性事件时间和速率,描述研究对象生存过程、比较生存过程差异性的方法。
截尾值:-数据删失:中途失访、死于其他原因、随访截止
中位生存时间
恰有50%的个体存活对应的时间
方法
1、描述生存过程-Kaplan-Meier
分析-生存分析-Kaplan Meier-时间-观察时间,状态,因子-疗法,定义事件-一般阳性事件标记为1,选项-秩的对数、布雷斯洛,在层之间汇聚,继续-勾选生存时间表、平均值和中位值和中位数生存分析函数,图-生存分析函数(累积生存函数曲线)
生存表
生存时间估计-主要关注Median-中位生存时间
水平间的整体比较
LogRank检验:对随访后期生存差异性更敏感
Breslow检验:对随访早期生存差异性更敏感
如果生存曲线早期差别大,用Breslow,如果晚期差别 大,用LogRank检验
2、生存时间分布的组间比较-LogRank检验
3、评价生存时间影响因素-Cox回归模型
分析-生存分析-COX回归-时间(生存时间),状态,协变量,定义事件-1,选项-Exp的置信区间95%,Omnibus Tests,模型总体评价,-2倍对数似然值,P<0/001,表示模型总体有效,Exp(B)=HR,B为回归系数
统计报告:纳入年龄、性别、术中放疗、占位处、腹膜转移情况等,构建多因素Cox比例风险模型,结果发现:手术时年龄对生存时间的影响具有统计学意义(HR=1.06,95%CI 1.03-1.1,P=0.001),其他变量无统计学意义
混杂的基本概念与控制方法
利用回归方法控制混杂因素
回归分析控制偏倚的过程与报告撰写
回归的哑变量设置分析
多因素回归如何自变量筛选
回归建模的基本过程