导图社区 临床研究
本思维导图是关于解螺旋课程(结合视频看更好哦)的临床研究内容整合,从上到下内容详细具体,实用性强。
编辑于2021-12-27 19:26:19临床研究
段位1 分金定穴 · 摸
一出好剧
开场白
医生怎么学统计
应用场景
适应症
禁忌症
软件实操
321法则
X 自变量 Y 因变量 Z 协变量
研究人群 研究样本量
研究类型
剧的定义
分类
观察性
分析性研究
队列研究:暴露→结局
病例-对照研究:结局→暴露(不能得出因果关系)
横断面研究
描述性研究
实验性
非随机性研究
随机性研究
预后性研究
预后:指疾病发生后,对将来发展为不同后果(痊愈、复发、恶化、死亡等)的预测或估计,通常用概率表示,如复发率、生存率等
预后研究:是关于疾病发生后出现各种结局概率及其影响因素的研究
能进行预后研究的资料:生存资料
生存资料的核心要素
事件
时间
是否需要考虑时间影响
非生存资料:如果事件只是一个限定词,在deadline之前发生就定义为1,没发生就定义为0,时间只是进行分组的依据
生存资料:需要考虑时间的长短对结局事件的影响,属于预后研究范畴
生存分析的含义在于:对生存时间进行分析的统计技术的总称
生存时间:从某一时间点其到所关心的事件发生的持续时间长度
生存分析的目的:刻画生存时间的分布
生存数据的一个主要特点:可能存在删失
删失的定义:censoring 观察个体终止随访不是由于失效事件发生,二使无法继续随访下去;他们的时间数据并不完整,其观察值称为截尾值会删失,常用符号+表示
删失的分类
左删失:结局事件发生在时间点t之前,但不知其准确时间
右删失:。。。。。。。。。。。之后,。。。。。。。
区间删失:。。。。。。。时间t1与t2之间,。。。。。。
剧的分类
常见分类
回顾性队列研究
前瞻性队列研究
随机性干预性研究
非随机性干预性研究
预后研究分类
基本预后研究
预后因素研究
预测模型研究
分层医学研究
核心要素
PICOS
P population 人群
I intervention 干预
C control 对照
O outcome 结局
S study design 研究设计
PFOT
P population 人群
F factor 预后因素/预测模型等
O outcome 结局
T time 随访时间
PIFOT
P population 人群
I intervention 干预
药物
行为干预
手术
心理干预
精神干预
F factor 预后因素/预测模型等
患者机体情况
疾病本身特点
患者病情
医疗干预措施
医院内感染
家庭、社会因素
O outcome 结局
总体生存期(overall survival)
定义:结局指标是死亡时间,人和原因导致的死亡均计算在内,仅关心是否死亡,不关心何种原因导致的死亡
优点:方便记录,患者死亡日期的确认没有困难,只要研究结果显示生存有提高,就可以认为有临床获益
缺点:随访时间长
无进展生存期(progression free survival)
定义:指疾病经过治疗后,没有进一步恶化的生存期,结局指标是发生恶化或死亡
优点:增加发生恶化这一结局指标,随访时间相应缩短,回应的改善是未恶化与未死亡,可以反映临床获益
缺点:发生恶化有没有明确的标准,因此要求对发生恶化的标准进行明确的定义(发生恶化的定义通常涉及影像学资料如X线、CT、MRI、PET、超声等;生化进展可以根据肿瘤标志物的增加)
无病生存期(disease free survival)
定义:经过治疗后发现肿瘤,结局指标为疾病复发或死亡,同样不关心死因
优点:是临床获益的重要反映,因增加了疾病复发这一节点,随访时间可以缩短
缺点:如何明确定义有无疾病复发
疾病特异生存期(disease special survival)
定义:结局指标改变为有特定疾病导致的死亡
优点:针对性的反映临床获益
缺点:明确何为疾病导致的死亡
T time 随访时间
剧本的奥义
剧本的核心
我是谁
主角
单人出道
F4
成团
配角
他是谁
谁必须在
他从哪来
我在哪(数据的来源)
自己的数据库(原创首发)
别人公开的数据库(他山之石)
倾向匹配得分法(翻拍之术)
我要干啥
主角篇
自报家门
竞争上岗
差异
相关
演员的的诞生
KM曲线(用来描述两组或多组生存率的情况)
时间依赖ROC曲线
单因素Cox回归
多因素Cox回归
连续剧
翻拍
PSM倾向匹配得分法
成团出道
代表人物
火箭少女101(小鲜肉)
乘风破浪的姐姐(明星分子)
流程
海选(筛)
成团(组)
公演(展示 列线图)
评价(验证)
区分度(结局事件和非结局事件区分开来)
校准曲线
DCA决策曲线
模型获益
NRI
IDI
正面交锋
与经典版本的battle
与单飞的自己的battle
新旧模型的battle
世人评说
样本量(样本量是否足够)
检验性能(把握度有多少)
配角篇
只配拥有姓名
一扫而过的露脸
男N号(垫脚石 被比较、被相关、被调整)
最佳配角
赏剧
分类
PICOS重排
P
单个
组合
全部
I C
单个
组合
全部
O
单个
组合
全部
S
限定
全部
花样滑冰
自己数据+三姐妹
SEER数据库+三姐妹
自己数据/SEER数据库+三姐妹+PSM
自己数据+三姐妹+Meta分析
自己数据+三姐妹+生信分析
自己数据+三姐妹+数据集验证
回顾性研究+三姐妹+前瞻性队列/RCT研究
三姐妹
单飞之旅
组合出道
预测模型
选题思路
专业热点和难点
新意十足,紧跟热点
研究难度大
多管齐下
创新性足,数据量大
入门门槛高
移花接木,组合新花样
花样十足,思路无限
工作量大
范水模山
简单粗暴
创新性欠佳,高度受限
赏剧流程
读题猜要素
我是谁
我在哪
我要干啥(主角&配角)
讲课的种类
单飞出道
组合出道
单飞之旅+SEER寻宝
连续剧
单飞出道+PSM
组合出道+PSM
预测模型
段位2 按部就班 · 发
数据清洗
认识数据类型
数据类型
连续型和离散型数据
离散型数据只能用自然数或者整数单位表示,不能有小数点
连续数据可以在一定区间内取任意数
大部分离散型资料的统计描述与连续型资料类似,但也可采用分类资料描述方式
分类数据
有序多分类
无序多分类
区别:顺序的置换是否影响分析
数据类型转换
一般原则:连续资料可以转换为分类资料,但分类资料一般不能转换成连续资料
为何要转换:便于研究分析
转化为分类资料意味着数据信息的损失
切点选择方法
根据专业知识或实际经验;例如BMI、血压、年龄
根据数据分布情况;常见的如四分位间距、中位数
数据与结局的关联情况:广火加法模、ROC、分类树等
异常值识别与处理
逻辑错误:出现不符合常理的值
数据分布异常
借助箱式图
异常值判断标标准:Q3+1.5*IQR或<Q1-1.5*IQR 这个界限在箱式图中隐形存在

借助正态分布图
往往应用在正态分布的数据
a为数据标准差
认为两倍标准差以外的人是异常的
z值代表数据距离均值的“距离”
异常值判断标标准:|z|>2
异常值识别:SPSS具体方法
频数分布法
利用频数分布,查找分类变量的逻辑错误
利用排序,定位到错误个案的位置

选择个案+频数分布
箱式图

z转换

特殊方法(逻辑法)

异常值处理
在数据预处理时,异常值处理方式应视具体情况而定,因为有些异常值可能含有一些有用的信息。
与原档案/调查对象校对——条件允许的情况下一定要这样做
删除含有异常值的记录(个案)——异常值是非常重要的变量,比如分组变量、结局变量
将异常值改为缺失值,缺失值的后续处理见第四节
保留异常值不处理,仅做标记
变量赋值
转换为相同变量


转换为不同变量


计算变量




缺失值处理
缺失值分类
完全随机缺失:缺失的数据与自身以及其他变量都不存在关联,即任何人都有相同的概率在该变量上产生缺失。
随机缺失:缺失的数据与自身无关,但是与其他变量有关;
非随机缺失:缺失的数据与自身变量有关
缺失值处理
资料核查
不处理
个案删除法
可用在样本量大,或者缺失率并不高的情况
简单,后期分析方便
损失样本量;往往不同个案中缺失的变量是不一致的
建议:除非很重要的变量缺失,如研究的暴露因素/结局因素,否则不要轻易删除个案
虚拟变量法
可用在分类变量缺失(肿瘤分级中较常用)

均值/众数填补
可用在定量资料缺失
回归法
可用在缺失变量和其他变量“关系”较为清楚的情况下(不推荐)

多重填补
模拟生成一个缺失数据的随机分布,然后从这一分布中随机抽取数据作为缺失值的填补(推荐)


总结


清洗验证
数据集对比



重复个案识别
如果自己的样本有重复录入的风险建议在数据库刚建成就对重复个案进行识别


数据清洗总结
充分理解研究目的,理解每一个变量名及含义
重复个案查找
变量异常值识别与处理
录入错误→订正
无法解释的异常→缺失处理
缺失数据处理
清洗验证
根据研究目的进行变量赋值转换
统计描述
三线表解读
看图/表说话是写论文的第一步


定量资料描述
回顾:认识数据类型
定量数据
连续型数据
离散型数据
定性数据
二分类数据
无序多分类
有序多分类
正态分布的连续资料
决定正态分布的两个参数:均数、标准差
标准差越大,曲线越扁平,变异度越大
常用的描述方式是:均值 士 标准差
均值
描述连续型变量的集中趋势

标准差SD
描述连续型变量的高故程度

标准误SE
统计的目的:通过样本推断总体。标准误是统计推断中用的参数;
标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标
标准差vs标准误公式比较
是否正态分布
分析-描述-探索


非正态分布的连续资料
中位数(四分位间距)

定性资料描述
二分类资料
只要描述每个类别的频数和率是多少

多分类资料
分类
有序
无序
无论是有序还是无序多分类变量,只需要分别描述出各个类别的频数和率即可
补充:离散型定量资料
离散型连续变量特点:整数
如果所有可能的取值类别很少,就可以直接依据分类变量来处理
例如:术后每日排便次数,可能是0,1,2次,3次以上的较少,可直接变为2

如果取值范围较广,且远离0,可按照连续型定量资料处理,计算均值、标准差,或者中位数、四分位间距
一个培养皿中的细胞计数;
一份量表的评分(范围是0-100分)
各个科室的月门诊量(人)
总结

数据描述可视化
作图神奇graphpad
功能极其强大,作图类型多
可以调整线条粗细、颜色等,美观配色
添加文字注释,图片拼接,清晰导出
简单分析
连续型数据

分类型数据
一般来说,描述性的数据的可视化在论文中不用展示,可以考虑在学位论文中展现
相对来说,差异分析的可视化更为常见,且听下回分解
子主题
统计推断
连续性变量组间差异分析
绪论
统计推断的原理是实际上是一种“反证法”,我们要证明假设是错的,否则假设就可能成立
什么情况下,认为事件是小概率事件
统计学规定<0.05为小概率事件,这是“P<0.05”的来源,但它是一个有争议的界值
P值为:在原假设前提下,发生目前情况的概率为多少
检验水准a=0.05~当P<0.05时,认为差异有统计学意义
差异分析的基本思想
我们要假定两组总体均数/率没有差异,那么通过抽样得到目前的差异的发生概率是否<0.05
若是,则推翻原假设,认为两组间有差异
若否,则不能认为两组间有差异
独立样本t检验
应用条件
两样本组间均数比较
独立性:观察值之间相互独立,取值不能相互影响
正态性:各个样本均来自于正态分布的总体
方差齐:各个样本所在的总体的方差相等
基本原理
原假设:两组间总体均数相等
计算基于现有数据的统计量t值;通过t值及t分布求得P值
若P≤0.05,则拒绝原假设,认为两组间差异县有统计学意义
若P>0.05,则不能拒绝原假设,两组间差异无统计学意义
SPSS操作


整理成三线表
方差分析
应用条件
独立性:观察值之间相互独立,取值不能相互影响
正态性:各个样本均来自于正态分布的总体
方差齐:各个样本所在的总体的方差相等
多组间均数比较
基本原理
原假设:多组间总体均数完全相等
计算基于现有数据的统计量F值;通过F值及F分布求得P值
若P≤0.05,则拒绝原假设,认为组间差异县有统计学意义
若P>0.05,则不能拒绝原假设,组间差异无统计学意义
SPSS操作



得到组间有差异,但不能直接选择t检验进行两两比较
因为两两比较会增加犯类错误的概率
l类错误实际上是:将没有差异的,错误认为有差异;犯错误的概率为a=0.05,与我们设定的“小概率”事件的界值有关
ll类错误实际上是:将有差异的,错误地认为没有差异;犯错误的概率为β
一次方差分析得到的结论,再通过多次两两比较“验证”,实际上是不对的。一次假设检验不犯类错误概率是0.95,那3次两两比较,都不犯类错误的概率是(0.95)3=0.86,这时候总体犯!错误概率为0.14

两两比较方法的选择
如果是证实性研究,“有明确的一个对照组”,推荐使用Dunnett-t检验,再或者LSD-t检验
如果是探索性的两两比较,推荐使用Bonferroni检验,或者SNK法
当两两检验的次数过多,如5组间两两比较,共比较10次,则不适合用Bonferroni检验
秩和检验(非正态数据)
基本原理
推断两个总体分布的位置是否有差别,非参数检验
两样本比较可用Wilcoxon检验、Mann-WhitneyU检验,多样本比较可用Kruskal-Wallis H检验
SPSS操作
分析一非参数检验一独立样本


右边两红框,如果是两组比较选M-W,如果是多组比较选K-W

双击左上的图就能打开右侧的图,下方选成对比较就能看到两两比较的结果
正态转换
通过对原始数据进行数学转换,有可能使其变换后的分布满足或近似满足正态分布的要求
常用的变换方式
对数转换,y=lgx
平方根转换,y=根号下x
倒数变换
Box-Cox变换
分类资料组间差异分析
卡方检验
应用条件
分类资料组间比较
总样本量大于40,单元格期望频数>1,且4/5以上的单元格期望频数大于5
基本原理
假设两组分类变量的分布概率是一样的
计算出理论频数分布
根据理论频数分布与实际频数分布的差距,计算出卡方值X²,并根据卡方分布求得P值
X²越大,说明实际频率与理论频率分布差距较大,P值越小
SPSS操作


Fisher精确概率法
应用条件
分类资料组间比较
总样本量低于40
有单元格期望频数<1,且1/5以上的单元格期望频数小于5
基本原理
利用模拟抽样的方法求得对确切P值的无偏估计
SPSS操作


秩和检验

总结!!!!

相关性分析
pearson相关系数
应用条件
适用于两变量线性相关
双变量正态分布
两变量均为连续变量
相关系数r
其是一个无单位的量值,在-1~1之间
r>0,两变量为正相关,而r<0,说明两变量为负相关
Irl越接近1,说明相关性越好,一般认为>0.6为强相关;0.4-0.6为中等相关;<0.4为弱相关
r也是一个统计量,其需要进行统计检验,才能判定其是否有统计学意义,报告r值时,应同时报告P值或置信区间
SPSS操作



spearman相关系数
Spearman相关,又称秩相关、等级相关系数,原理是利用两变量的秩次大小作为线性相关分析,对原始数据的分布不作要求,较Pearson相关系数应用范围要广
应用场景
探索两个变量相关
如果其中一个变量是等级分类变量
两个变量不满足双变量正态分布
非参数分析方法对信息的利用率要低于参数法,在双变量正态分布满足时,应尽可能用Pearson相关系数分析
相关系数常用p,rho来表示,与Pearson相关系数r略有区别;
SPSS操作

差异分析可视化

分类变量先变成比例再进行作图
生存分析
统计描述
生存时间
生存分析:对“生存时间”数据进行分析,刻画生存时间的分布
生存时间:从某一时刻起,到所关心的“事件”发生的时间
生存分析的最大特点,包含了对“删失(Censor)”数据的处理
删失指的是:在准确时间内未观察到事件的情况

生存概率
最常用的是“Kaplan-Meier法”,简称“K-M法”

SPSS操作


生存率比较
对于两组或多组生存率的比较,最常见的是log-rank检验和Breslow检验


三种方法总结
对于一开始粘在一起,随着时间的推移越来越拉开的生存曲线,用Log- rank法更容易得到有差异结果(也是最常用)
对于一开始相差很大,随着时间推移反而越来越接近的生存曲线,Breslow法更容易得到有差异的结果
Tarone-Ware法介于二者之间
如果是三组及以上,就可选择“成对比较”
Cox比例风险模型
基本概念
Cox回归是一个半参数模型

β为模型的回归系数,β反映的是:当X每增加一个单位,发病风险比原来增加exp(β)倍,即HR(Hazard Ratio,风险比),或RR(Relative Ratio,相对危险度)的概念
当我们在模型中增加一个变呈Xp的时候,意味着我们多考虑了一个协变量,模型也多调整了一个变量,就可以说我们关注的X:与事件发生风险之间的关联,在考虑X。的影响后,仍然独立存在。这就是“协变量”与“独立危险因素”的概念
模型中X与事件风险之间的关联是常数β,意味着β不随时间的变化而变化,即协变量对生存率的影响不随时间的改变而改变
但实际情况下,有些变量的效应呈会随时间的改变而改变;如右图,在22个月前后,两种方案的效果是相反的;这种图形就不适合用Cox比例风险模型进行回归
SPSS操作

注意事项
分清楚结局变量的“事件”发生的赋值是什么
分类变量一定要在“分类”中指定,注意“参考组”的设定;SPSS中只能接受与第一组或最后一组相比
可直接在“绘图”中选择输出生存曲线
时依Cox模型
比例风险假设检验
比例风险假设:协变量对生存率的影响不随时间的改变而改变
比例风险假设是Cox回归模型使用的前提条件;如何进行比例风险假设的检验?
分类变量
K-M生存曲线法:组间曲线交叉提示不满足比例风险假设
累积风险函数图法:组间曲线交叉提示不满足比例风险假设
连续变量
Schoenfeld残差法:残差与时间秩序之间的相关系数如果有统计学差异,则不满足比例风险假定
时依系数法:把不满足比例风险假定的协变量定义为时间依存变量;如果时间依存变量有统计学意义,则倒推认为原变量不满足比例风险假设
外在时依变量Cox模型
基本原理
由:h(x,t)=h(t)exp(ax) 转换为:h(x,t)=h(t)exp(ax+Bxt)
即:在协变量上增加一项,X*t,表示自变量X对生存率影响的时间校正如果β有统计学意义,那么证明这一项存在,那么X就不满足比例风险假定;
这种时间依存协变量的取值不随时间变化而改变,但效应量(RR)随时间的变化而变化,因而成为外在时依变量
一般地,由于t分布往往为偏态,我们采用Ln(t)*X来表示时间校正项
内在时依变量Cox模型
经典文章结果呈现
段位3 巧借外力 · 搬
倾向性评分法
思路解析
研究设计思路

倾向性评分法
本质:一种统计学方法
关键词:非随机对照研究,事后随机化
目的:在研究,尽可能地控制混杂效应,控制偏倚,使混杂因素的影响达到最小
混杂因素:与所研究的暴露因素和研究结局皆相关,但不是暴露-结局的因果关系通路上的中间变量,该因素的存在将歪曲(夸大或缩小)暴露因素和结局的真实关联。
适用条件
资料类型:非随机化研究的资料
研究类型:现况调查、病例对照研究、队列研究、非随机干预研究总结:倾向性评分法本身不能控制混杂,而是通过匹配、分层、或进入回归模型直接调整混杂、加权等方式,不同程度地提高对比组间的均衡性,从而削弱或平衡协变量对效应估计的影响,达到“类随机化”的效果,又称为事后随机化。
数据准备:分组:Group 0=control Group 1=treatment协变量:性别、年龄、分期
前提:分组与协变量相互独立
基本原理:在一定协变量条件下,一个观察对象接受某种暴露/处理因素的可能性
取值范围
0~1的范围内连续分布的值
倾向性评分越接近于1,说明患者接受某种暴露/处理因素的可能性更高
倾向性评分越接近于0,说明患者不接受任何暴露/处理因素的可能性更大
特征:多个混杂因素(协变量)的影响用一个综合的倾向性评分(PS)来表示
优势
减少了协变量X的个数
克服了分层分析和多因素分析中要求协变量X个数不能太多的短板调整组间个体的差异,使观察性研究的数据达到近似随机分配的效果
数据准备
数据要求
完整性:无缺失值,包括纳入匹配和未匹配的全部变量
格式
名称:英文名称,非中文
类型:数字
测量:标度
本量大小:暴露组与非暴露组的样本量比例在1:10以上若非暴露组大量的不合适的病例被剔除,极有可能造成严重选择性偏倚。


软件准备
R语言or Stata or SPSS(SPSS:本身不具备实现PSM分析的能力,需要借助R语言的插件)
倾向性匹配方法:1:1配比和1:n配比
1:1配比:即病例组和对照组病例数比=1:1
1:n配比:即病例组和对照组病例数比=1:n
受样本数量的限制,在实际情况下,两组并不一定能够到精确的1:n
1:n常用为1:2或1:3
n越大,意味着对照组样本量大
SPSS操作
方法
倾向评分匹配(matching)
确定协变量
估计倾向评分
选择匹配方式
1:1
1:n
样本匹配结果
数据输出
倾向评分分层(stetificaton)
样本量不大情况下
层数:5-10层分析
倾向性评分校正法(adjustment)
PS评分为协变量代入
倾向评分加权(weighting)
实现均衡组间和保证样本量的方法.
逆处理概率加权(IPTW)
标准化死亡比加权(SMRW)
确定主角:二分类,treatment group赋值为“1”;control group赋值为“0”
确定协变量:纳入混杂因素
结果呈现

SEER数据库
SEER数据库介绍
Surveillance,Epidemiology,and End Results Program SEER
网址:http://seer.cancer.gov/resources/
本质:肿瘤登记注册数据库
成立时间:1973年
成立组织:美国国立癌症研究所(National cancer Institute,NC)
数据记录:患者的注册编号、原发病灶部位、肿瘤大小、肿瘤编码、治疗方案、死亡原因等。
SEER-Medicare tinked Database内容:具体治疗信息,化疗方案等
SEER-CAHPS Linked Data Resource 内容:治疗依爆性的调查等
SEER-Medicare Health Outcomes Survey (SEER-MHOS)Linked Data Resource 内容:癌症患者生活质量等
SEER数据库注册
SEER数据库数据获取
数据格式准备
数据分析
样本量估计与效能检验
样本量的确定
样本含量的影响因素
检验水准a:H0为真的情况下拒绝H0(假阳性)
检验效能1-β:把握度(研究得出的结论靠谱的程度)
容许误差
总体标准差

基于PASS软件的样本量计算

基于病死率
基于中位生存时间
基于HR
基于总生存率
多因素分析的经验性样本量估计
效能检验
数据库构建与管理
数据结构介绍
数据表制作
EpiData数据录入应用实例:
在录入数据的时候可以看到文字提示
可以设置跳转
可以设置必须录入项,防止缺项
可以设置录入范围,减少逻辑错误
数据库构建实操
QES文件


REC文件
CHK文件

变量说明表
段位4 预测模型 · 卸
临床预测模型
前导课
R语言入门与安装
Rstudio下载地址 https://rstudio.com/products/rstudio/download/
R语言可以处理多种数据类型
数值型
字符型
逻辑型
因子型
复数型
日期型
R拥有多种储存数据的数据结构
标量
向量

矩阵

数组

数据框

列表

子主题
R语言的输入

Stepwise变量筛选
正则化技术
随机森林
模型验证/评价
交叉验证与重抽样介绍
交叉验证
定义:即将一定比例的数据挑选出来作为训练集,另外的样本作为验证集。先在训练集上获取回归方程,然后在验证集上做预测。由于验证集不涉及参数的选择,可以获得更为精确的估计!
分类
Hold-Out Method
将原始数据随机分为两组,一组做为训练集,一组做为验证集,利用训练集建立模型,然后利用验证集验证模型。记录最后的准确率为此Hold-Out Method的性能指标。
优点:处理简单,只需随机把原始数据分为两组即可
缺点:严格意义来说Hold-Out Method并不能算是CV,因为这种方法没有达到交叉的思想,由于是随机的将原始数据分组,所以最后验证集的准确率高低与原始数据的分组有很大的关系,所以这种方法得到的结果其实并不具有说服力
K-fold Cross Validation
将原始数据分成K组(一般是均分),将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集,这样会得到K个模型,用这K个模型最终的验证集的准确率的平均数作为此K-CV的性能指标。
K一般大于等于2,实际操作时一般从3开始取,只有在原始数据集数据量小的时候才会尝试取2
K-CV可以有效的避免过拟合以及欠拟合状态的发生,最后得到的结果也比较具有说服力。
Leave-One-Out Cross Validation
如果假设原始数据有N个样本,那么LOO-CV就是N-CV,即每个样本单独作为验证集,其余的N-1个样本作为训练集,所以LOO-CV会得到N个模型,用这N个模型最终的验证集的准确率的平均数作为此LOO-CV的性能指标
优点(相比于前面的K-CV):
每一回合中几乎所有样本用于训练模型,接近原始样本的分布,这样评估所得的结果比较可靠。
实验过程中没有随机因素会影响实验数据,确保实验过程是可以被复制的。
缺点:计算成本高,因为需要建立的模型数量与原始数据样本数量相同,当原始数据样本数量相当多时,LOO-CV在实际操作上便有困难,除非每次训练集得到模型的速度很快,或是可以用并行化计算减少计算所需的时间。
重抽样
给定包含m个样本的数据集D,按如下方式抽样产生包含m个样本的数据集E:每次随机从D中选取一个样本将其放入E中,然后再将该样本放回D中,重复执行m次。E将用作训练集。
D中有一部分样本会在E中重复出现,而另一部分样本不会出现。样本在m次抽样中始终不会被采到的概率是(1-1/m)Am,取极限得约等于1/e=0.368。即通过Bootstrap,初始数据集D中约有36.8%的样本未出现在数据集E中,未出现的样本D-E将用作验证集,这样的验证结果,称为包外估计(00B,out-of-bag estimate)
优点
在数据集较小、难以有效划分训练集和验证集时效果显著;能从初始数据集中产生多个不同的训练集
产生的数据集改变了初始数据集的分布,引入了估计偏差,因此在初始数据量足够时,交叉验证法更常用一些。
模型评价1:KM曲线绘制
模型评价2:riskplot绘制
模型评价3:time-dependent ROC绘制
校准度评价:Calibration Curve绘制
模型比较1:C指数计算与绘制
模型比较2:NRI计算与绘制
模型比较3:IDI计算与绘制
模型比较4:临床决策曲线分析
文献重现
段位总结
摸金校尉:分金定穴,理清脉络
发丘将军:按部就班,直捣黄龙
搬山道人:巧借外力,无中生有
利用seer数据库从0到1,psm从1变多
卸岭力士:聚沙成塔,推陈出新