导图社区 《Medical Statistics 医学统计学》考点梳理
本导图为大家详细的归纳了《医学统计学》的重要考点,共包含5页内容:研究设计、统计描述、统计推断基本内容、单变量统计推断方法及多变量统计方法。希望能帮大家理清知识脉络,提高学习效率。祝备考的小伙伴们考试顺利!
编辑于2020-10-11 16:08:50内涵PA7E四模块考点汇总大全(参照光环VIP课汇总)、配套高模拟度试题错题汇总、应试详细技巧(人员过程环境高频考点应试公式、考点识别、技巧汇总)。
该导图包含了数据管理计划、数据核查计划、数据核查、质疑管理、数据传输与整合、外部数据管理、数据管理人员分工及数据库相关内容。
出版社: 机械工业出版社 译者: 渠海霞 本书用“青年与哲人的对话”这一故事形式总结了与弗洛伊德、荣格并称为“心理学三大巨头”的阿尔弗雷德·阿德勒的思想(阿德勒心理学)。风靡欧美的阿德勒心理学对于“人如何能够获得幸福”这个哲学问题给出了极其简单而又具体的“答案”。了解了足以被称为“这个世界上的一个真理”的阿德勒思想之后,你的人生会发生什么变化呢?又或者,什么都不会改变? 来吧,让我们与青年一起走进这扇“门”!
社区模板帮助中心,点此进入>>
内涵PA7E四模块考点汇总大全(参照光环VIP课汇总)、配套高模拟度试题错题汇总、应试详细技巧(人员过程环境高频考点应试公式、考点识别、技巧汇总)。
该导图包含了数据管理计划、数据核查计划、数据核查、质疑管理、数据传输与整合、外部数据管理、数据管理人员分工及数据库相关内容。
出版社: 机械工业出版社 译者: 渠海霞 本书用“青年与哲人的对话”这一故事形式总结了与弗洛伊德、荣格并称为“心理学三大巨头”的阿尔弗雷德·阿德勒的思想(阿德勒心理学)。风靡欧美的阿德勒心理学对于“人如何能够获得幸福”这个哲学问题给出了极其简单而又具体的“答案”。了解了足以被称为“这个世界上的一个真理”的阿德勒思想之后,你的人生会发生什么变化呢?又或者,什么都不会改变? 来吧,让我们与青年一起走进这扇“门”!
Medical Statistics
调查研究设计
调查研究分类
观察性研究
横断面研究
cross-sectional study
主要特点
无人为干预,研究事物或现象客观存在
不能将研究因素随机分配至研究对象中
反映的是某个时间断面上的情况
事物或现象的现状以及与之相联系的因素可能同时存在,二者的先后顺序不清楚,因此不能得出因果关系的结论
回顾性研究
retrospective study
case-control study
前瞻性研究
prospective study
cohort study
按目的分类
描述性研究
分析性研究
调查研究设计的基本内容
资料收集、整理、分析 前瞻性研究周期长不现实 病例对照为调查方法,还需选择恰当的统计方法做描述和推断
明确调查目的和指标
调查目的
研究现象间相关联系用以探索病因或相关因素
进行参数估计以说明总统特征
调查指标
测量事物或现象的性质或数量
主观指标
客观指标
可靠性较高,应尽量采用
确定调查对象和观察单位
调查对象
即明确调查总体的同质范围
观察单位
以“个体”为单位
一个人
一个家庭
一个群体
单位数量(样本含量)
Sample Size 样本含量过少,所得指标不稳定,推断总体精度差,检验效能低 样本含量过多,增加调查成本,增大各种非抽样误差,为质量控制带来困难 非抽样误差分为三大类,一是抽样框误差,即在研究总体的基础上界定调查总体或确立抽样框阶段,由于可能会包含异质单位、缺失目标单位、存在样本单位的复合连接等原因而产生的抽样框误差。二是回答误差,即由于被调查者的主客观原因或调查者自身的原因而产生的回答或无回答误差。三是计量误差,可能由于统计调查方案设计不科学合理、数据处理时编码不当或因测量工具、测量方法不当而产生的误差。总之,由于非抽样误差产生的原因多种多样,因此控制起来非常困难,从统计实践来看在统计误差中非抽样误差占的成分已超过抽样误差,成为制约统计数据准确性的主要方面
样本含量的估计
估计的意义和方法
意义
减小抽样误差提高推断精度又满足可行性时效性等实际问题
恰当的样本含量应该是保证一定推断精度和检验效能的前提下的最少研究对象数
方法
公式法
根据研究目的,设计类型,已知条件等用公式估算
查表法
调查设计中样本含量的估计
主要目的 在于描述分布
样本含量估计的基本条件
置信度(1-α)
置信度越高,需要的样本含量越大,常取α=0.05
允许误差
allowable error 允许误差越小所需样本含量越大 研究者要求的样本统计量与其对应的总体参数之间的最大差距 可用绝对误差和相对误差表示
总体变异度
常用总体标准差α刻画。 总体的变异程度越高所需样本含量越大
病例对照研究的样本含量估计
4大条件
研究因素在对照组或人群中的暴露率(P0)
研究因素与疾病关联程度的估计值(OR)
30例预调查
希望达到的统计学假设检验的显著性水平,I类错误概率,一般取α=0.05
希望达到的统计学假设检验的效能或称把握度1-β,一般取β=0.10
确定调查方法
普查
overall survey
抽样调查
sampling survey
概率抽样
单纯随机
系统抽样
分层抽样
非概率抽样
确定调查方式
直接观察法
结果真实可靠,成本较高
直接采访法
face to face interview
访问调查
调查员口头询问对象并填入调查表 利于对象理解 应答率高 空项比例低
自填调查
成本较低 保护隐私 缺:对象对问题理解有异,影响调查质量 应答率一般较低
间接采访法
通过电话,信件等采访 应答率低,质量差
确定调查项目和调查表
即调查工具的设计和开发
医疗卫生领域调查工具分类
医学仪器或设备
调查表或 问卷(questionaire)
问卷以主观问题为主
调查表或问卷主要内容
知情通知
开始部分设计
基本情况
基本人口学特征
分析项目
核心内容
编码
指用数字代表答案选项,是对调查数据进行录入和分析的基础 在每个问题的各种答案前建立数字编码
核查项目
属于调查质量控制内容,与调查目的无关 如:调查员姓名 调查日期 调查起止时间 复核结果以及未调查原因
调查表填写说明
调查项目设计一般原则
调查问题的基本形式
提问方式
开放式问题
优点:有利于对象的主观能动性,获得丰富信息 缺点:容易离题,调查时间长,容易被拒绝 结果不易整理分析,难以比较
封闭式问题
优:答案标准化 容易回答 节约时间 拒答率低 记录汇总方便 缺:容易随意选答导致信息失真
调查问题的设计原则
应该避免
双重问题
一个问题提供两方面答案
“是否吸烟和喝酒”
双重否定问题
容易迷惑
模棱两可的问题
意思不明确
“是否单身?”
语义模糊的问题
大概 可能 偶尔 应给出明确定义和标准
诱导性问题
暗示性,感情色彩
“你不参加锻炼,是吗?”
问题中的专业术语
充分考虑对象的文化程度和理解能力
调查问题的顺序安排
排序总原则
符合逻辑
一般问题在前,特殊在后
易答题在前,难题在后
先设置封闭性问题
敏感问题放在最后
调查项目
分析项目
备查项目
制定资料整理分析计划
数据的计算机录入与清理
可采用双录入 录入时 可设置某些变量的有效取值范围以及某些变量间的跳过功能以保证录入质量 录入后可根据调查项目间的逻辑关系进行逻辑查错
资料的分组
目的
将同性质的观察单位合在一起,将性质不同的观察单位分开,把组内的共性和组间的差异性充分显示出来
分组类型
按类型分组
按分组因素的类别或特征进行分组 如:性别、职业、文化程度
按数量分组
按分组因素的数量大小分组 如按年龄,体重,血压
注意
分组数的多少取决于研究目的、资料性质以及观察单位数多少 分组数过少可能掩盖不同特征人群本质差异 过多可能掩盖事物规律性 不清楚规律时宁可先分细一些,分析时再做必要的合并
资料的初步分析计划
说明各统计指标的内涵和计算方法
预期做哪些统计描述和推断
采用什么统计方法控制混杂因素
指定调查的组织计划
组织领导
宣传发动
时间进度
地域划分
调查员培训
分工协调
经费预算
调查表格准备
调查资料检查制度
资料汇总要求
...
常用抽样方法
常用概率抽样方法
各种抽样方法抽样误差大小关系 整群抽样误差≥单纯随机抽样误差≥系统抽样误差≥分层抽样误差
单纯随机抽样
simple random sampling 可采用随机数字表 优点 均数和标准误计算简便 缺点 总体观察单位较多时需要对观察单位一一编号,麻烦
系统抽样
systematic sampling 优点 易于理解 简便易行 容易得到按比例分配的样本 观察单位在总体中均匀分布 缺点 当总体按顺序有周期趋势或单调递增减时,会有明显偏差 按单纯随机抽样方法估计系统抽样误差大小,使得计算的误差偏大
分层抽样
stratified sampling stratum:"层" 优点 减小抽样误差 利于工作实施 还可对不同层进行独立分析
按比例分配
最有分配
整群抽样
cluster sampling 优点 便于组织节约经费 缺点 当样本量一定时,其抽样误差一般大于单纯随机抽样
多阶段抽样
multi-stage sampling 前述方法都是单阶段抽样,通过一次抽样产生一个完整的样本 而实际中通常将抽样过程分为若干个阶段
常用非概率抽样方法
偶遇抽样
accidental sampling 最便利的方式选取样本,可抽取偶然遇到的人 简单易行,但结果对总体的代表性差
立意抽样
purposive sampling 根据研究目的分析判断来选择调查对象的方法
定额抽样
根据可能影响研究指标的各种因素对总体分层,并确定各层样本占总体的比例,再在各层中抽取样本 可以看作分层抽样的延伸
雪球抽样
snowball sampling 当无法了解总体情况时可以从总体中少数成员入手,请他们介绍所认识的其他符合条件的人 适用于缺少抽样框架,目标总体不明的情形
调查研究的质量控制
调查结果的偏差可能包括抽样误差和非抽样误差
设计阶段
正确确定目标总体
明确定义调查项目
恰当选择调查指标
合理设置调查问题
恰当选择调查方式
对于敏感问题
可采用匿名或保密 假定发和对象转移法
资料收集阶段
因情况选择不同的调查员
调查员培训
理论培训
尽可能提高应答率
明确调查目的和意义
调查方法
调查内容
调查指标的说明
提问方式
....
实践培训
资料整理与分析阶段
非抽样误差可能来自于编码,录入,汇总和计算等方面错误 为此要进行严格的资料录入,清理和检查,及时发现并更正错误 对数据一般采取双输录入,并进行计算机逻辑检错
双输录入
计算机逻辑检错
区间型逻辑检错
关系型逻辑检错
调查结果的质量评价
一般对预调查结果的质量进行评价,质量好的调查表才用于正式调查
真实性(准确性)
效度
调查结果能否真正反映出被调查者的实际情况
可靠性(一致性/稳定性)
测量工具的质量评价
效度的评价方法
效度的概念
validity 又称真实性或准确性
反应测量结果与“真实值”的接近程度
例
抑郁量表是否真实测出受试者抑郁程度?
智商测验是否真是测出受试者智力高低?
影响效度的因素
多为系统误差,偏倚有方向性
包括
标准效度
criteria validity 以相对准确的测量手段或指标的测量结果作为金标准,考察待评测量手段的测量结果是否与其一致
内容效度
content validity 评价测量指标含义能否反映真实情况
结构效度
construct validity 评价多个测量结果是否具有稳定的结构
区分效度
discriminant validity 测量结果是否能区分已知的不同特征人群
效度的计算方法
定量观察的标准效度
定性观察的标准效度
半变量观察的标准效度
结构效度
信度的评价方法
信度的概念
reliability 又称可靠性,重复性,稳定性或精密度 主要受随机因素影响
反映相同条件下重复测定结果的一致程度
包括
重测信度
分半信度
克朗巴赫α系数
信度计算方法
重复测量法
分半信度法
克朗巴赫α系数法
反映度的评价方法
反映度概念
responsibility to change 又称敏感度
指内外环境变化时,若被测对象有所变化,则测量结果应该敏感地显示出反映
效度和信度反映的是在不变状况下测量手段真实性和可靠性,而反映度体现的是在变化状况下测量手段的应变性
反映度计算方法
配对设计的t检验
分析两组差别是否具有统计学意义以判断反映度
效应尺度统计量
effect size statistics
效应尺度=(治疗后得分-治疗前得分)/治疗前得分的标准差
size
0.2-0.4
较小效应
0.5-0.8
中等效应
0.8+
较大效应
实验研究设计
分为三类 动物实验 临床试验 现场试验
实验设计基本原则
对照原则
control 为控制非处理因素对实验结果的影响,并将处理措施的效应充分显现出来 设立对照应满足均衡性,均衡是指在设立对照组除给予的处理措施不同外,对照组和实验组的其他重要的非处理因素应保持一致 且应设立同期对照或平行对照
空白对照
blank control
安慰剂对照
placebo control 一般与盲法结合‘ 注意伦理学问题,不损害患者健康为前提
标准对照
standard control 在临床试验中可较好地解决空白或安慰剂对照中不给患者任何治疗的伦理问题
实验对照
experimental control 指对对照组施加某种与处理因素有关的实验因素
自身对照
self control 简单易行使用广泛 在不同阶段接受不同处理的研究中,难以排除时间因素
相互对照
mutual control 两个或几个不同的实验组互为对照,探讨何种处理效果更好
随机化原则
使用随机的方式使每个受试对象有同等的机会被抽取 使非处理因素对实验组和对照组的影响相当
随机抽样
随机分配
实验顺序随机
重复原则
提高实验结果可靠性 (信度?) 重复最主要作用是估计变异的大小。重复观察多个对象能估计对象之间的变异性,对同一对象的重复观测能估计策略的精度
对多个受试对象进行实验
确保足够的样本含量
对同一受试对象进行重复观测
实验设计的基本内容
实验设计三要素:受试对象、处理因素、实验效应
明确研究目的,建立研究假设
实验研究目的在于通过比较不同处理组的效应是否有差别,说明处理措施对效应指标的影响
确定处理因素
注意要点
分清楚处理因素和非处理因素
处理因素应当标准化
明确受试对象的范围和数量
必须满足两点: 对处理因素敏感 反应必须稳定 其次:同质性和代表性
范围
纳入标准
inclusion criteria
排除标准
exclusion criteria
数量
估计样本含量
明确观察指标及其测量方式
选择指标的注意要点
客观性
准确度和精密度
灵敏度和特异度
灵敏度
sensitivity
反映出其检出真阳性的能力
灵敏度高能将处理因素的效应更敏感地显示出来
特异度
specificity
反映鉴别真阴性的能力
特异度高的指标不易受混杂因素的干扰
明确实验设计的类型
控制误差和偏倚
偏倚bias是一种系统误差,歪曲了处理因素的真实效应
偏倚分类
选择性偏倚
纳入观察对象的方法不正确产生的偏倚
测量性偏倚
观察和测量时产生偏倚
沾染和干扰
contamination and co-intervention
对照组对象接受实验组的处理措施
非依从偏倚
依从性compliance是指受试者对处理措施及试验过程的执行程度
检查或诊断结果的不一致
不一致 disagreement 在试验中经常可能出现同一医师两次重复检查或诊断同一受试者结果不一致
混杂性偏倚
confounding bias 由于某些非处理因素和处理因素同时并存影响到实验结果
常用的实验设计类型
完全随机设计
常用的考察单因素两水平或多水平效应的实验设计方法 采用完全随机化的方法将同质对象分配到各处理组
具体步骤
编号
取随机数
确定组别
配对设计
使某个非处理因素在组间达到平衡
随机区组设计
又称配伍设计 将受试对象按性质相同或相近分为b个区组,然后将每个区组中的k个受试对象随机分配到k个处理组 实际上是配对设计的扩展
交叉设计
特殊的自身对照设计 按设计好的实验次序,在各个时期对受试对象先后实施各种处理,以比较处理组间的差异 平衡了实验顺序的影响
析因设计
factorial design 将两个或多个处理因素的各水平进行组合,对所有可能的组合中安排多个实验对象进行试验
临床试验设计
四个特点
人为受试对象
对处理措施进行前瞻性的随访观察
整个试验过程易受多种因素影响,结果可能存在不同程度的偏倚
试验病例需要一定时间的积累
新药临床试验概况
一般分为四期
期
初步的临床药理学及人体安全性评价试验
期
治疗作用的初步评价阶段
期
治疗作用的确证阶段
期
新药上市后的应用研究阶段
临床试验设计的特殊问题
医学伦理
随机化方法
盲法
多中心临床试验
病例报告表
优效性试验、非劣效性试验和等效性试验
临床试验统计分析的内容
统计分析的数据集
全分析集
符合方案集
安全性数据集
统计描述
statistical description
定量资料的统计描述
频数分布表和频数分布图
频数分布表
分类
离散型定量变量的频数表
连续型定量变量的频数表
编制过程
求全距range
划分组段
确定组数
n在50以下时可分5-8组 50+分9-15组
确定组距
组距=R/组数
确定个组段上下限
统计个组段频数
频数分布图
频数分布图表的主要用途
揭示频数分布的特征
集中趋势
central tendency
离散趋势
dispersion tendency
揭示频数分布的类型
对称型
不对称型
正偏态
positive skew
负偏态
negative skew
集中位置的描述
平均数average包括 均数 几何均数 中位数
均数
mean ,是算术均数arithmetic mean的简称 常用μ表示
样本均数的计算
直接法
所有观察值直接相加后再除以观察值的个数
加权法
weight method 相同观察值较多时,各项相同观察值的个数与该观察值X乘积相加,再除以个数 (差球不多)
均数的特性
各观察值与均数之差(离均差)总和等于零
各观察值的离均差平方和最小
均数的应用
反映平均水平,可作为样本代表值与其他样本比较
适用于单峰对称分布,易受极端值影响
描述正态分布时有重要意义
几何均数
geometric mean G表示
几何均数的计算
直接法
n个观察值的乘积开n次方
加权法
几何均数的应用
适用于观察值间成倍数或近似倍数关系的资料
适用于变量呈正偏态分布,经对数变换后呈正态分布的资料
负偏态资料不宜用几何均数。宜用中位数
中位数
median M表示
中位数的计算
直接法
频数表法
中位数的应用
中位数可用于各种分布的资料
中位数不受极端值影响,实际中主要用于不对称分布,两端无确切值或分布不明的资料
离散程度描述
极差和四分位数间距
极差
一般适用于描述单峰对称小样本分布资料
四分位数间距
百分位数
percentile 将观察值从小到大排列后处于x百分位上的数值
四分位数间距
P25和P75分位点上的数值就是四分位数 quartile,Q 适用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度
方差和标准差
方差
variance 离均差平方和除以观察值个数(样本方差种则是除以自由度n-1) σ表示
标准差
standard deviation S表示
变异系数
coefficient of variance
比较计量单位不同的资料离散程度
比较均数相差悬殊的几组资料
正态分布及其应用
正态分布的概念和特征
连续型随机变量及其概率分布
正态分布的图形
正态分布的特征
横轴上方均数处最高
以均数为中心,左右对称
有两个参数,位置参数μ和形态参数σ
正态曲线下的面积分布有一定规律
标准正态分布
标准化转换:Zx=(X-μ)/σ
X~N(0,1),也称Z分布
正态分布的应用
估计总体变量值的频率分布
制定医学参考值范围
确定观察对象和抽取足够观察单位
测定方法统一、准确
决定是否分组制定参考值范围
确定取双侧或单侧参考值范围
选定适当的百分界限
选择制定医学参考值范围的方法
正态分布法
百分位数法
质量控制
正态分布是许多统计方法的理论基础
定性资料的统计描述
绝对数不便于比较,故采用相对数
常用相对数及其应用
定性资料的频数分布
定性资料频数分布表又称为列联表
常用对数指标
率
频率
frequency分母未引入时间因素
速率
rate 带有时间因素
构成比
proportion
相对比
ratio
相对危险度RR
relative risk
比值比OR
odds ratio
应用相对数的注意事项
计算相对数的注意事项
计算相对数应有足够观察单位
分析时不能以构成比代替率
应将分子和分母分别合计求合计率
相对数的比较应注意其可比性
该标准化,标准化
样本率和样本构成比的比较应作假设检验
某些情况最好用绝对数
传染病疫情描述
其他突发事件的描述
动态数列及其应用
绝对增长量
累计增长量
逐年增长量
发展速度和增长速度
都是相对比指标
平均发展速度和平均增长速度
率的标准化
标准化法的意义
当所比较对象内部构成不同时应考虑分层比较 或对合计率进行标准化后在比较
标准化率的计算
直接法
间接法
中心主题
参数估计
总体均数的估计
均数的抽样误差及标准误
抽样误差:由个体变异产生的,随机抽样引起的样本统计量与总体参数间的差异成为抽样误差
样本均数的抽样分布
特点
各样本均数未必等于总体均数
样本均数之间存在差异
样本均数的分布很规律,围绕总体均数基本服从正态分布
样本均数的变异比总体的变异小
随着样本含量的增加,样本均数的变异范围逐渐缩小
均数的标准误
t分布
概念
同时引入了Z变换,并用Xbar代替X,Sxbar代替σxbar的用于总体均数区间估计以及t检验的一个近似正态分布
t分布特征
以t=0为中心左右对称的单峰分布
t分布曲线的形态取决于自由度v的大小,v越小曲线峰部越低;随着v增大,t分布逐渐逼近标准正态分布(u分布)
t界值
总体均数的估计
点估计
直接将Xbar作为μ的点估计值
区间估计
总体均数置信区间的估计
两总体均数差值的置信区间
置信区间的正确应用
置信区间的含义
95%CI:100个CI中理论有95个置信区间包含了总体均数μ,5个CI未包含,即犯错误概率为0.05
置信区间的两个要素
准确度accuracy
反映置信度(1-α)的大小,即CI包括μ的概率
精密度precision
反映CI的宽度,用Cu-Cl来表示
总体均数置信区间与医学参考值范围的区别
假设检验
目的
推断样本统计量的差异是由于总体参数的不同造成的,还是由于抽样误差造成的
基本思想
在总体参数相等这一假设成立的前提下,计算出现比现有样本统计量更极端情况的可能性(P值),若P值小于等于事先规定的界值,结论则是拒绝无效假设,认为总体参数不同
基本步骤
建立假设检验,确定检验水准
计算检验统计量
确定P值,做出统计推断
I型错误和II型错误
type I error
拒绝了实际正确的零假设H0的错误
犯错概率为α
无中生有
type II error
不拒绝实际上不成立的H0的错误
犯错概率β
有说无
检验效能
若要求重点减少犯I型错误的概率,可以α取0.05或0.01 若重点减少II型错误概率,可以取α为0.10或0.20 要同时减小α和β只有通过增加样本含量来实现
概念
若两个总体参数确实存在差异,使用假设检验能够发现这种差异的能力被称为检验效能 power of test 记为(1-β)
单侧检验和双侧检验
根据结果情况
双侧检验
结果包括μ<μ0和μ>μ0两种情况
根据专业知识&分析目的
是否有差/是否不同
双侧
充分理由认为甲优于乙
单侧
假设检验需要注意的问题
数据应该来自科学严密设计的实验或调查
样本应有代表性,组间应有可比性
数据应该满足假设检验方法的前提条件
例
t检验需要满足两条件
独立性
各观察值间互相独立
正态性
样本来自正态总体
正确理解假设检验中概率P值的含义
P值是指在H0成立的前提下,出现现有样本统计量以及更极端情况的概率
结论不能绝对化
假设检验是根据P值大小和检验水准α做出的,冒着犯错误的风险 报告假设检验结果时要给出检验水准、单双侧检验、样本量大小等信息
统计学意义与实际意义
假设检验结论包括
统计学结论
是否拒绝H0,差异有无统计学意义
专业结论
差异是否具有实际意义,专业角度
假设检验与区间估计的区别
区别
置信区间用于推断总体参数的可能范围,还可提示差别是否有实际意义
假设检验用于推断总体参数是否不相等
联系
都属于统计推断的方法
可互相转换
原理等价
中心主题
t检验
应用条件
单样本t test中,σ未知且样本含量较小时,要求样本来自正态总体
配对t是单样本t特殊情况,需要同质受试对象
两小样本均数比较时,要求两样本来自正态总体且两样本总体方差相等
两总体方差不等则用t`检验
两大样本(n1,n2>50)的均数比较可用Z检验
样本均数和总体均数的比较
亦称单样本t test
t计算公式
配对设计均数的比较
计算公式
两独立样本均数的t检验
两样本均数比较的t检验
t'检验
正态性检验与方差齐性检验
正态性检验
图示法
P-P图法
Q-Q图法
统计检验法
W检验
矩法检验
方差齐性检验
两总体的方差齐性检验
多总体的方差齐性检验
变量变换
资料不服从正态或总体方差不等时,不能直接进行t检验 解决此问题一是用变量变换,而是采取秩和检验
目的
1. 使资料转换为正态分布
2. 使资料达到方差齐性
3. 使曲线直线化
常用变换方法
1. 对数变换
2. 平方根变换
3. 倒数变换
4. 平方根反正弦变换
方差分析
多样本均数比较的F检验 analysis of variance ANOVA
基本思想和应用条件
方差分析基本思想
把全部观察值间的变异按研究目的、设计类型的不同,分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义
应用条件
1. 各样本是相互独立的随机样本,均服从正态分布
2. 各样本的总体方差相等,即满足方差齐性
完全随机设计资料的方差分析
最常见的单因素两水平/多水平实验设计方法 又称单因素方差分析 one-way ANOVA
a. 离均差平方和与自由度的分解
b. 完全随机设计资料方差分析的基本步骤
1. 建立检验假设,确定检验水准
H0:n个总体均数相等
H1:n个总体均数不全相等
2. 计算检验统计量
SS总
SS组间
SS组内
F=MS组间/MS组内
3. 确定P值,做出统计推断
随机区组设计资料的方差分析
又称配伍组设计,将受试对象按性质相同或相近者组成b个区组,再将每个区组中的受试对象分别随机分配到k个处理组中 属于无重复数据的两因素方差分析 two-way ANOVA
离均差平方和与自由度的分解
总变异MS总
处理组变异MS处理
区组变异 MS区组
误差变异 MS误差
基本步骤
两个是否有统计学意义的结论:区组的结论+处理组的结论
多个均数的两两比较
SNK法
Dunnett-t检验
其他常见设计资料的方差分析
交叉设计资料的方差分析
析因设计资料
重复测量资料
卡方检验
以X^2分布和拟合优度检验为理论依据,是一种应用范围很广的统计方法
基本思想
1. 对总体建立假设
H0:两种处理方式有效率相同
2. 计算理论频数
列联表R行C列格子理论频数公式
3. 度量实际频数与理论频数之间的差距
用Pearson提出的X^2统计量度量A与T之间的相对吻合程度
4. 确定是否发生了小概率事件,做出统计推断
自由度v计算公式
卡方分布
与自由度有关的一种分布,当v趋近于正无穷,卡方分布逼近正态分布 而算得的卡方值是离散的不是连续的,故Pearson X^2只能是近似服从卡方分布
5. 四格表卡方检验条件
v=1时,n≥40,且每个格子理论频数T≥5
独立样本或构成比比较的卡方检验
a. 2X2列联表资料的卡方检验
1. 四格表专用公式
2. 四格表卡方检验的条件及连续性校正
3. 其他不同情况及不同处理
b. RxC列联表资料的卡方检验
公式
注意事项
a. 计算卡方值时必须用绝对数,因为卡方值大小与频数大小有关
b. T<5的4种处理方法
1. 增大样本含量
2. 将理论频数太小或性质相近的邻行邻列合并
3. 删去T太小的格子对应的行列
4. 用确切概率法
c. 结果为有许多分类变量的RxC列联表,在比较各处理组平均效应大小是否有差别时应该用秩和检验(考虑其等级顺序)
d. 当多个样本率比较的卡方检验结论为拒绝H0时,只能认为总体率之间有差别(“不全相等”),不能说明他们彼此之间都有差别,其有待进一步两两比较
配对设计样本率比较的卡方检验
配对2x2列联表资料的卡方检验
公式
配对RxR列联表
公式
拟合优度的卡方检验
可用于判断频数分布是否符合正态、二项或Poisson分布等
率的线性趋势卡方检验
四格表的Fisher确切概率法
秩和检验
非参数检验,不以特定总体分布为前提,不推断总体参数,故也称任意分布检验 distribution-free test,不直接用样本观察值做分析,统计量的计算是基于原始数据在整个样本中按大小所占的位次。 故其信息利用不够充分 非参数检验对于那些难以确定分布又出现少量离群值的小样本数据,表现出较好的稳定性
适用范围
1. 定量资料不满足参数检验条件
2. 等级资料或者以秩次为数据的资料
Wilcoxon符号秩和检验
可用于配对设计计量差值的比较,还可用于单一样本与总体中位数的比较
配对设计的两样本比较
1. 建立检验假设,确定检验水准
H0:两种方法测定结果差值的总体中位数=0
2. 计算检验统计量T值
求差值di
编秩
分别计算T+和T-
确定检验统计量T,任取T+/T-为统计量T
3. 确定P值,做出统计推断
查表法
正态近似法
单一样本与总体中位数比较
成组设计两样本比较的秩和检验
Wilcoxon rank sum test 目的是推断连续型变量资料或有序分类资料的两个独立样本代表的总体分布位置是否有差别
原始数据的两样本比较
等级资料的两样本比较
成组设计多个样本比较的秩和检验
多变量统计方法
研究多个随机变量(可分为离散型和连续型)之间相互关系及规律性的统计学分支。医学现象往往涉及多个变量(并非日东升,0度水凝那么简单),且变量间又存在一定的联系。若用单变量统计方法分别进行统计分析,就忽略了各变量之间存在的相互关系,丢失许多样本信息(依恋类型与孤独感存在一定联系),从而使分析结果难以客观全面地反映实际情况。此时往往需要采用多变量统计方法进行分析 多变量统计方法不仅能研究多个变量之间的相互关系以及揭示这些变量之间的变化规律,而且能够使复杂指标简单化,并对研究对象进行分类或简化。
Logistic回归
多重线性回归模型要求因变量是连续型的正态分布变量,且自变量与因变量呈线性关系。当因变量为分类变量(是否患乳腺癌),且自变量与因变量不呈线性关系时(依恋类型、孤独感与乳腺癌患病关系复杂不能单由线性关系概括) 就不能满足多重线性回归模型适用条件,此时常用logistic回归模型,其属于非线性回归分析,它是研究因变量为二项分类或多项分类与某些影响因素之间关系的一种多重回归分析方法。(就是它了) 疾病病因学研究中,经常需要分析疾病发生与各危险因素之间的定量关系。比如研究食管癌的发生与吸烟、饮酒、不良饮食习惯等危险因素的关系。若用多重线性回归分析,由于因变量y为二分类变量,不满足正态分布和方差齐等应用条件,若强行使用,其预测值可能会大于1或小于0而无法解释 在流行病学研究中,虽然可以用Mantel-Haenszel分层分析方法分析多个因素混杂作用,但有其局限性,随混杂因素增加,分层越来越细,致使每层内的数据越来越少,使相对危险度估计困难。而Logistic回归较好解决了上述问题。成为流行病学病因研究中最常用的分析方法之一。
Logistic回归分析基本原理
Logistic回归模型参数的流行病学意义
设因变量y为二分类变量,取值为y=1(阳性结果:发病、有效、死亡)或y=0,影响y取值的m个自变量分别为x1、x2...xm(年龄、依恋类型&孤独感...) 
Logistic回归模型的分类
根据因变量类型
二分类Logistic回归
根据设计类型不同
非条件Logistic回归
可用于成组设计的病例对照或队列研究资料
条件Logistic回归
可用于配对或配比设计的病例对照研究资料
多分类Logistic回归
Logistic回归分析的步骤
变量赋值及偏回归系数的意义
Logistic回归分析对自变量要求并不严格,可为二分类、无序分类、有序分类或定量变量,但需对自变量需进行合理赋值 对同一资料,变量采用不同赋值方法,参数估计值、符号及含义都可能发生变化,因此变量赋值合理与否直接影响Logistic回归的效果
自变量的赋值
二分类变量的赋值
习惯以不暴露于某因素为x=0,暴露为x=1,回归模型为logit(P)=β0+β1x,x取0或1,故暴露者和非暴露者的比数比OR=exp(β1(1-0))
无序多分类变量的赋值(依恋类型)
如职业、民族等,其数量化常用多个二分类(0,1)哑变量表示 虚拟变量 ( Dummy Variables) 又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实。例如,反映文化程度的虚拟变量可取为:1:本科学历;0:非本科学历 一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型,否定类型取值为0。(类似数学令m=2x+1的效果,函数转换) 通常采用的赋值方法是:假设某因素x分k类,则可用k-1个二分类变量表示,这时称每个二分类变量为哑变量 例:职业分教师、工人、农民三类 用x1、x2表示 其中(x1,x2)=(1,0)表示教师,0,1表示工人,0,0表示农民 则仅有职业一个自变量的Logistic回归模型为logit(P)=β0+β1x1+β2x2,农民logit(P)=β0,教师β0+β1x1,工人β0+β2x2 . 教师与农民相比OR为exp(β1)。。。。 依恋类型分安全、恐惧、回避、迷恋 用x1、x2、x3表示 安全0,0,0 恐惧 0,0,1 回避0,1,0 迷恋1,0,0 各OR。。。
有序多分类变量赋值方法
分两种情况
分组线性变量
若等级与logit(P)呈线性关系,则以一个k等级变量赋值0,1,...,k-1,进入模型 此时exp(βj)含义是在其他自变量固定不变前提下,自变量xj每变动一个等级时的OR值
哑变量
若不呈线性关系,则按无序多分类变量的赋值方法表示
定量变量的赋值

因变量赋值
同自变量中分类变量赋值方法,一般阳性反应赋值为1
参数估计
偏回归系数的估计

OR的估计
模型的假设检验

模型检验
模型参数的检验
模型的评价
对模型中每个自变量进行检验
在检验模型参数中已做介绍
对所建立的回归模型进行拟合优度检验
拟合优度检验目的是检验模型与实际数据符合情况,常用检验统计量有剩余差deviance,D 和PearsonX2 公式复杂省略
Logistic回归分析结果的解释
一元Logistic回归模型的系数解释
当Logistic回归模型中只存在一个自变量时称其为一元Logistic回归模型 解释包括无哑变量和有哑变量两种情形
无交互影响的多重Logistic回归模型系数解释
有交互影响的多重Logistic回归模型系数解释
Logistic回归分析的用途及应用条件
用途
建立用多个危险因素估计某事件在一定时期内发生概率的Logistic回归方程
探索某病发生危险因素并分析其作用大小
预测疾病或事件发生概率
对样本进行判别归类
应用条件
因变量为二项分类或多项分类变量
自变量为任意类型的变量