导图社区《Medical Statistics 医学统计学》考点梳理

《Medical Statistics 医学统计学》考点梳理

本导图为大家详细的归纳了《医学统计学》的重要考点，共包含5页内容：研究设计、统计描述、统计推断基本内容、单变量统计推断方法及多变量统计方法。希望能帮大家理清知识脉络，提高学习效率。祝备考的小伙伴们考试顺利！

编辑于2020-10-11 16:08:50

重要考点

Ade

他的近期作品查看更多>>

PMP备考终极导图
内涵PA7E四模块考点汇总大全（参照光环VIP课汇总）、配套高模拟度试题错题汇总、应试详细技巧（人员过程环境高频考点应试公式、考点识别、技巧汇总）。
临床试验数据管理学
该导图包含了数据管理计划、数据核查计划、数据核查、质疑管理、数据传输与整合、外部数据管理、数据管理人员分工及数据库相关内容。
《被讨厌的勇气》读书笔记精华汇总
出版社: 机械工业出版社译者: 渠海霞本书用“青年与哲人的对话”这一故事形式总结了与弗洛伊德、荣格并称为“心理学三大巨头”的阿尔弗雷德·阿德勒的思想(阿德勒心理学)。风靡欧美的阿德勒心理学对于“人如何能够获得幸福”这个哲学问题给出了极其简单而又具体的“答案”。了解了足以被称为“这个世界上的一个真理”的阿德勒思想之后，你的人生会发生什么变化呢？又或者，什么都不会改变？来吧，让我们与青年一起走进这扇“门”！

《Medical Statistics 医学统计学》考点梳理

社区模板帮助中心，点此进入>>

Ade

他的近期作品查看更多>>

相似推荐
大纲

英语词性
- 61.9k
- 6.5k
- 2.4k
- 577
- 0
Ethan
安全教育的重要性
- 8.0k
- 937
- 100
- 18
- 0
issen
法理
- 27.8k
- 67
- 375
- 50
- 1
Dasein
刑法总则
- 37.5k
- 148
- 966
- 156
- 0
Dasein
【华政插班生】文学常识-先秦
- 3.9k
- 4
- 70
- 2
- 0
Dasein
【华政插班生】文学常识-秦汉
- 2.4k
- 0
- 54
- 10
- 0
Dasein
文学常识：魏晋南北朝
- 3.6k
- 3
- 90
- 20
- 0
Dasein
【华政插班生】文学常识-隋唐五代
- 3.8k
- 8
- 98
- 6
- 0
Dasein
【华政插班生】文学常识-两宋
- 2.0k
- 5
- 70
- 8
- 0
Dasein
民法分论
- 8.2k
- 37
- 290
- 29
- 0
Dasein

Medical Statistics

调查研究设计

调查研究分类

观察性研究

横断面研究

cross-sectional study

主要特点

无人为干预，研究事物或现象客观存在

不能将研究因素随机分配至研究对象中

反映的是某个时间断面上的情况

事物或现象的现状以及与之相联系的因素可能同时存在，二者的先后顺序不清楚，因此不能得出因果关系的结论

回顾性研究

retrospective study

case-control study

前瞻性研究

prospective study

cohort study

按目的分类

描述性研究

分析性研究

调查研究设计的基本内容

资料收集、整理、分析前瞻性研究周期长不现实病例对照为调查方法，还需选择恰当的统计方法做描述和推断

明确调查目的和指标

调查目的

研究现象间相关联系用以探索病因或相关因素

进行参数估计以说明总统特征

调查指标

测量事物或现象的性质或数量

主观指标

客观指标

可靠性较高，应尽量采用

确定调查对象和观察单位

调查对象

即明确调查总体的同质范围

观察单位

以“个体”为单位

一个人

一个家庭

一个群体

单位数量（样本含量）

Sample Size 样本含量过少，所得指标不稳定，推断总体精度差，检验效能低样本含量过多，增加调查成本，增大各种非抽样误差，为质量控制带来困难非抽样误差分为三大类，一是抽样框误差，即在研究总体的基础上界定调查总体或确立抽样框阶段，由于可能会包含异质单位、缺失目标单位、存在样本单位的复合连接等原因而产生的抽样框误差。二是回答误差，即由于被调查者的主客观原因或调查者自身的原因而产生的回答或无回答误差。三是计量误差，可能由于统计调查方案设计不科学合理、数据处理时编码不当或因测量工具、测量方法不当而产生的误差。总之，由于非抽样误差产生的原因多种多样，因此控制起来非常困难，从统计实践来看在统计误差中非抽样误差占的成分已超过抽样误差，成为制约统计数据准确性的主要方面

样本含量的估计

估计的意义和方法

意义

减小抽样误差提高推断精度又满足可行性时效性等实际问题

恰当的样本含量应该是保证一定推断精度和检验效能的前提下的最少研究对象数

方法

公式法

根据研究目的，设计类型，已知条件等用公式估算

查表法

调查设计中样本含量的估计

主要目的在于描述分布

样本含量估计的基本条件

置信度（1-α）

置信度越高，需要的样本含量越大，常取α=0.05

允许误差

allowable error 允许误差越小所需样本含量越大研究者要求的样本统计量与其对应的总体参数之间的最大差距可用绝对误差和相对误差表示

总体变异度

常用总体标准差α刻画。总体的变异程度越高所需样本含量越大

病例对照研究的样本含量估计

4大条件

研究因素在对照组或人群中的暴露率（P0）

研究因素与疾病关联程度的估计值（OR）

30例预调查

希望达到的统计学假设检验的显著性水平，I类错误概率，一般取α=0.05

希望达到的统计学假设检验的效能或称把握度1-β，一般取β=0.10

确定调查方法

普查

overall survey

抽样调查

sampling survey

概率抽样

单纯随机

系统抽样

分层抽样

非概率抽样

确定调查方式

直接观察法

结果真实可靠，成本较高

直接采访法

face to face interview

访问调查

调查员口头询问对象并填入调查表利于对象理解应答率高空项比例低

自填调查

成本较低保护隐私缺：对象对问题理解有异，影响调查质量应答率一般较低

间接采访法

通过电话，信件等采访应答率低，质量差

确定调查项目和调查表

即调查工具的设计和开发

医疗卫生领域调查工具分类

医学仪器或设备

调查表或问卷（questionaire）

问卷以主观问题为主

调查表或问卷主要内容

知情通知

开始部分设计

基本情况

基本人口学特征

分析项目

核心内容

编码

指用数字代表答案选项，是对调查数据进行录入和分析的基础在每个问题的各种答案前建立数字编码

核查项目

属于调查质量控制内容，与调查目的无关如：调查员姓名调查日期调查起止时间复核结果以及未调查原因

调查表填写说明

调查项目设计一般原则

调查问题的基本形式

提问方式

开放式问题

优点：有利于对象的主观能动性，获得丰富信息缺点:容易离题，调查时间长，容易被拒绝结果不易整理分析，难以比较

封闭式问题

优：答案标准化容易回答节约时间拒答率低记录汇总方便缺：容易随意选答导致信息失真

调查问题的设计原则

应该避免

双重问题

一个问题提供两方面答案

“是否吸烟和喝酒”

双重否定问题

容易迷惑

模棱两可的问题

意思不明确

“是否单身？”

语义模糊的问题

大概可能偶尔应给出明确定义和标准

诱导性问题

暗示性，感情色彩

“你不参加锻炼，是吗？”

问题中的专业术语

充分考虑对象的文化程度和理解能力

调查问题的顺序安排

排序总原则

符合逻辑

一般问题在前，特殊在后

易答题在前，难题在后

先设置封闭性问题

敏感问题放在最后

调查项目

分析项目

备查项目

制定资料整理分析计划

数据的计算机录入与清理

可采用双录入录入时可设置某些变量的有效取值范围以及某些变量间的跳过功能以保证录入质量录入后可根据调查项目间的逻辑关系进行逻辑查错

资料的分组

目的

将同性质的观察单位合在一起，将性质不同的观察单位分开，把组内的共性和组间的差异性充分显示出来

分组类型

按类型分组

按分组因素的类别或特征进行分组如：性别、职业、文化程度

按数量分组

按分组因素的数量大小分组如按年龄，体重，血压

注意

分组数的多少取决于研究目的、资料性质以及观察单位数多少分组数过少可能掩盖不同特征人群本质差异过多可能掩盖事物规律性不清楚规律时宁可先分细一些，分析时再做必要的合并

资料的初步分析计划

说明各统计指标的内涵和计算方法

预期做哪些统计描述和推断

采用什么统计方法控制混杂因素

指定调查的组织计划

组织领导

宣传发动

时间进度

地域划分

调查员培训

分工协调

经费预算

调查表格准备

调查资料检查制度

资料汇总要求

...

常用抽样方法

常用概率抽样方法

各种抽样方法抽样误差大小关系整群抽样误差≥单纯随机抽样误差≥系统抽样误差≥分层抽样误差

单纯随机抽样

simple random sampling 可采用随机数字表优点均数和标准误计算简便缺点总体观察单位较多时需要对观察单位一一编号，麻烦

系统抽样

systematic sampling 优点易于理解简便易行容易得到按比例分配的样本观察单位在总体中均匀分布缺点当总体按顺序有周期趋势或单调递增减时，会有明显偏差按单纯随机抽样方法估计系统抽样误差大小，使得计算的误差偏大

分层抽样

stratified sampling stratum:"层" 优点减小抽样误差利于工作实施还可对不同层进行独立分析

按比例分配

最有分配

整群抽样

cluster sampling 优点便于组织节约经费缺点当样本量一定时，其抽样误差一般大于单纯随机抽样

多阶段抽样

multi-stage sampling 前述方法都是单阶段抽样，通过一次抽样产生一个完整的样本而实际中通常将抽样过程分为若干个阶段

常用非概率抽样方法

偶遇抽样

accidental sampling 最便利的方式选取样本，可抽取偶然遇到的人简单易行，但结果对总体的代表性差

立意抽样

purposive sampling 根据研究目的分析判断来选择调查对象的方法

定额抽样

根据可能影响研究指标的各种因素对总体分层，并确定各层样本占总体的比例，再在各层中抽取样本可以看作分层抽样的延伸

雪球抽样

snowball sampling 当无法了解总体情况时可以从总体中少数成员入手，请他们介绍所认识的其他符合条件的人适用于缺少抽样框架，目标总体不明的情形

调查研究的质量控制

调查结果的偏差可能包括抽样误差和非抽样误差

设计阶段

正确确定目标总体

明确定义调查项目

恰当选择调查指标

合理设置调查问题

恰当选择调查方式

对于敏感问题

可采用匿名或保密假定发和对象转移法

资料收集阶段

因情况选择不同的调查员

调查员培训

理论培训

尽可能提高应答率

明确调查目的和意义

调查方法

调查内容

调查指标的说明

提问方式

....

实践培训

资料整理与分析阶段

非抽样误差可能来自于编码，录入，汇总和计算等方面错误为此要进行严格的资料录入，清理和检查，及时发现并更正错误对数据一般采取双输录入，并进行计算机逻辑检错

双输录入

计算机逻辑检错

区间型逻辑检错

关系型逻辑检错

调查结果的质量评价

一般对预调查结果的质量进行评价，质量好的调查表才用于正式调查

真实性（准确性）

效度

调查结果能否真正反映出被调查者的实际情况

可靠性（一致性/稳定性）

测量工具的质量评价

效度的评价方法

效度的概念

validity 又称真实性或准确性

反应测量结果与“真实值”的接近程度

例

抑郁量表是否真实测出受试者抑郁程度?

智商测验是否真是测出受试者智力高低？

影响效度的因素

多为系统误差，偏倚有方向性

包括

标准效度

criteria validity 以相对准确的测量手段或指标的测量结果作为金标准，考察待评测量手段的测量结果是否与其一致

内容效度

content validity 评价测量指标含义能否反映真实情况

结构效度

construct validity 评价多个测量结果是否具有稳定的结构

区分效度

discriminant validity 测量结果是否能区分已知的不同特征人群

效度的计算方法

定量观察的标准效度

定性观察的标准效度

半变量观察的标准效度

结构效度

信度的评价方法

信度的概念

reliability 又称可靠性，重复性，稳定性或精密度主要受随机因素影响

反映相同条件下重复测定结果的一致程度

包括

重测信度

分半信度

克朗巴赫α系数

信度计算方法

重复测量法

分半信度法

克朗巴赫α系数法

反映度的评价方法

反映度概念

responsibility to change 又称敏感度

指内外环境变化时，若被测对象有所变化，则测量结果应该敏感地显示出反映

效度和信度反映的是在不变状况下测量手段真实性和可靠性，而反映度体现的是在变化状况下测量手段的应变性

反映度计算方法

配对设计的t检验

分析两组差别是否具有统计学意义以判断反映度

效应尺度统计量

effect size statistics

效应尺度=（治疗后得分-治疗前得分）/治疗前得分的标准差

size

0.2-0.4

较小效应

0.5-0.8

中等效应

0.8+

较大效应

实验研究设计

分为三类动物实验临床试验现场试验

实验设计基本原则

对照原则

control 为控制非处理因素对实验结果的影响，并将处理措施的效应充分显现出来设立对照应满足均衡性，均衡是指在设立对照组除给予的处理措施不同外，对照组和实验组的其他重要的非处理因素应保持一致且应设立同期对照或平行对照

空白对照

blank control

安慰剂对照

placebo control 一般与盲法结合‘ 注意伦理学问题，不损害患者健康为前提

标准对照

standard control 在临床试验中可较好地解决空白或安慰剂对照中不给患者任何治疗的伦理问题

实验对照

experimental control 指对对照组施加某种与处理因素有关的实验因素

自身对照

self control 简单易行使用广泛在不同阶段接受不同处理的研究中，难以排除时间因素

相互对照

mutual control 两个或几个不同的实验组互为对照，探讨何种处理效果更好

随机化原则

使用随机的方式使每个受试对象有同等的机会被抽取使非处理因素对实验组和对照组的影响相当

随机抽样

随机分配

实验顺序随机

重复原则

提高实验结果可靠性（信度?）重复最主要作用是估计变异的大小。重复观察多个对象能估计对象之间的变异性，对同一对象的重复观测能估计策略的精度

对多个受试对象进行实验

确保足够的样本含量

对同一受试对象进行重复观测

实验设计的基本内容

实验设计三要素：受试对象、处理因素、实验效应

明确研究目的，建立研究假设

实验研究目的在于通过比较不同处理组的效应是否有差别，说明处理措施对效应指标的影响

确定处理因素

注意要点

分清楚处理因素和非处理因素

处理因素应当标准化

明确受试对象的范围和数量

必须满足两点：对处理因素敏感反应必须稳定其次：同质性和代表性

范围

纳入标准

inclusion criteria

排除标准

exclusion criteria

数量

估计样本含量

明确观察指标及其测量方式

选择指标的注意要点

客观性

准确度和精密度

灵敏度和特异度

灵敏度

sensitivity

反映出其检出真阳性的能力

灵敏度高能将处理因素的效应更敏感地显示出来

特异度

specificity

反映鉴别真阴性的能力

特异度高的指标不易受混杂因素的干扰

明确实验设计的类型

控制误差和偏倚

偏倚bias是一种系统误差，歪曲了处理因素的真实效应

偏倚分类

选择性偏倚

纳入观察对象的方法不正确产生的偏倚

测量性偏倚

观察和测量时产生偏倚

沾染和干扰

contamination and co-intervention

对照组对象接受实验组的处理措施

非依从偏倚

依从性compliance是指受试者对处理措施及试验过程的执行程度

检查或诊断结果的不一致

不一致 disagreement 在试验中经常可能出现同一医师两次重复检查或诊断同一受试者结果不一致

混杂性偏倚

confounding bias 由于某些非处理因素和处理因素同时并存影响到实验结果

常用的实验设计类型

完全随机设计

常用的考察单因素两水平或多水平效应的实验设计方法采用完全随机化的方法将同质对象分配到各处理组

具体步骤

编号

取随机数

确定组别

配对设计

使某个非处理因素在组间达到平衡

随机区组设计

又称配伍设计将受试对象按性质相同或相近分为b个区组，然后将每个区组中的k个受试对象随机分配到k个处理组实际上是配对设计的扩展

交叉设计

特殊的自身对照设计按设计好的实验次序，在各个时期对受试对象先后实施各种处理，以比较处理组间的差异平衡了实验顺序的影响

析因设计

factorial design 将两个或多个处理因素的各水平进行组合，对所有可能的组合中安排多个实验对象进行试验

临床试验设计

四个特点

人为受试对象

对处理措施进行前瞻性的随访观察

整个试验过程易受多种因素影响，结果可能存在不同程度的偏倚

试验病例需要一定时间的积累

新药临床试验概况

一般分为四期

期

初步的临床药理学及人体安全性评价试验

期

治疗作用的初步评价阶段

期

治疗作用的确证阶段

期

新药上市后的应用研究阶段

临床试验设计的特殊问题

医学伦理

随机化方法

盲法

多中心临床试验

病例报告表

优效性试验、非劣效性试验和等效性试验

临床试验统计分析的内容

统计分析的数据集

全分析集

符合方案集

安全性数据集

统计描述

statistical description

定量资料的统计描述

频数分布表和频数分布图

频数分布表

分类

离散型定量变量的频数表

连续型定量变量的频数表

编制过程

求全距range

划分组段

确定组数

n在50以下时可分5-8组 50+分9-15组

确定组距

组距=R/组数

确定个组段上下限

统计个组段频数

频数分布图

频数分布图表的主要用途

揭示频数分布的特征

集中趋势

central tendency

离散趋势

dispersion tendency

揭示频数分布的类型

对称型

不对称型

正偏态

positive skew

负偏态

negative skew

集中位置的描述

平均数average包括均数几何均数中位数

均数

mean ，是算术均数arithmetic mean的简称常用μ表示

样本均数的计算

直接法

所有观察值直接相加后再除以观察值的个数

加权法

weight method 相同观察值较多时，各项相同观察值的个数与该观察值X乘积相加，再除以个数（差球不多）

均数的特性

各观察值与均数之差（离均差）总和等于零

各观察值的离均差平方和最小

均数的应用

反映平均水平，可作为样本代表值与其他样本比较

适用于单峰对称分布，易受极端值影响

描述正态分布时有重要意义

几何均数

geometric mean G表示

几何均数的计算

直接法

n个观察值的乘积开n次方

加权法

几何均数的应用

适用于观察值间成倍数或近似倍数关系的资料

适用于变量呈正偏态分布，经对数变换后呈正态分布的资料

负偏态资料不宜用几何均数。宜用中位数

中位数

median M表示

中位数的计算

直接法

频数表法

中位数的应用

中位数可用于各种分布的资料

中位数不受极端值影响，实际中主要用于不对称分布，两端无确切值或分布不明的资料

离散程度描述

极差和四分位数间距

极差

一般适用于描述单峰对称小样本分布资料

四分位数间距

百分位数

percentile 将观察值从小到大排列后处于x百分位上的数值

四分位数间距

P25和P75分位点上的数值就是四分位数 quartile，Q 适用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度

方差和标准差

方差

variance 离均差平方和除以观察值个数（样本方差种则是除以自由度n-1） σ表示

标准差

standard deviation S表示

变异系数

coefficient of variance

比较计量单位不同的资料离散程度

比较均数相差悬殊的几组资料

正态分布及其应用

正态分布的概念和特征

连续型随机变量及其概率分布

正态分布的图形

正态分布的特征

横轴上方均数处最高

以均数为中心，左右对称

有两个参数，位置参数μ和形态参数σ

正态曲线下的面积分布有一定规律

标准正态分布

标准化转换：Zx=（X-μ）/σ

X~N(0,1)，也称Z分布

正态分布的应用

估计总体变量值的频率分布

制定医学参考值范围

确定观察对象和抽取足够观察单位

测定方法统一、准确

决定是否分组制定参考值范围

确定取双侧或单侧参考值范围

选定适当的百分界限

选择制定医学参考值范围的方法

正态分布法

百分位数法

质量控制

正态分布是许多统计方法的理论基础

定性资料的统计描述

绝对数不便于比较，故采用相对数

常用相对数及其应用

定性资料的频数分布

定性资料频数分布表又称为列联表

常用对数指标

率

频率

frequency分母未引入时间因素

速率

rate 带有时间因素

构成比

proportion

相对比

ratio

相对危险度RR

relative risk

比值比OR

odds ratio

应用相对数的注意事项

计算相对数的注意事项

计算相对数应有足够观察单位

分析时不能以构成比代替率

应将分子和分母分别合计求合计率

相对数的比较应注意其可比性

该标准化，标准化

样本率和样本构成比的比较应作假设检验

某些情况最好用绝对数

传染病疫情描述

其他突发事件的描述

动态数列及其应用

绝对增长量

累计增长量

逐年增长量

发展速度和增长速度

都是相对比指标

平均发展速度和平均增长速度

率的标准化

标准化法的意义

当所比较对象内部构成不同时应考虑分层比较或对合计率进行标准化后在比较

标准化率的计算

直接法

间接法

中心主题

参数估计

总体均数的估计

均数的抽样误差及标准误

抽样误差：由个体变异产生的，随机抽样引起的样本统计量与总体参数间的差异成为抽样误差

样本均数的抽样分布

特点

各样本均数未必等于总体均数

样本均数之间存在差异

样本均数的分布很规律，围绕总体均数基本服从正态分布

样本均数的变异比总体的变异小

随着样本含量的增加，样本均数的变异范围逐渐缩小

均数的标准误

t分布

概念

同时引入了Z变换，并用Xbar代替X，Sxbar代替σxbar的用于总体均数区间估计以及t检验的一个近似正态分布

t分布特征

以t=0为中心左右对称的单峰分布

t分布曲线的形态取决于自由度v的大小，v越小曲线峰部越低；随着v增大，t分布逐渐逼近标准正态分布（u分布）

t界值

总体均数的估计

点估计

直接将Xbar作为μ的点估计值

区间估计

总体均数置信区间的估计

两总体均数差值的置信区间

置信区间的正确应用

置信区间的含义

95%CI：100个CI中理论有95个置信区间包含了总体均数μ，5个CI未包含，即犯错误概率为0.05

置信区间的两个要素

准确度accuracy

反映置信度（1-α）的大小，即CI包括μ的概率

精密度precision

反映CI的宽度，用Cu-Cl来表示

总体均数置信区间与医学参考值范围的区别

假设检验

目的

推断样本统计量的差异是由于总体参数的不同造成的，还是由于抽样误差造成的

基本思想

在总体参数相等这一假设成立的前提下，计算出现比现有样本统计量更极端情况的可能性（P值），若P值小于等于事先规定的界值，结论则是拒绝无效假设，认为总体参数不同

基本步骤

建立假设检验，确定检验水准

计算检验统计量

确定P值，做出统计推断

I型错误和II型错误

type I error

拒绝了实际正确的零假设H0的错误

犯错概率为α

无中生有

type II error

不拒绝实际上不成立的H0的错误

犯错概率β

有说无

检验效能

若要求重点减少犯I型错误的概率，可以α取0.05或0.01 若重点减少II型错误概率，可以取α为0.10或0.20 要同时减小α和β只有通过增加样本含量来实现

概念

若两个总体参数确实存在差异，使用假设检验能够发现这种差异的能力被称为检验效能 power of test 记为（1-β）

单侧检验和双侧检验

根据结果情况

双侧检验

结果包括μ<μ0和μ>μ0两种情况

根据专业知识&分析目的

是否有差/是否不同

双侧

充分理由认为甲优于乙

单侧

假设检验需要注意的问题

数据应该来自科学严密设计的实验或调查

样本应有代表性，组间应有可比性

数据应该满足假设检验方法的前提条件

例

t检验需要满足两条件

独立性

各观察值间互相独立

正态性

样本来自正态总体

正确理解假设检验中概率P值的含义

P值是指在H0成立的前提下，出现现有样本统计量以及更极端情况的概率

结论不能绝对化

假设检验是根据P值大小和检验水准α做出的，冒着犯错误的风险报告假设检验结果时要给出检验水准、单双侧检验、样本量大小等信息

统计学意义与实际意义

假设检验结论包括

统计学结论

是否拒绝H0，差异有无统计学意义

专业结论

差异是否具有实际意义，专业角度

假设检验与区间估计的区别

区别

置信区间用于推断总体参数的可能范围，还可提示差别是否有实际意义

假设检验用于推断总体参数是否不相等

联系

都属于统计推断的方法

可互相转换

原理等价

中心主题

t检验

应用条件

单样本t test中，σ未知且样本含量较小时，要求样本来自正态总体

配对t是单样本t特殊情况，需要同质受试对象

两小样本均数比较时，要求两样本来自正态总体且两样本总体方差相等

两总体方差不等则用t`检验

两大样本（n1,n2>50）的均数比较可用Z检验

样本均数和总体均数的比较

亦称单样本t test

t计算公式

配对设计均数的比较

计算公式

两独立样本均数的t检验

两样本均数比较的t检验

t'检验

正态性检验与方差齐性检验

正态性检验

图示法

P-P图法

Q-Q图法

统计检验法

W检验

矩法检验

方差齐性检验

两总体的方差齐性检验

多总体的方差齐性检验

变量变换

资料不服从正态或总体方差不等时，不能直接进行t检验解决此问题一是用变量变换，而是采取秩和检验

目的

1. 使资料转换为正态分布

2. 使资料达到方差齐性

3. 使曲线直线化

常用变换方法

1. 对数变换

2. 平方根变换

3. 倒数变换

4. 平方根反正弦变换

方差分析

多样本均数比较的F检验 analysis of variance ANOVA

基本思想和应用条件

方差分析基本思想

把全部观察值间的变异按研究目的、设计类型的不同，分解成两个或多个组成部分，然后将各部分的变异与随机误差进行比较，以判断各部分的变异是否具有统计学意义

应用条件

1. 各样本是相互独立的随机样本，均服从正态分布

2. 各样本的总体方差相等，即满足方差齐性

完全随机设计资料的方差分析

最常见的单因素两水平/多水平实验设计方法又称单因素方差分析 one-way ANOVA

a. 离均差平方和与自由度的分解

b. 完全随机设计资料方差分析的基本步骤

1. 建立检验假设，确定检验水准

H0:n个总体均数相等

H1:n个总体均数不全相等

2. 计算检验统计量

SS总

SS组间

SS组内

F=MS组间/MS组内

3. 确定P值，做出统计推断

随机区组设计资料的方差分析

又称配伍组设计，将受试对象按性质相同或相近者组成b个区组，再将每个区组中的受试对象分别随机分配到k个处理组中属于无重复数据的两因素方差分析 two-way ANOVA

离均差平方和与自由度的分解

总变异MS总

处理组变异MS处理

区组变异 MS区组

误差变异 MS误差

基本步骤

两个是否有统计学意义的结论：区组的结论+处理组的结论

多个均数的两两比较

SNK法

Dunnett-t检验

其他常见设计资料的方差分析

交叉设计资料的方差分析

析因设计资料

重复测量资料

卡方检验

以X^2分布和拟合优度检验为理论依据，是一种应用范围很广的统计方法

基本思想

1. 对总体建立假设

H0：两种处理方式有效率相同

2. 计算理论频数

列联表R行C列格子理论频数公式

3. 度量实际频数与理论频数之间的差距

用Pearson提出的X^2统计量度量A与T之间的相对吻合程度

4. 确定是否发生了小概率事件，做出统计推断

自由度v计算公式

卡方分布

与自由度有关的一种分布，当v趋近于正无穷，卡方分布逼近正态分布而算得的卡方值是离散的不是连续的，故Pearson X^2只能是近似服从卡方分布

5. 四格表卡方检验条件

v=1时，n≥40，且每个格子理论频数T≥5

独立样本或构成比比较的卡方检验

a. 2X2列联表资料的卡方检验

1. 四格表专用公式

2. 四格表卡方检验的条件及连续性校正

3. 其他不同情况及不同处理

b. RxC列联表资料的卡方检验

公式

注意事项

a. 计算卡方值时必须用绝对数，因为卡方值大小与频数大小有关

b. T<5的4种处理方法

1. 增大样本含量

2. 将理论频数太小或性质相近的邻行邻列合并

3. 删去T太小的格子对应的行列

4. 用确切概率法

c. 结果为有许多分类变量的RxC列联表，在比较各处理组平均效应大小是否有差别时应该用秩和检验（考虑其等级顺序）

d. 当多个样本率比较的卡方检验结论为拒绝H0时，只能认为总体率之间有差别（“不全相等”），不能说明他们彼此之间都有差别，其有待进一步两两比较

配对设计样本率比较的卡方检验

配对2x2列联表资料的卡方检验

公式

配对RxR列联表

公式

拟合优度的卡方检验

可用于判断频数分布是否符合正态、二项或Poisson分布等

率的线性趋势卡方检验

四格表的Fisher确切概率法

秩和检验

非参数检验，不以特定总体分布为前提，不推断总体参数，故也称任意分布检验 distribution-free test，不直接用样本观察值做分析，统计量的计算是基于原始数据在整个样本中按大小所占的位次。故其信息利用不够充分非参数检验对于那些难以确定分布又出现少量离群值的小样本数据，表现出较好的稳定性

适用范围

1. 定量资料不满足参数检验条件

2. 等级资料或者以秩次为数据的资料

Wilcoxon符号秩和检验

可用于配对设计计量差值的比较，还可用于单一样本与总体中位数的比较

配对设计的两样本比较

1. 建立检验假设，确定检验水准

H0:两种方法测定结果差值的总体中位数=0

2. 计算检验统计量T值

求差值di

编秩

分别计算T+和T-

确定检验统计量T，任取T+/T-为统计量T

3. 确定P值，做出统计推断

查表法

正态近似法

单一样本与总体中位数比较

成组设计两样本比较的秩和检验

Wilcoxon rank sum test 目的是推断连续型变量资料或有序分类资料的两个独立样本代表的总体分布位置是否有差别

原始数据的两样本比较

等级资料的两样本比较

成组设计多个样本比较的秩和检验

多变量统计方法

研究多个随机变量（可分为离散型和连续型）之间相互关系及规律性的统计学分支。医学现象往往涉及多个变量（并非日东升，0度水凝那么简单），且变量间又存在一定的联系。若用单变量统计方法分别进行统计分析，就忽略了各变量之间存在的相互关系，丢失许多样本信息（依恋类型与孤独感存在一定联系），从而使分析结果难以客观全面地反映实际情况。此时往往需要采用多变量统计方法进行分析多变量统计方法不仅能研究多个变量之间的相互关系以及揭示这些变量之间的变化规律，而且能够使复杂指标简单化，并对研究对象进行分类或简化。

Logistic回归

多重线性回归模型要求因变量是连续型的正态分布变量，且自变量与因变量呈线性关系。当因变量为分类变量（是否患乳腺癌），且自变量与因变量不呈线性关系时（依恋类型、孤独感与乳腺癌患病关系复杂不能单由线性关系概括）就不能满足多重线性回归模型适用条件，此时常用logistic回归模型，其属于非线性回归分析，它是研究因变量为二项分类或多项分类与某些影响因素之间关系的一种多重回归分析方法。（就是它了）疾病病因学研究中，经常需要分析疾病发生与各危险因素之间的定量关系。比如研究食管癌的发生与吸烟、饮酒、不良饮食习惯等危险因素的关系。若用多重线性回归分析，由于因变量y为二分类变量，不满足正态分布和方差齐等应用条件，若强行使用，其预测值可能会大于1或小于0而无法解释在流行病学研究中，虽然可以用Mantel-Haenszel分层分析方法分析多个因素混杂作用，但有其局限性，随混杂因素增加，分层越来越细，致使每层内的数据越来越少，使相对危险度估计困难。而Logistic回归较好解决了上述问题。成为流行病学病因研究中最常用的分析方法之一。

Logistic回归分析基本原理

Logistic回归模型参数的流行病学意义

设因变量y为二分类变量，取值为y=1（阳性结果：发病、有效、死亡）或y=0，影响y取值的m个自变量分别为x1、x2...xm（年龄、依恋类型&孤独感...）

Logistic回归模型的分类

根据因变量类型

二分类Logistic回归

根据设计类型不同

非条件Logistic回归

可用于成组设计的病例对照或队列研究资料

条件Logistic回归

可用于配对或配比设计的病例对照研究资料

多分类Logistic回归

Logistic回归分析的步骤

变量赋值及偏回归系数的意义

Logistic回归分析对自变量要求并不严格，可为二分类、无序分类、有序分类或定量变量，但需对自变量需进行合理赋值对同一资料，变量采用不同赋值方法，参数估计值、符号及含义都可能发生变化，因此变量赋值合理与否直接影响Logistic回归的效果

自变量的赋值

二分类变量的赋值

习惯以不暴露于某因素为x=0，暴露为x=1，回归模型为logit（P）=β0+β1x，x取0或1，故暴露者和非暴露者的比数比OR=exp（β1（1-0））

无序多分类变量的赋值（依恋类型）

如职业、民族等，其数量化常用多个二分类（0，1）哑变量表示虚拟变量 ( Dummy Variables) 又称虚设变量、名义变量或哑变量，用以反映质的属性的一个人工变量，是量化了的自变量，通常取值为0或1。引入哑变量可使线形回归模型变得更复杂，但对问题描述更简明，一个方程能达到两个方程的作用，而且接近现实。例如，反映文化程度的虚拟变量可取为：1:本科学历；0：非本科学历一般地，在虚拟变量的设置中：基础类型、肯定类型取值为1；比较类型，否定类型取值为0。（类似数学令m=2x+1的效果，函数转换）通常采用的赋值方法是：假设某因素x分k类，则可用k-1个二分类变量表示，这时称每个二分类变量为哑变量例：职业分教师、工人、农民三类用x1、x2表示其中（x1，x2）=（1，0）表示教师，0，1表示工人，0，0表示农民则仅有职业一个自变量的Logistic回归模型为logit（P）=β0+β1x1+β2x2，农民logit（P）=β0，教师β0+β1x1，工人β0+β2x2 . 教师与农民相比OR为exp（β1）。。。。依恋类型分安全、恐惧、回避、迷恋用x1、x2、x3表示安全0，0，0 恐惧 0，0，1 回避0，1，0 迷恋1，0，0 各OR。。。

有序多分类变量赋值方法

分两种情况

分组线性变量

若等级与logit（P）呈线性关系，则以一个k等级变量赋值0，1，...，k-1，进入模型此时exp（βj）含义是在其他自变量固定不变前提下，自变量xj每变动一个等级时的OR值

哑变量

若不呈线性关系，则按无序多分类变量的赋值方法表示

定量变量的赋值

因变量赋值

同自变量中分类变量赋值方法，一般阳性反应赋值为1

参数估计

偏回归系数的估计

OR的估计

模型的假设检验

模型检验

模型参数的检验

模型的评价

对模型中每个自变量进行检验

在检验模型参数中已做介绍

对所建立的回归模型进行拟合优度检验

拟合优度检验目的是检验模型与实际数据符合情况，常用检验统计量有剩余差deviance，D 和PearsonX2 公式复杂省略

Logistic回归分析结果的解释

一元Logistic回归模型的系数解释

当Logistic回归模型中只存在一个自变量时称其为一元Logistic回归模型解释包括无哑变量和有哑变量两种情形

无交互影响的多重Logistic回归模型系数解释

有交互影响的多重Logistic回归模型系数解释

Logistic回归分析的用途及应用条件

用途

建立用多个危险因素估计某事件在一定时期内发生概率的Logistic回归方程

探索某病发生危险因素并分析其作用大小

预测疾病或事件发生概率

对样本进行判别归类

应用条件

因变量为二项分类或多项分类变量

自变量为任意类型的变量