导图社区 统计学
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。非常详细,好好学习!
编辑于2023-12-14 15:40:22统计学
基本概念
数据类型
定量资料
带单位
定性资料
分类变量
计数资料
等级资料
有序分类变量资料
误差
系统误差
倾向性的偏大或偏小
恒向,恒量,按照一定规律化
可以通过校正消除系统误差
随机误差
不恒定,随机变化的误差
个体差异
抽样误差
随机抽样造成的样本统计量与总体参数之间及各样本统计量之间的差异
通过重复减少随机误差
过失误差
可以避免
统计工作的基本步骤
研究设计
搜集资料
整理资料
分析资料
统计描述
频率表
频率图
统计指标
集中趋势
算术均数
几何均数
对数转换或成倍数关系
血清滴度,血清效价
中位数
偏态分布
两端无确定数值
离散趋势
极差
方差和标准差
四分位间距
偏态分布
两端无确定数值
变异系数
均数相差太大
单位不同
统计推断
参数估计
假设检验
正态分布与医学参考范围
正态分布
特征
均数处最高
以均数为中心,左右完全对称
有两个参数
总体均数miu
总体标准差segema
面积分布有一定规律
68.27%---1.645
95%---1.96
99%---2.58
标准正态分布
依旧为正态分布
均数变为0
标准差变为1
应用
估计总体变量值的频率分布--结合正态分布的转换和查表
制定医学参考值范围
正常人:排除对研究指标有影响的疾病或因素的同质人群
不是指任何器官,组织形态和功能都正常的人
步骤
确定正常人总体并抽样
控制测量误差
确定是否需要分组制定参考范围
确定取单侧还是双侧参考值范围
选定合适的百分位界限
较低的百分位
防止漏诊
把有病的判定为无病
较高的百分位
防止误诊
把无病的判断出有病
质量控制
许多统计方法的参考范围
定性描述
相对数
构成比
事物内部某一组成部分在事物内部所占的比重
相对比
一个指标是另一个指标的若干倍或百分之几
率
该现象发生的频率或强度
标准化率
SMR>1被标准化组的死亡率高于标准组在(实际组)
SMR<1被标准化组的死亡率低于标准组(实际组)
注意的地方
计算相对数应有足够的观察单位数
分析时不能用构成比代替率
正确计算合计率
相对数的比较应注意其可比性
样本率或构成比的比较应作假设检验
参数估计与假设检验
参数估计
抽样误差
均数的标准误
反映样本均数之间的标准差
标准误小于原始个体值的标准差
样本量越大,标准误越小
均数的标准误反映了样本均数间的离散程度即抽样误差的大小
率的标准误
样本率的标准差即为率的标准误
由于个体差异存在,通过随机抽样得到的样本均数往往不等于总体均数,这种由抽样造成的样本统计量与总体参数之间的差异称为抽样误差
置信区间的概念
由样本统计量估计总体参数
分类
点估计
区间估计
按照预先给定的概率,计算出一个得到总体参数区范围,预先给定的概率1-α称为置信度,计算得到的区间称为置信区间或可信区间CI
总体参数不是随机变量,是包含在置信区间内的一个固定值,区间以一定的概率包含此参数,而不能表达为此参数在区间波动
评价
准确度
由置信度1-α来表示,越接近1越好
精密度
区间宽度越窄越精确
通常先设计较高的置信度来保证精确度,在增加样本量来缩小区间宽度来保证精密度
总体均数的区间估计
σ已知
σ未知
t分布
考虑自由度=n-1
z分布(n>50)
两总体率差值的区间估计
n1*p1 n2*p2 n1*(1-p1) n2*(1-p2)均大于5
假设检验(显著性试验)
目的
用样本信息对总体之间或总体参数之间有无差别给出一个概率性定性推断结论
基本步骤
建立假设和确定检验水准
原假设H0又叫无效假设
备选建设H1:与H0互斥
检验水准:α(显著性水平)
选择检验方法和计算检验统计量
根据资料类型
研究设计方案
统计推断目的
根据P值做出统计推断结论
P值的含义:拒绝原假设所冒的风险,P值越小越有理由拒绝原假设,认为总体之间有差别的统计学证据越充分
不拒绝H0不代表支持H0成立
Ⅰ类错误和Ⅱ类错误
Ⅰ类错误:概率α 拒绝原本正确的H0
ⅡL类错误:概率β 不拒绝原本错误的H0
α越小,β越大
通常事先指定一个较小的α,如果要减小β那就要增加样本量
检验效能
1-β称为检验效能或者把握度
意义是:当所研究的总体与H0有差别时,按检验水准α能够正确发现此差别(拒绝H0)的概率。
1-β=0.9,表示当H0不成立,每100次抽样每次都在同样检验水准上进行假设检验,理论上平均有90次会拒绝H0.
检验效能越高,越节约成本
假设检验和区间估计的关系
置信区间不仅回答有无统计学意义并且提示差别是否具有实际意义
假设检验可以回答有无统计学意义,但无法判断差别是否具有专业价值
假设检验
等级检验
秩和检验
两独立样本秩和检验
总体分布位置是否相同
配对秩和检验
差值的总体中位数为0
定量检验
t检验
单样本t检验
样本均数推断总体均数
v=n-1
配对t检验
差值的总体均数是否为0
减少误差,控制非处理因素,提高统计处理效率
v=对子数-1
独立样本t检验
两样本均数是否来自同一总体
v=n1+n2-2
方差分析(F检验)
完全随机设计方差分析
SS总=SS组间+SS组内
v1=k-1 v2=n-k
随机区组设计方差分析
SS总=SS区组+SS误差+SS处理
处理组和区组
v2=(k-1)(b-1)
定性检验
卡方检验
普通四联表卡方检验
校正
n>40且1≤T<5
n小于40或T<1
用Fisher确切概率法
v=(R-1)(C-1)
列联表卡方检验
多组样本率(构成比)是否有差别
理论频数过小的界定
1/5以上的格子数T小于5
有一个格子数的T小于1
解决办法
扩大样本例数
删除与最小理论频数在同一行或同一列的数据
将最小理论频数附近的同质对象的值合并起来
若两两对比,则犯①类错误的概率增大
配对四联表卡方检验
B=C
若b+c<40,则要校正
参数与非参数检验
参数检验
检验效能高
适用条件严格
非参数检验
优点
受限条件少,适用范围广
具有稳健性
计算简便
缺点
由于未充分利用信息,导致检验效能下降
使用条件
定量 偏态 方差不齐
等级资料
总体分布不明确
数据两端有不确定值
相关系数和回归方程
区别
资料要求不同
相关:X Y均属于双变量正态分布
回归:Y服从正态分布,X可以来自正态总体
应用不同
相关:x y 是平等关系
回归:x y是依存关系,y依赖于x而变化
统计意义不同
r表示直线相互关系的方向和密切程度
b表示X每改变一个单位所引起的Y的平均该变量
取值范围不同
相关:-1≤r≤1
回归:负无穷<b<正无穷
计算方式不同
单位不同
r无单位,b有单位
联系
b与r的正负号一致
相关系数和回归系数的假设检验等价 tb=tr
服从双变量正态分布的同一组资料 r与b可以相互换算
可以用回归解释相关 RR=回归平方和/总平方和
RR无单位,在0≤R方≤1
调查设计
明确调查目的
了解参数,说明总体特征
研究变量间的关系
确定调查对象和观察指标
调查对象
纳入标准
排除标准
确保同质性
观察指标
客观 灵敏 精确的定量指标
确定调查方法和样本量的估计
普查
目的
早期发现疾病
了解疾病的分布
了解人群的健康水平
为病因研究提供线索
普及医学知识
必备条件
疾病患病率高
疾病检验方法不复杂
要有足够的人力物力
优点
不存在抽样误差
能发现特定人群的全部病例
能同时观察多个因素和多个疾病
可进行医学科普宣传
未涉及伦理问题
局限
质量控制难度大
不适合患病率低的
不适合疾病检验方法复杂的
难免出现漏查,漏诊,误诊
抽样调查
目的
通过样本信息反映总体情况
优点
较普查节约人力物力和时间
因为调查对象少,质量易控制
局限
抽样调查实施起来比较复杂
重复和遗漏不易发现
不适合变异过大的疾病
发病率很低或者样本含量超过75%不适用
按照时间分类
横断面研究
病例对照研究
队列研究
抽样方法
随机抽样
整群抽样
单纯随机抽样
系统抽样
k n+k 2n+k
分层抽样
多级抽样
非随机抽样
配额抽样
滚雪球抽样
立意抽样
方便抽样
样本量的估计
保证研究结论具有一定可靠性的前提下,确定最少的调查单位
影响因素
总体大小
总体变异程度
调查所要求的精确度允许误差大小
抽样推断的可靠程度
有效应答率的考虑
估计总体可信区间的大小
α越小,所需要的样本量越大
容许误差
样本统计量和所估计总体参数值之差
调查表的设计
调查表的评价
信度
测量结果的可靠性,一致性,稳定性的程度
效度
调查表的有效性和准确度
可接受性
实验设计
三要素
对象研究
符合排入标准
对处理因素敏感
依从性强
处理因素
实验效应
客观性
稳定性
精密性
特异性
三基本原则
对照
目的:消除非处理因素对实验结果的影响
空白对照
对照组不做任何处理
标准对照
实验组与标准组
实验对照
实验组之间的对照
安慰剂对照
消除对照组的心理因素
自身对照
自身前后对照
重复
目的:消除非处理因素对实验结果的影响
随机化
可比性好
消除主观因素影响