导图社区 统计基础知识思维导图
最详细清晰的统计学知识思维导图,只需要看此导图即可掌握所有基本的统计学知识,有兴趣的可以看看哟。
编辑于2023-06-04 20:45:42 上海生物医学统计概论
Unit 1 预备知识和数据可视化
统计目的:从样本统计量推断总体参数
置信区间
u,u1-u2
p,p1-p2
r,rho,tau
bo,b1,b2
NHST
z-test
t-test
ANOVA
一个样本:包含多个观测值or重复值
采样
非随机采样
随机采样
简单随机抽样 simple random sampling
分层抽样 stratified sampling
分组随机抽样 cluster sampling
多层次组内随机抽样 multi-stage sampling
数据类型
numerical
discrete 个数
continuous 时间
categorical
ordinal(ordered categorical) 排名,程度
nominal(unordered categorical) 颜色 、性别
常用术语
总体:研究对象的全体,通常很大,也可以很少
样本:总体的一部分
自变量:取值不受其他变量影响
因变量:取值依赖于其它变量
概率:离散事件发生的可能性;或连续变量在某个范围内的可能性
研究方法
Observational Study :观察性研究,不进行干预
Experimental Study:实验研究,需要对实验对象进行干预,有伦理问题
Cohort Study:队列研究,被试按一定特征分组,观察若干时间后阴性阳性(不干预,分组)
Case control study:对照研究,以是否阳性作为入组条件回顾性研究
LLN 大数定理:重复多次时频率的稳定性; CLT中心极限定理:大量相互独立的随机变量,其求和后的平均值以正态分布为极限
常用分布函数
正态分布
首先想到均值和标准差
二项式分布
T-分布
小样本,方差未知
以0为中心,左右对称
自由度n越小,T分布曲线越低平,n无限大时,变成正态分布
卡方分布
卡方拟合优度检验
卡方齐性检验
卡方独立性检验
F-分布
两个卡方分布除以其自由度之后的比值
应用:两个正态分布的抽样分布、方差分析、回归分析
Z-分布(标准正态分布)
python
常用统计函数包:pandas,numpy,scipy.stats,matplotlib.pyplot,seaborn
可视化
直方图:histplot,coutplot,barplot,displot,distplot,pairplot
回归图:implot
折线图:lineplot
散点图:scatterplot
箱体图:boxplot:中位点、1/4位点、3/4位点···
密度分布图:kdeplot
双变量关系图:jiontplot
热图(correlation):heatmap
多变量关系图:pairplot
随机分布函数的分析
rvs:随机序列
pdf:概率密度函数
pmf:概率分布
sf:survival function
cdf:累积分布函数
lsf:上分位点
数据正态性评价
QQplot
skewness
Kurtosis
Normality Test
Unit 2 描述性统计
Location 分位点
箱体图的五个参数:Q1-1.5IQR, Q1, median, Q3, Q3+1.5IQR
median 0.5, tercile 1/3, quartile 0.25, quintile 0.2, decile 0.1, percentile 0.01
Central Tendency (数据的集中趋势度)
Mean 平均数
Mode 众数
Median 中位数
Dispersion 分散程度
Range 范围
Xmax-Xmin
Variance 方差
(样本)
(总体)
Standard Deviation 标准差
σ,s
sem 标准误
均值分布的标准差
CV 变异系数
(总体)
(样本)
可以消除测量尺度和量纲的影响
Describing the Distribution(分布的描述)
skewness 偏度
“+”,“0”,“-”
kurtosis(峰度)
正态分布 =3
顿峰 <3
尖峰 >3
fisher's kurtosis=kurtosis-3
entropy 熵
数据分布均衡性
熵值越小,越均衡,反之越无序
Unit 3 连续变量样本均值的比较
单样本或双样本
置信区间
含义
如果重复采样/实验100次,得到100个不同的95%CI,平均下来约有95个95%CI包括总体均值。
总体标准差未知时可以用样本标准差来代替
错误描述
95%CI是样本观测值落入这个区间的概率
95%CI是总体均值落在这个区间的概率
计算方法
单样本置信区间
总体方差已知,z分布
总体方差未知,t分布(df=n-1)
配对样本差值的置信区间 t分布 ((df=n-1)
独立样本差值的置信区间
总体标准差已知 z分布
总体标准差未知但相等:student's t-分布
判断总体标准差相等:stats.levene()
df=n1+n2-2
总体标准差未知且不等:Welch;s t-分布
结果解释:有95%信心认为总体均值落在该95%CI中
NHST
目的
回答是否存在差异,大于还是小于,其中零假设只能证伪
p值
在零假设成立的前提下,发现本样本以及比本样本更极端的情况的概率
p<0.05拒绝零假设,认为有统计显著性差异
p>0.05不能拒绝零假设
常见错误
p是零假设成立的概率
p是假阳性概率
计算方法
单样本
双边
总体方差已知,z检:
用u和sem归一化样本均值,若大于z(α/2),可以拒绝H0
总体方差未知,t检验,df=n-1,用样本方差代替总体方差
n很大的时候,t分布与z分布近似
单边
总体方差已知
大于:stas.norm.sf()
小于:stats.norm.cdf()
总体方差未知
大于:stats.ttest_1sample(alternative="greater")
小于:stats.ttest_1sample(alternative="less")
配对样本
data=data1-data2,视为单样本
stats.ttest_1sample(data2-data1,0)
独立样本
条件:随机样本,正态分布,连续变量
方差齐性 student's t test
方差不齐 Welch's t test
结果解释
只能说明差异是不是显著,不能说明差异大小;也不能说明一定具有实际意义上的显著性
t检验的p<0.05,拒绝零假设,即均值具有统计显著性差异
t检验的p>0.05解释:不能拒绝零假设,即均值差异不具有统计显著性
多样本
多重检验
检测独立时,第一类错误增加
多重比较的显著性不具有传递性,想得到两个样本代表的总体之间是否有显著性差异,必须对他们进行直接的统计检验,而不能通过传递推导
one-way ANOVA
条件:连续变量,组件独立,组内随机取样,观测值独立
原理
SST=SSB+SSW
SST:样本离差平方和;SSB:组间离差平方和;SSW:组内离差平方和
样本变化(SST)可以分解成两部分,一部分是分组造成的(SSB),另一部分是分组不能解释的部分(SSW)
effect size=SSB/SST
F=MSB(组间方差)/MSW(组内方差)=(SSB/dfb)/(SSW/dfw),当观测到比该值更大比值的概率小于当前确定的阈值,拒绝H0
想进一步知道是哪些组间检验达到了统计显著性,需要用post-hoc多重比较,需要对p值校正,:比如Tukey HSD,Bonferroni检验和校正
结果汇报:APA格式
one-way repeated ANOVA
条件:连续变量,组间匹配,组内随机取样观测值独立
two-way ANOVA
三个零假设,两个主效应,一个交互作用(一个因素是否会影响另一个因素对于因变量的作用)
公式:SST=SSA+SSB+SSAB+SSW,然后计算MSA,MSB,MSAB,MSW,再计算三个F值,分别得到四个零假设的显著性水平p值
A的 effect size值:SSA/(SSA+SSW)
好处:节约成本,交互作用,power更大
汇报:APA格式
条件
连续变量
组内正态分布,组间方差齐性
组内随机取样,组件独立
样本量不能太少,组件样本量平衡
Unit 5 相关分析、线性回归
相关性分析
协方差
Pearson相关系数
两个连续变量,计算r显著性的时候,两个变量正态分布,r只表示线性相关性的强弱,r=0并不表示没有相关性,相关性不意味着因果性
spearman ρ
针对非连续变量或XY不服从正态分布,关注数据的相互顺序关系
ρ和r计算公式相同,只是spearman计算的时候,先把数据转换成序号(大小顺序),再用Pearson计算
kendall‘s Tau
针对非连续变量或XY不服从正态分布
kendall’s的可解释性比spearman更好
Pearson r并不一定比spearman ρ大
样本不服从正态分布的话,通过Fisher-Z变换,将其正态化,再在z域计算器置信区间,再通过逆-z变换,计算出相关系数的置信区间
回归分析
目的:解释,预测
解释,对模型的显著性和非共线性要求高
预测,允许模型的显著性差一些,或者有自变量共线的情况(r>=0.8)
简单线性回归
置信区间估计
CIB:样本均值估计 PIB:预测值估计 对观测值和观测均值的估计都是在样本自变量的均值处最准确 随着观测点远离自变量的均值,估计越不准确
前提假设
自变量,因变量呈线性关系
残差项正态分布
自变量不同值的残差项方差齐性
自变量在同一个level
决定系数
反映(回归)模型自变量对因变量的Sum of squares 的解释的比例;在简单线性回归,只有一个自变量的时候,R^2 = r^2,r为Pearson相关系数
多元线性回归
连续的观测变量y与多个因变量的关联
线性“的含义是模型的系数是线性关系,并不是变量间成线性,比如以下线性回归模型:
因变量的SS中有多少比例可以由自变量来解释
系数的显著性对模型的解释作用影响巨大,但是对预测作用影响不大 共线性对模型的解释作用影响巨大,但是对模型的预测作用影响不大
模型的欠拟合和过拟合问题
欠拟合 (under fitting): 对样本解释和未知观测的预测效果都很差
过拟合 (over fitting): 对样本解释的误差非常小,但对未知的观测预测效果很差
实际中,如果两个自变量之间相关系数r >0.8,我们一般不建议同时作为自变量
Unit 4 比例数据的比较
单个样本比例的置信区间
条件:当样本数n不是很小,np>=10,n(1-p)>=10,n<=5%N
在n比较小的时候,需要进行continuity correction ,范围扩大1/2n
两个独立样本比例推断总体比例差异
置信区间
条件:当样本数n1,n2不是很小,n1p1>=10,n2p2>=10,n1(1-p1)>=10,n2(1-p2)>=10,n1<5%N1,n2<5%N2
NHST:H0:pa=pb;H1:pa≠pb
多个独立比例的差异检验——RC联立表卡方检验
H0:PA=PB=PC
df=(r-1)(c-1) 原理:分别建立观测值,期望值的RC联立表,并计算卡方值,当达到和超过这一卡方值的概率小于0.05时,拒绝H0
effect size:关联性强弱
条件:每个单元内的观测值是独立的,来自随机采样的个体;不同单元之间的独立的,没有相互包含关系
2x2联立表:
2x2联立表:
2x2联立表:
大于2x3 RC联立表: 观测数目小于5的单元个数小于20%;
大于2x3 RC联立表: 如果不满足上面两条,可以通过合并单元后进行卡方检验
检验计数的分布特征是否服从某个给定的分布