导图社区 生物统计
生物统计整门课程的知识点,复习的时候对照着做题非常有条理。生物统计是 应用于中的数理统计方法。即用数理统计的原理和方法,分析和解释生物界的种种现象和数据资料,以求把握其本质和规律性。最早提出生物统计思想的是比利时数学家L.A.J.凯特莱,他试图把统计学的理论应用于解决生物学、医学和社会学中的问题。
编辑于2021-05-12 18:41:10生物统计
概念
区间估计
准确度
与真实值的吻合程度,指说对的可能性
即置信度,为1-α
样本资料相同,可信区间置信度越高,准确度越高
精确度
测量结果重复程度
指可信区间的宽窄,可信区间越宽,精确度越差
互相矛盾,越准确,越不精确
参数统计
已知样本服从某分布,然后用这个分布进行统计推断
非参数统计
不依赖某种类型
优点
检验条件比较宽松,适应性强
方法比较灵活,用途广泛
计算相对简单,易于理解
缺点
缺乏针对性,功效不如参数检验高
对信息利用不够充分
单变量统计:描述和分析单个变量的情形
多变量统计:描述和分析两个或多个变量相互之间的关系
统计量
平均数
重要性
各离均差之和等于0
离均差的平方和不大于各测量/观察值与任何数之差的平方和(最小二乘法原理)
算术平均数
样本均数
总体均数μ
条件:单峰对称分布资料,尤其正态分布资料
计算方法
公式法
加权法
频数×组中值÷频数总和
几何均数(G)
条件:等比资料(抗体滴度资料、人口增长等),尤其是对数正态资料
计算方法
直接
加权
注意
观察/测量值不能有0
观察/测量值符号必须相同,或全为正,或全为负
中位数(M)
将一组观察值从小到大排序,位置居中的观察值是中位数
适用性强,是统计学上的“强劲”指标
百分位数
将一组观察值从小到大排序,第x%个观察值就是第x个百分位数
适用条件
偏态分布资料
不规则分布资料或分布不清楚资料
开放性资料
估算方法
小样本资料
大样本资料或频数分布表资料
L:百分位所在组下线
n:总频数
ΣfL:所在组以前的累加频数
fx:所在组的频数
i:组距
比如
全距
也叫极差,用R表示,是一组观察/测量值中最大值与最小值之差
反应个体差异范围:极差大,变异程度大;极差小,变异程度小
优点
计算简单、意义明了
缺点
只反应两个极端值之差,不稳定
四分位间距Q
第25个百分位数P25——下四分位数QL
第75个百分位数P75——上四分位数QU
四分位数间距Q= QU – QL
反映中间一半观察/测量值的极差
优点:计算简单、比极差稳定
缺点:仍没有考虑全体观察/测量值的变异,仍然不够稳定
方差
总体(或者理论)方差用σ²表示
样本(或者估计)方差用符号s²表示
方差越大,变异越大
优点:考虑了所有观察/测量值的变异,比较稳定
缺点:量纲(即单位)发生了改变,有时无法解释
标准差
总体(理论)σ
样本(估计)s
均数单位相同,数值相近时,标准差↑变异程度↑,均数代表性越差
优点:考虑到了全部观察/测量值的变异,单位与原指标相同,比较稳定
无缺点
计算
直接法
加权法
变异系数
又叫离散系数,用CV表示
突出优点
没有单位,便于比较
适用条件
比较单位不同的多组资料的变异程度
比较均数相差悬殊的多组资料变异程度
总结
对称分布资料
集中趋势
算术均数
离散趋势
标准差、变异系数
偏态分布资料(开放性资料)
集中趋势
中位数
离散趋势
四分位数间距
均数的抽样误差
由于存在变异,进行抽样研究,产生抽样误差
标准误
概念:样本均数的标准差
计算
理论标准误
样本(估计)标准误
意义
说明样本均数的变异程度,反映抽样误差的大小
标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大
与样本量的关系
S一定,n↑,标准误↓
样本量越大,标准误越小
总变异
各观察值之间的变异,包括处理因素的作用和随机误差(个体差异)
完全随机设计时,分解为两部分
组间变异
处理组之间的变异,包括处理因素作用和随机变异
组内变异
各处理组不同观察值之间的变异,反应随机变异
组内自由度v=N-k(k是处理的个数,比如k种添加剂)
绝对数:实际观察得到的数据反映真实情况
绝对增长量
说明事物在一定时期增长的绝对值
累积增长量
报告年的指标与某一固定年(基期水平)指标之差
逐年增长量
报告年的指标与前一年指标之差
相对数:两个有关指标之比,用于比较,不能反映真实情况
应用注意事项
分母不能太小
比与率不能混用
合并率(总率)的计算
可比性
抽样误差——假设检验
构成比(构成指标)
表示事物或现象内部各组成部分的比重或分布
特点
总和等于100%或1
不能同时增大或减小
一般结果保留两位小数
率(频率指标)
说明某现象发生的频率或强度
构成比和率是不一样的,不应该看患肺癌的人里有多少吸烟,应该看吸烟的人里有多少患肺癌
注意:分子分母的意义;观察单位;比例基数(100)
率的标准误
总体率的可信区间
小样本(<100)
直接查统计表得到某阳性数的可信区间
样本量不太小,总体率不小不大(np>5,np(1-p)>5)
总体率的可信区间
α=5%,Zα双侧1.96,单侧1.645
相对比
反映指标间的相对水平
定基发展速度
报告期制表的水平相当于基期水平的百分比或倍数
定基增长速度
相对于基期水平,报告期指标净增加的百分比或倍数
环比发展速度
报告期指标的水平相当于上一期水平的百分比或倍数
环比增长速度
报告期指标比上一期水平净增加的百分比或倍数
平均发展速度
某事物在一个较长时期内逐年平均发展变化的速度,环比速度的几何平均数
平均增长速度
某事物在一个较长时期内逐年平均增长的速度
平均增长速度=平均发展速度-1
增加了/增加到;一成/两番(翻了一番是翻了二倍)/性别比/老龄化
分布
正态分布
密度函数
标准正态分布
特征
单峰对称,倒置钟型
正态变换
两个参数
位置参数:μ是对称轴
形状参数:σ越大,图像越扁平(标准差大,不集中)
几个特殊数
(-∞,-2.58)--0.5%
(﹣∞,-1.96)--2.5%
(-∞,-1.645)--5.0%
检验方法
目测法
频数表/图法
正态概率单位法(QQ图)
其他精确方法
峰度
表示分布与正态分布相比的冒尖或扁平程度
0为正态,正为瘦高,负为扁平
偏度
表示分布的不对称程度和方向
0为对称,正左偏,负右偏
如果是偏态资料,估计正常值用百分位数法
卡方分布
概念
设随机变量X1, X2, ······, Xn彼此独立且都服从标准正态分布 N(0, 1),则随机变量
服从自由度为n的2分布,记为
性质
随机变量的取值范围为(0,∞)
若Y1 ~ X² (n),Y2 ~ X² (m),且相互独立,则Y1 ± Y2 ~ ²2 (n ± m)
非对称分布,其分布曲线的形状由自由度决定,自由度越大,分布越趋于对称
当n→∞,X²(n)→N(n,2n)
上侧分位数表

t分布
概念
设Z ~ N(0, 1),Y ~ X² (n),且相互独立,则
x是抽样的平均值
是总体平均值
对于小样本,可以用来算置信区间
服从自由度为n的 t 分布,记为
t~t(n)
比如30个人是一个总体,每次抽5个人,样本不同均数不同,小样本t分布,大样本可能正态分布
性质
与标准正态分布相似
关于 t = 0左右对称
只有一个峰,峰值在t = 0
中点处比标准正态曲线低,两侧尾部比正态曲线翘得高
分布曲线受自由度影响,自由度越小,离散程度越大,与正态分布相差越大
当 n →∞,t(n) ~ N(0, 1)
是一组曲线
自由度一定,t↑,P↓
P一定,自由度↑,t↓
t分布双侧分位数表

F分布
若X~X²(m),Y~X²(n),且相互独立,则
服从自由度为m(第一自由度)和n(第二自由度)的 F 分布,记为F~F(m,n)
性质
F分布随机变量的取值范围为(0,∞)
F分布的分布曲线受两个自由度影响
若F~F(m,n),则1/F~(n,m)
若X~t(n),则X²~F(1,n)
F分布的上侧分位数
F检验是验证方差齐性的
z分布
大样本资料
用这个公式可以算出可信区间
n>100
理论标准差已知
中间空白这段是总体平均值的变化范围,红色部分被排除掉了,红色部分在不可信区间
假设检验
方法
统计推断
根据样本信息推论总体特征
统计量:由样本信息计算得到的统计指标量
总体参数(参数):总体的统计指标
条件
随机独立数据
符合某种条件分布
两个方面
参数估计
总体均数的估计
原理:参数估计的重要内容,从样本均数出发,估计总体均数
点值估计
直接把样本均数作为总体均数估计值
不考虑抽样误差影响
区间估计
总体均数的可信区间
算法
z分布
大样本资料(n>100)
理论标准差已知
t分布
小样本,理论标准差未知
其中的v是自由度,v=n-1
利用样本均数,按一定的可信程度(置信度)估计
比如每次抽10瓶,算一个平均值,那么这些平均值应该分布在一个范围内,用这个区间代表总体
假设检验/显著性检验
目的:找到两个样本均数或一个样本均数和一个总体均数不相同的原因
来自不同的总体,于是代表着本质不同的总体
来自相同的总体,由于抽样误差造成了差异
基本思想:反证法
前提
满足统计推断的条件:随机独立数据,符合某种条件分布
具有可比性(除了要考察的因素外,其他影响结果的因素相同或相近)
均数具有良好的代表性和可靠性
步骤
建立假设
检验假设
又称无效假设,用符号H0表示,认为没有差异
备择假设
H1表示,认为有差异,单侧和双侧不同
确定检验水平(显著性水平)α
选检验方法
z检验
使用条件
大样本正态或标准差已知
z绝对值越大,所对应面积P越小
计算公式
两个大样本正态资料
需要记忆的值
α=5%,Zα双侧1.96,单侧1.645
t检验
t算<t,P>α,差别不显著
普通资料
适用条件
小样本正态资料(样本均数>2倍标准差,可以做近似正态分布)
两样本均数比较时,两总体方差齐(相同)
方差齐性检验
F>Fα,P<α,方差不齐(意味着有差别,和显著性是相同的),要做t'检验
F<Fα,P>α,方差齐,意味着实验误差相等
计算公式
配对资料
受试对象按一定条件配成对子,再分别给予每对中的两个受试对象不同处理,减少偏好等因素的影响
优点:增加了处理组间的均衡性,提高实验效率
设计形式
两组接受两种不同的处理
同一样品,两种不同方法测试
同一受试者,不同时间接受同一种方法处理和测试
比如把老鼠分成三组,体重大中轻,同一组不同喂食方法,计算喂食后的差值
计算
求各对测量值差值的均数和标准差,如果两组之间没区别,差值总体均数应该是0
可以将配对资料的t检验看成差值的样本均数与已知的总体均数0之间的比较
v=n-1
n是受试对象对子数,不是受试数
差数d=一对中的两组实验值相减
成组资料
适用条件:小样本正态资料,方差齐
计算方法
求合并方差
两样本均数的联合标准误
t和自由度v
F检验的α值要比t检验大一点,因为P>α是方差齐,是前提;α↑,P的变化范围↓,要把条件设计得更严格
对于z检验或t检验,我们想看到差异,而P<α是差异显著,α↓,P<α越难,结果可靠性越高
确定概率值P
P是指:如果比较的两个均数代表的总体相同,那么从这两个总体中做随机抽样研究,得到均数差值至少是现在观察到的这么大的概率
P>α,差别无统计学意义,差别不显著
P≤α,差别有统计学意义,差别显著
注意事项
两类错误
Ⅰ类错误
拒绝了实际上成立的H0
本来没差异,因为算出来有差异,所以认为有差异
如果想看不同,有时候α取得再小,也会出现错误
最大允许概率α——显著性水平,是人为确定的,一般为0.05或者0.01
与实验研究中的灵敏度(真阳性率)相对应
Ⅱ类错误
不拒绝实际上不成立的H0
本来有差异,因为算出来没差异,所以认为没差异
概率为β,一般很难确定
与实验研究中的特异度(真阴性率)相对应
1-β称为检验效能或把握度,是指两总体确有差别,按α水准,能发现它们有差别的能力
二者关系
不能同时发生
样本量确定时,α↑,β↓
α确定时,通过增加样本量,可以减少β
发生1或2的原因
抽样及抽样误差
人为确定α的大小
小概率理论:一次事件中,人为认定不可能发生小概率事件
假设检验结论不能绝对化的原因
抽样及抽样误差
人为确定α大小
Ⅰ类或Ⅱ类错误
统计学中差异显著或不显著,并不说明差异的大小,更不能说明在实际生活中作用大小
方差分析
目的
如果用t检验进行平均数之间的两两比较,四个平均数得做六个比较,犯错误第一类的概率(做一次犯错误的概率是α)就是
如果这个比较次数足够多,那犯错误的概率接近100%
减少计算量、降低犯错误的概率
基本思想
根据研究设计方法和分析的需要,将全部观察值之间的变异——总变异,按设计和需要分解为两个或多个部分再作分析
拆开总变异
适用条件
随机独立资料(因为如果不随机,误差也不是随机的)
服从正态分布(因为用的所有公式都是拿正态分布推出来的)
方差齐
应用
两个或多个样本均数比较(多个样本量,方差分析能把错误率降低在α以下)
分析两个或多个因素之间的交互作用
回归方程的假设检验等
情况分类
完全随机设计
单因素方差分析
总变异
各观察值之间的变异,包括处理因素的作用和随机误差(个体差异)
自由度N-1
组间变异
处理组之间的变异,包括处理因素作用和随机变异
ni是各组样本量
是第i组样本均数
自由度k-1
大小都与自由度有关,故计算组间均方
组内变异
各处理组不同观察值之间的变异,反应随机变异
组内自由度v=N-k(k是处理的个数,比如k种添加剂)
组内均方
建立统计量F
如果处理因素没有作用,那么组间均方和组内均方应该相等,就算有抽样误差也不应该相差太大
把数值比较大的放在分子,这样数不至于太小,好查表
组间均方有两个误差(一个是不同处理造成的,一个是随机误差),比较大所以放在分子
随机区组设计
又称配伍组设计,是配对设计的扩大
两因素方差分析
算出F后直接查对应的表去比
把主要考察的因素视为处理因素
n和k都是相对于脚标的水平
SS误差只能用减法算,没有直接公式
多个样本均数两两比较
方差分析只能知道至少有2个不一样,但是不能知道到底哪两个不一样
可以根据两样本均数比较得出哪两个不一样
q检验(SNK法)
先从小到大排序
MS误差是误差或组内均方
α是检验水准
a为比较的两组间包含的组数
v为误差或组内自由度
最小显著法(LSD法)
对多个比较组中,某一对或几对均数的差的总体水平是否为0的检验
计算
多个实验组与一个对照组均数间的比较
q'检验
变量变换
目的
使各组达到方差齐
使资料转换为正态分布
曲线直线化(统计分析对于直线的效果最强)
常用方法
对数变换
使服从对数正态分布的资料正态化;使资料方差齐,尤其是标准差与均数成正比资料;曲线直线化
平方根变换
使服从Poisson分布的资料或轻度偏态资料正态化;使方差与均数成正比的资料方差齐
倒数变换
常用于数据两端波动较大的资料,可使极端值的影响减小
平方根正弦变换
常用于服从二项分布资料或百分比资料,尤其是率或百分数较小(<30%)或较大( > 70%)的资料
动态数列
按照一定的时间顺序,将一系列描述某事物的统计指标依次排列起来,以便观察和比较该事物在时间上的变化和发展趋势
统计指标可以是绝对数、相对数或平均数等
建立在相对比的基础上,有定基比和环比两种方式
常用分析指标
绝对增长量、发展速度、增长速度、平均发展速度、平均增长速度
定基发展速度
报告期制表的水平相当于基期水平的百分比或倍数
定基增长速度
相对于基期水平,报告期指标净增加的百分比或倍数
环比发展速度
报告期指标的水平相当于上一期水平的百分比或倍数
环比增长速度
报告期指标比上一期水平净增加的百分比或倍数
平均发展速度
某事物在一个较长时期内逐年平均发展变化的速度,环比速度的几何平均数
平均增长速度
某事物在一个较长时期内逐年平均增长的速度
平均增长速度=平均发展速度-1
标准化法
条件:小组构成影响总率;小组构成不相同;比较总率
方法
直接法
适用条件:各小组率已知
步骤
选定标准;计算预期发生数;求标准化率
注意事项
标准化率不能反映实际水平,只能用于比较
选用标准不同,标化率会改变,但比较结果只有一个,不能改变(意思是无论标准怎么选,一个都比另一个小)
比较标准化率,也要作显著性检验
率的检验
样本率与总体率比较
阳性数小时,直接算概率P,完成检验
满足近似正态条件时,可以用z检验
近似正态条件:n>100时,阳性和阴性数都>5
两样本率比较
近似正态分布仍可用z检验
Pc是联合率
卡方检验
A是实际观察值,T是理论期望值
自由度v
卡方值由显著性水平和自由度共同决定
成组(四格表)
自由度df=(行数-1)(列数-1)=1
T=min((a➕b),(c➕d))×min((a➕c),(b➕d))
这个T和公式里的不是一个T
abcd在表中的位置是不能动的
n>40,T>5
n>40,1<T<5
n<40,或T<1时,不能用卡方检验
用Fisher确切概率法,在四格表周边合计不变的条件下,利用超几何分布理论,可计算得到某个四格表的概率
配对资料
自由度为1
关联性(独立性检验):同四格表
差异性检验
行×列表
N是样本总量
条件
总样本量不能太小,至少大于50
理论数不能小于1
理论数在1~5之间的不能多于1/5的总格子数
两组有序资料
回答越。。越。。的问题
P=A/N=131/400=0.3275
自由度v=1
拟合优度
也称适合性检验,是卡方检验基本思想最经典的应用,在遗传学中应用广泛,还常用作某分布是否符合某一特定分布的检验
非参数检验
配对资料和单样本资料
符号检验
检验中位数是不是等于某一个数
单样本资料用中位数反应集中趋势比较合适
分别清点大于这个数的观察值和小于这个数的观察值,相等的略去
理论上如果样本中位数是这个数,那么大于和小于的个数应该相等;即使有抽样误差也不会相差很大
小样本查界值表,大样本用正态分布近似
Ns=min[n+,n-],n=n+与n-的和,
注意这里和之前的参数检验相反
如果n>50,是大样本资料,可以用正态分布近似
做z检验,步骤和参数部分一样
符号秩和检验
因为秩和检验只看符号,不看差别的大小;符号秩和检验把差别大小也算进去,效率更高
先计算差值,略去差值为0的,再根据差值的符号分别编秩(按绝对值从小到大,绝对值相同的秩次加起来再平分)
计算不同符号的秩和,总秩和去其中较小者为统计量T
小样本查表得界值
大样本(总对子数n>50),正态分布近似法
成组资料秩和检验
所有观察值统一有小到大编秩,不同样本组的相同观察值取平均秩次
以n1和n2代表两样本组的样本量,规定n1不大于n2,以n1组的秩次和为统计量T
根据n1、n2和α查界值表,得到一个界值范围,如果统计量T在这个范围内(必须在内,边上也不行),则P>α,差别显著
如果界值表上不能查到界值,可以做正态分布近似
如果相同秩次太多,需要校正
等级资料或频数表资料
相同等级秩次相等,先计算合计人数,确定各等级的秩次范围,然后算平均秩次
求秩和:平均秩次×各组各等级人数
由于样本量大,查不到界值,只能用正态分布近似,而且秩次相等的很多,必须校正
t是合计人数,本题中的87、38、64
z算>z,P<α,差别显著
多组资料秩和检验
完全随机化设计-H检验(K-W法)
三组观察值统一从小到大编秩,不同组的相同观察值一律取平均秩次
分布计算各组的总秩和
求统计量H
如果处理组数多于3或者各组样本数太大,不能查到界值,此时统计量H近似自由度df=k-1(k是分组数)的卡方分布,算出H后,和查表得到的卡方值比较
当秩次相同的较多时,用矫正后的Hc
配伍组(随机区组)M检验
每一个配伍组(即各月份)数据从小到大编秩,相同数据取平均编秩
统计量M
以配伍组数b和处理组数k查界值,M越大所对应的P越小
如果配伍组数或处理组数超出界值表,按卡方分布算
b-配伍组数
k-处理组数
自由度df=k-1
多样本两两比较秩和检验
完全随机设计
各样本组样本量相等-Nemenyi法
类似方差分析量量比较q检验
各组样本量不等
计算各对比组平均秩次之差,然后计算各对比组相应界值Tα
k为处理组数,N为样本总量,nA和nB分别为比较组的样本量,C为相同秩次矫正数
如果平均秩次差<界值,则P>α
直线回归
目的:发现并描述两变量之间的依存关系
使用情形/条件
自变量容易测定,容易控制
在各种自变量的情况下,应变量服从正态分布
直线回归方程的建立
方程的一般形式
a是x=0时应变量y的平均估计值
b是回归系数,等于回归直线的斜率,是自变量x每变化一个单位,应变量y平均改变的单位数
截距和回归系数的估计
最小二乘法原理
保证各实测点至直线的纵向距离的平方和最小
回归方程的假设检验
残差:应变量观察值与估计值之间的差
剩余标准差
又称回归标准差,表示应变量的观察值对于回归直线的离散程度
n-2是自由度,因为这条直线固定了两个值,所以自由度是n-2
应变量离均差可分解为
应变量总离均差平方和(总平方和)
分解
回归平方和
残差平方和(剩余平方和)
直线回归方程主要取决于回归系数
如果回归系数有意义,回归方程也就有意义,反之亦然
回归方程的检验就是对回归系数的检验
用方差分析法检验
F服从自由度为v回和v剩的F分布
Sb是回归系数的标准误
直线回归方程的应用
预测
已知自变量的某一个取值时,将该取值代入回归方程中,便可求得对应的应变量估计值,该估计值是对给定自变量条件下的平均值的估计,是条件均值
要得到条件均值的可信区间,首先计算该估计值的标准误(公式不用记)
然后已知自变量的某一个取值,按t分布理论,可以估计得到条件均值的可信区间
个体应变量值的容许区间(比可信区间宽一点)
个体应变量值的标准误
根据t分布估计容许区间
控制
利用回归方程进行逆运算
应该注意的问题
回归分析要有实际意义
先绘制散点图,做初步判断
在自变量的变化范围内进行预测
自变量和应变量必须明确,不能混用
直线相关
概念:双正态变量之间的直线相关关系
几种情形
正相关
负相关
零相关(不相关)
相关程度
用直线相关系数客观反映
特点:没单位,在-1到1之间
分析步骤
绘制散点图,初步判断是否有可能存在直线相关关系
计算样本相关系数
对样本相关系数进行检验
t检验
查rs界值表检验
r算绝对值>r查,P<α,差别显著
注意事项
相关分析要有意义
结论只能局限在所测数据范围内,不能任意外延
相关关系不是因果关系
关系
区别
直线回归用于说明两变量间数量依存变化的关系,描述y如何依赖于x而变化
直线相关用于说明两变量间的直线相关关系,此时两变量的关系是平等的
直线回归是因果关系,直线相关不是
回归分析侧重于研究随机变量间的依赖关系,以便用一个变量去预测另一个变量
直线相关可以应用在大数据初步筛选
联系
相关系数和回归系数的符合一致
相关系数和回归系数的假设检验等价
相关系数和回归系数可以互相换算
可以用回归解释相关,但只能解释部分相关,因为相关可以被很多因素影响
决定系数
等级相关
适用条件
非双正态资料
资料分布型未知
原始数据为等级资料
常用spearman等级相关分析
等级相关系数(不用记)