导图社区 生物统计与试验设计
生物统计与实验设计思维导图:包含正态分布及其应用,各种分布的图形特征,好好看看,决定形状的参数,计量资料的统计推断,计数资料的统计学处理等等
编辑于2022-05-10 17:55:57生物统计与实验设计
绪论
统计资料的类型
计量资料(数值变量)
度量衡方法
观察值
有单位
大多是连续性资料
计数资料(分类变量)
全体观察单位,分组,清点个数,得到数据资料
无单位
离散型
等级资料
全体观察单位按不同程度分类,各类清点个数,得到等级资料
半定量资料
统计设计的步骤
基本概念
总体与样本
总体
有限总体
无限总体
样本
总体中抽取的部分研究对象
样本研究(抽样研究)
代表性、可靠性
变异
可变标志的属性或数值表现在总体各单位之间存在的差异
抽样误差与非抽样误差
产生原因,改进方法
误差:测量/观察值与真实值之间的差异
系统误差
累加性
随机误差
中和性
频率与概率
频率
某事件观察单位数占可能发生该事件的观察单位总数的比值
概率
频率的极限
某种事件发生的可能性
小概率理论
准确性与精确性
准确性
第一位
观察值、测量值与真实值的接近程度
置信度:1-α
精确性
多次观察值、测量值的结果彼此接近的程度
置信区间宽窄:越宽,精确度越低
计量资料的统计描述
频数表的编制
根据频数分布表计算百分位数
不符合正态分布的数据求正常值范围
最容易出题
编制
求极差R
确定组数n,组距i,写出组段
列表划记
用途
揭示资料的分布特征和分布类型
分布范围、峰值、离散情况
单峰资料
对称分布
其中一种是正态分布
非对称分布:偏态分布
便于发现可疑值
便于进一步计算指标和统计分析处理
集中趋势
平均数
算术平均数
单峰对称分布资料
正态分布
各离均差之和等于0
离均差平方和不大于各测量/观察值与任何数之差的平方和
几何均数
等比资料
对数正态资料
注意
观察值不能有0
观察值符号必须相同
中位数和百分位数
偏态分布资料
不规则分布资料或分布不清楚的资料
开放性资料
离散趋势
全距
反映个体差异的范围
极差大,变异程度大
计算简单,意义明了
缺点
只反映两个极端值之差
不稳定
四分位数间距
反映一半观察值的极差
计算简单,比极差稳定
缺点
未考虑全体
不够稳定
方差
方差越大,变异越大
考虑了所有观察值的变异,较稳定
量纲发生改变,有时无法解释
标准差
标准差越大,均数代表性越差
考虑全部变异
单位与原指标相同,比较稳定
无缺点
变异系数(离散系数)
无单位便于比较
比较单位不同的多组资料的变异程度
比较均数相差悬殊的多组资料的变异程度
不同资料的描述方式及计算
配合应用
对称分布资料
集中趋势
算数平均数
离散趋势
标准差
变异系数CV
单位不同的资料
偏态分布资料
开放性
集中
中位数
离散
四分位数间距
正态分布及其应用
各种分布的图形特征,好好看看, 决定形状的参数
应用
估计频数分布
制定参考值范围(正常值范围)
不只是正态分布,t分布 也有正常值范围
绝大多数研究对象的某指标值范围
估计方法
正态分布法
百分位数法
偏态分布
用途
质量控制
多种统计处理方法的基础
太大、太小不正常——单双侧要区分
记住几个重要的值
t分布
性质
与标准正态分布相似
尾巴更翘, 中心更低
关于t=0对称
与正态分布的区别与联系
只有标准正态分布才以μ=0对称
分布曲线受自由度影响
自由度越小离散程度越大
自由度越大
越高
越翘
变异范围更大
当自由度→∞,t→标准正态分布
一组曲线
F分布
随机变量的取值范围为(0,∞)
受两个自由度影响
1/F~F(n,m)
X~t(n),X^2~F(1,n)
计量资料的统计推断
统计推断
样本信息推论总体特征
统计量
样本
样本信息计算得到的统计指标量,样本统计量
参数
总体
总体的统计指标,总体参数
内容
参数估计
点估计
区间估计
假设检验
反证法
目的意义
本质不同
抽样误差
条件
满足统计推断的条件
可比性
除考察因素外,其他条件相近
代表性、可靠性
方式
公式细节要注意,尤其是区别点
z检验
t检验
配对、配伍资料都不用做方差齐性检验,因为配对、配伍就是为了保证方差齐
小样本正态资料
方差齐
成组资料
完成随机设计
R
var.tast:两个样本
bartlett.test:多样本线性
levene.test:多样本,都可以用
注意事项
前提条件
应用条件
结论不能绝对化
常考
Ⅰ
拒绝对的无效假设
最大犯错概率α,显著性水平,认为规定
Ⅱ
接受错的无效假设
最大犯错概率β,难确定
1-β:检验效能或把握度,两总体有差别,按α能发现差别的能力
不能同时发生,样本量确定二者之和定, α确定,增加样本量,可减少β
抽样及误差
人为确定α
小概率理论
差异显著不能说明差异大小,更不能说明实际作用大小
标准误
样本均数变异程度,抽样误差大小
标准误越小,抽样误差越小
样本量增大,标准误减小
资料类型
配对资料
一定条件配对,每对不同处理
增加均衡性,提高效率
成组资料
不做任何限制条件
计数资料的统计学处理
常用相对数指标
概念
绝对数
实际观察的值
反映真实情况
相对数
两个有关指标之比
用于比较
构成比
构成指标
事件内部各组成的比重或分布
特点
总和=1
不能同时增加、减小
保留两位小数
标准化不同要做标准化
率——频率
观察单位
发生某现象的频率
比例基数K=100
相对比
指标间的相对水平
相对比=甲指标/乙指标
增加了/到
一成、两番
性别比
注意事项
分母不能太小
比、率不能混用
合并率(总率)的计算
可比性
抽样误差——假设检验
动态数列
按时间顺序,一系列描述某事物的统一指标依次排列, 时间上的变化、发展趋势
建立在相对比的基础上
定基比
环比
常用指标
是会让算的!!!
绝对增长量
累计
报告时间与基期水平之差
逐年
报告年与前一年
发展速度
定基:报告期水平相当于基期水平的百分比/倍数
环比:相对于上一期
增长速度
定基
净增加相对于基期
发展速度-1
环比
平均发展速度
某一事物,较长时期内平均发展变化的速度
环比速度的几何平均数
平均增长速度
平均发展速度-1
标准化法
条件
小组构成影响总率
小组构成不同
比较总率
目的意义
方法
直接法
各小组率已知
步骤
选定标准
计算预期发生数
求标准化率
注意事项
标准化率不反应实际水平,只用于比较
标准不同,标准化率也不同,但结果一样
要做显著性检验
非参数检验
迫不得已才用
概念
参数统计
以总体分布已知或对分布做出某种假定为前提, 限定分布的估计或检验
非参数统计
总体分布的具体形式无任何限制性假定, 不以总体参数具体数值估计或检验为目的
优缺点
优
检验条件宽松,适应性强
方法灵活,用途广泛
计算相对简单,易于理解
缺
缺乏针对性,功效不如参数检验高
对信息的利用不够充分
方法
符号检验
只考虑符号,不考虑差别大小,信息利用不充分,效率不高
秩和检验
既考虑符号,又考虑差别大小
方差分析
样本量不影响, 公式里把样本量换了就好
基本思想
研究设计方法&分析要求,将总变异按设计和需要分解成多个再做分析
条件
随机独立资料
服从正态分布
方差齐
重点呀!!!
应用
两个或多个样本均数的比较
分析多个因素的交互作用
回归方程的假设检验
出题
方差分析表
F检验的界值
但不一定会直接告诉你是方差分析
给一组数据,方差齐性检验,选择R语言命令,填表
变量变换
目的
方差齐
正态分布
曲线直线化
常用方法
了解一下
对数变换
平方根变换
对原始数据求平方根
泊松分布或轻度偏态资料正态化
倒数变换
两端波动较大的资料,减少极端值影响
平方根反正弦变换
二项分布
百分比
直线回归和相关
直线回归
目的:发现并描述两变量之间的依存关系
条件
自变量易测、易控制
因变量服从正态分布(因变量到回归线的纵向距离
最小二乘法原理
各个实测点至直线的纵向距离平方和最小
假设检验
残差:应变量观察值与估计值之差
剩余标准差:应变量观察值对于回归直线的离散程度
回归系数的假设检验
直线回归方程主要取决于回归系数,系数有意义则方程也有意义
应用
估计总体均值
预测随机个体
控制:逆运算
注意
要有实际意义
先绘制散点图,初步判断
在自变量变化范围内进行预测
自变量、因变量明确,不能混用
直线相关
不是因果
双正态变量之间的直线相关关系
注意事项
分析要有意义
结论局限在所测数据范围内,不能任意外延
不是因果
等级相关
条件
双非正态资料
分布类型未知
原始数据为等级资料
统计图表
知道正确的统计图表长什么样
找错误
统计表内容
标题
项目名称
各项目合计
三线表
最长的线有三条
底部有备注
统计图
标题
图例
轴标/单位
试验设计基本内容
实验的基本要求
代表性
正确性
准确性
精确性
重演性
基本步骤
选定课题
查阅文献
实验设计
确定实验因素
因素水平
实验指标
选取实验材料
制定分组方案、经费预算
实验实施
实验记录
结果整理
得出结论、撰写论文
目的
良好的实验设计是各种xx的先决条件
避免系统误差,降低、控制随机误差,估计误差大小
无偏估计处理效应→对样本所在总体做出可靠、正确的判断
使多种试验因素包括在很少的实验中,提高效率
基本概念
指标
衡量实验效果的质量特征
类型
定量指标
定性指标
实验种类
多指标实验
单指标实验
原则
客观性
特异性
处理能引起的效应
增加区分能力
灵敏性
受试者
仪器
实验方法
精确性
变异度小
误差小
因素及其水平
能对实验指标产生影响的要素
类型
定量因素
连续变化
定性因素
离散状态
实验类型
单因素实验
双因素实验
多因素实验
因素水平
实验因素所处的某种特定状态或者数量等级
类型
可用具体数值表示
无法用具体数值表示
设置
判断因素水平是否合理,过宽or过窄
看是否出现峰值,以及峰值两侧的长短
原则
数目适当3-5个
水平范围及间隔大小要合理
水平间隔
等差法
等比法
方法
单因素预实验
水平幅度大,处理数多
较少或不设重复
正式实验
精选因素和水平
较多重复
实验条件
除实验因素外,其他对实验指标有影响的因素
实验处理
实施在实验单位上的一种具体措施
单因素实验中,1个水平就是1个处理。如 A1, A2...。 多因素实验中,由于因素和水平较多,1个水平组合是1个处理。如A1B1,A1B2,A2B1, A2B2。
实验单位(实验单元)
接受不同实验处理的独立实验载体
根据实验设计做好分组
≠实验材料
实验类型
全面实验
实验因素的所用水平组合,全部实验1次以上的实验
特点
优点
获得全面信息、结果
缺点
工作量大,耗费多
各因素水平相等时:试验次数=水平^因素
部分实施
全面实验中选取有代表性的处理进行实验
要点
实验条件具有代表性、典型性
比较间遵循唯一差异原则
不遵循时,要设置对照
使处理因素和非处理因素的差异有一个科学对比
对照组与处理组之间,除处理因素外,其他条件尽可能保持一致
类型
空白对照
不施加任何处理
实验对照
不施加处理,但施加某种实验因素
动物假手术
标准对照
不设立专门对照组,使用现有标准值
自身对照
对照与实验在同一对象上进行
天竺葵光合作用产淀粉
实验误差及其控制
误差:真值与标准值之间的偏差
类型
系统误差
准确性
同一被测量对象进行多次测量所得结果的平均值与真值之差
特点
重复性
无法通过增加次数降低
单向性
可测性
来源
方法
仪器
试剂
操作
控制
对照
对照实验:判断是否存在
标准样品对照:校准仪器
标准方法对照:实验方法
空白对照:校正测量值
盲实验
消除主观意愿
随机化
将各实验单元完全随机分配在实验的每个处理中
作用
降低或消除随机误差
保证对随机误差的无偏估计
随机误差
精确性
测量结果与样本均值之间的差值
特点
偶然性
无法校正,但可估计
增加测量次数可减小
控制
费雪三原则
重复
一个处理实施在2个及以上的实验单位上
重复数:一个处理实施的实验单位数
估计系统误差,统计随机误差,降低标准差
局部控制
实验环境、实验单位差异较大
当非试验因素干扰无法排除,采取一定的技术措施或方法来控制
使区组内接受不同处理的实验单位具有最大的一致性
平衡性
实验规模一定时,使个处理内重复数相等
影响因素
实验材料
测试方法
仪器设备和试剂
实验环境条件
实验操作
随机实验设计
完全随机设计
原则
重复
随机
将全部实验单元随机分成若干组,再按组施加不同的处理
条件
实验条件一致,无较大的干扰因素
各个实验单元基本一致,相互间不存在已知联系
考察因素简单
处理组数不宜多,不然很难保证方差齐
含义
实验单元随机分组
随机分组
两个处理
多个处理
随机数表+余数
单元与处理随机结合
处理顺序随机安排
单因素
双因素
特点
优点
简单,体现两原则
处理数、重复数不受限制
可采用t-test(两个处理)和方差分析(多个处理)进行统计分析
解答了选用什么方法分析的疑惑
缺点
实验条件不均匀,非实验因素归入实验误差→误差较大
随机区组设计
原则
局部控制
随机排列
将实验单元按干扰因素不同划分为有重复次数的组
每个区组为一次完整的重复
区组内干扰因素差异最下
区组间干扰因素允许存在差异
在方差分析时将区组变异分离
完全随机区组设计
区组内实验单元含量=处理数
意思是一个区组内将所有处理都实施一次
处理重复数=区组数
优点
符合费雪三原则
机动灵活:对实验因素数目没有严格限制; 对实验条件要求不严
实验实施易进行:以区组为单位,易于控制非处理条件
特点处理数最好在15个以内,不超过20个
正交实验设计
部分实验代替全面实验
概念和原理
从全部水平组合中挑选有代表性的水平组合
原理
每个因素的每个水平和其他因素的每个水平只碰到一次
目的
寻找最优组合
正交表
概念
性质
正交性
均衡分布
代表性
综合可比性
种类
标准正交表
可以考察互作效应
基本列
交互作用列
水平非标准表
基本步骤
明确实验目的,确定实验指标
选择合适正交表
进行表头设计
不考察互作效应
考察互作效应
确定试验方案,实施
正交实验结果的统计分析
极差分析
不考察互作效应
考察互作效应
方差分析
解题方式(字越多,分越多): 是什么样的条件,为什么要用这种检验; 写清楚α值; 根据选择的R语言命令的结果下结论。
清晰判断资料类型
看课本!!!