导图社区 应用统计学-张建同
这是一篇关于应用统计学-张建同的思维导图,主要内容包括第1章统计和统计,数据收集,第2章统计图表,第3章统计数据的描述度量,第4章抽样与抽样分布,第5章假设检验。
编辑于2023-02-08 13:48:25 山东省应用统计学-张建同
第9章 方差分析
多总体假设检验
因素、水平、观测值
原假设:自变量对因变量没有显著影响( ) 备择假设:自变量对因变量存在显著影响( )
基本假设
(一)正态性——每个总体应满足正态分布 (二)方差齐性——每个总体的方差应相同 (三)独立性——数据观测值是独立的。
(一)正态性假设的检验
1.图形检验法 P-P图和Q-Q图
2. 参数检验法: K-S检验(大样本)/S-W检验(小样本)
(二)方差齐次性假设的检验
1.图形检验法 箱线图
2.参数检验法 Levene检验
总平方和(total error),反映全部数据误差值的平方和,记为SST。 组间误差平方和(between-group error sum of squares),反映组间误差值的平方和,记为SSA。 组内平方和(within-group sum of squares),反映随机误差值的平方和,记为SSE。
误差平方和的分解
结果分析
进一步的分析
均值的多重比较-最小显著性差异(LSD)法
两两比较的方法
LSD法:最小显著性差异法(Least Significance Difference),是最简单的比较方法之一。它是t检验的一个简单变形,并未对检验水准做出任何校正,只是在标准误(注意不是标准差)的计算上充分考虑了所有总体水平的样本信息,估计出了一个更为稳健的标准误。因为单次比较的显著性水平a保持不变,所以LSD法是最灵敏的事后多重比较法。 Sidak法:Sidak校正在LSD法上的应用。通过Sidak校正降低每次两两比较的“弃真”错误概率,以使最终整个比较的“弃真”错误概率保持为显著性水平a。这也就是说每次比较的显著性水平a会随着比较次数的增多而减小。显然,Sidak法比LSD法的灵敏度低。 Bonferroni法:与Sidak法类似,它的每一次比较实际上是Bonferroni校正在LSD法上的应用。Bonferroni法修正后每次比较的显著性水平比Sidak法的更小,也就是说Bonferroni法比Sidak法的灵敏度更低。 Scheffe法:Scheffe法的实质是对多个总体均值间的线性组合是否为0进行假设检验。多用在两组样本含量不同的情况。 Dunnett法:常用于多个试验组与一个对照组间的比较。因此在指定Dunnett法时,还应当指定对照组。 以上五种方法的排列顺序是按照灵敏度从高到低排列的,LSD法>Sidak法>Bonferroni法>Scheffe法>Dunnett法。
形成同质亚组的方法
SNK法:全称为Student-Newman-Keuls法。它实质上是根据预先指定的准则将各组均值分为多个亚组,利用Studentized Range(学生化的极差分布函数)来进行假设检验,并根据所要检验的均值个数调整总的“弃真”错误概率不超过设定的显著性水平a。 Tukey法:全称为Tukey' s Honestly Significant Difference法。应用这种方法要求各组样本含量相同。它也是利用Studentized Range分布来进行各组均数间的比较,与SNK法不同地是,它控制所有比较中最大的“弃真”错误概率不超过设定的显著性水平a。 Duncan法:其思路与SNK法相类似,只不过检验统计量服从的是Duncan' s Multiple Range分布。
相关和回归
相关关系
两变量间关系的度量-散点图
两变量间关系的度量——相关系数r
Pearson相关的使用条件
两个变量都是数值型数据。 两个变量之间是线性关系,都是连续数据。 两个变量的总体是正态分布,或接近正态的单峰分布。 两个变量的观测值之间相互独立。
相关系数的性质
性质1:r 的取值范围是 [-1,1] |r|=1,为完全相关 r =1,为完全正相关;r = -1,为完全负相关 r = 0,不存在线性相关关系 -1r<0,为负相关; 0<r1,为正相关 |r|越趋于1表示关系越强;|r|越趋于0表示关系越弱 性质2:r具有对称性。 性质3:r数值大小与x和y原点及尺度无关。 性质4:r=0只表示两个变量之间不存在线性相关关系。 性质5:相关系数没有倍数的意义
相关和回归的联系
理论和方法具有一致性; 无相关就无回归,相关程度越高,回归越好; 相关系数和回归系数方向一致,可以互相推算。
一元线性回归
y为因变量,x为自变量
为截距, 为直线斜率
和 是模型的参数
为一个随机变量,称为误差项,表示除x之外,其他因素或者是无法观测的因素对y的影响
基本假定
①假定y与x之间为线性关系。
②假定自变量X是非随机的,在重复抽样中为固定值。
对随机误差项的假定
参数的最小二乘估计
判定系数
取值范围在 [ 0 , 1 ] 之间 一元线性回归中,判定系数等于相关系数的平方,即R2=r2
软件结果分析
显著性检验
回归方程总体的显著性检验——F检验
决策准则 给定显著性水平 ,若F>F ,则拒绝H0 ,否则,不能拒绝 。 给定显著性水平 ,求出统计量的P值,若P < 则拒绝 H0 ,否则,不能拒绝 H0 。
回归系数的显著性检验——t检验
利用回归模型进行预测和控制
当样本容量 N 足够大时,
残差分析
残差是因变量的观测值与其对应的估计值之差。
正态性
方差齐性
独立性
D-W检验
非线性回归
. 曲线回归的分析步骤 1. 确定函数类型 正确选择变量间相关关系的函数类型,是提高曲线拟合精度的关键。通常可根据有关专业知识来决定;也可通过分析样本数据的散点图后确定。 2. 对样本数据作线性化处理 3. 用线性回归方法求解和分析 4. 代换为非线性回归方程
配置曲线的原则
多元线性回归
模型
多元线性回归模型
求解:最小二乘
基本假定
1. 零均值。给定的任何值,是一个期望值为零的随机变量,(│) =0。
2.方差齐性。无论 的值如何变化,的方差都是相同的,该方差用^2表示,因此对于 的任何值,的方差也是相等的,均为^2 。
3.正态性。是一个服从正态分布的随机变量,即~(0,^2),因此也是一个服从同样正态分布的随机变量。
4.独立性。不同的是相互独立的,也就是对于任何一个给定的值,它所对应的值和其他 值所对应的值是不相关的。相应地,对于任何一个给定的值,其所对应的 和其他值所对应的值也是不相关的。
判定系数
多重判定系数 指回归平方和占总平方和的比例,反映因变量y取值的变差中,能被估计的多元回归方程所解释的比例,其值介于0-1之间。
修订的多重判定系数
显著性检验
总体的显著性检验F
分析因变量和所有自变量之间的关系是否显著
各个回归系数的显著性检验t
确定回归模型中的自变量对因变量影响的显著性
多重共线性
指模型中两个或者两个以上的自变量高度(但不完全)相关的现象。
多重共线性出现的原因有以下几种: (1)经济变量之间存在较为密切的关系 (2)经济变量之间存在相同的趋势 (3)模型中引入滞后变量容易产生多重共线性
识别方法: (1)对各自变量之间的相关系数进行显著性检验 (2)考察各回归系数的显著性 (3)分析回归系数的正负号 (4)计算模型的容忍度和方差扩大因子
预测和控制
虚拟变量(哑变量)
定性变量通常能够以二元信息的形式呈现。因此,通常用0-1变量来为模型引入相关的定性信息,称之为虚拟变量(dummy variables)或哑变量。
第8章假设检验
第一步:提出原假设和备择假设; 第二步:选择显著性水平及样本容量; 第三步:获得样本数据; 第四步:计算检验统计量的值; 第五步:根据临界值法或者P值法,做出统计决策。
临界值法
P值法
单总体假设检验
两总体假设检验
第5章 抽样与抽样分布
总体参数&样本统计量
正态分布
正态分布检验
图示法
直方图
分位图(Q-Q 图)
概率图(P-P图)
统计量法
偏度-峰度检验法
JB检验(样本数据n>30)
检验法
Shapiro-wilk检验(样本数据50>n>3)
Kolmogorov-Smirnova(K-S检验)大样本
sig值>0.05
其它方法
标准正态分布Z~N(0,1)
T分布
CHI分布
F分布
中心极限定理:考虑从一个服从任意分布且均值为、标准差为的总体中选取容量为的随机样本。当样本容量足够大时( n ≥30 ),样本的均值 ̅将近似服从均值_ ̅ =、方差_ ̅^2=^2/的正态分布。样本量越大,样本的均值 ̅的分布越接近正态分布。
第3章 统计数据的描述度量
3.1度量中心(集中)趋势的平均指标
平均数
算数平均数
简单算术平均数AVERAGE
加权算术平均数SUMPRODUCT
几何平均数
n 个数连乘积的 n 次方根
众数MODE
总体中出现次数最多的标志值,记为Mo。
众数明确反映了数据分布的集中趋势,也是一种位置平均数,不受极端数据的影响。
并非所有数据集合都有众数,也可能存在多个众数
分组数据众数
中位数MEDIAN
将总体各单位标志值按由小到大的顺序排列后处于中间位置的标志值称为中位数,记为Me
位置平均数,不受极端数据的影响
分组数据中位数
四分位数QUARTILE
排序后处于25%和75%位置上的值
不受极端值的影响
五数汇总和箱线图
Pearson发现,对于多数常见的只有一个众数的统计数据,中位数多介于众数和均值之间,仅当对称分布时,三者相等。
3.2度量离散程度(变异性)的指标
极差
四分位差
QD = QU - QL
平均差
方差标准差
未分组数据的方差与标准差
分组数据的方差与标准差
Z值
3.3度量偏斜程度的指标
偏度
峰度
3.4度量两种数值变量关系的指标
协方差
相关系数
第2章 统计图表
2.1基础图表
汇总表/频数分布表
频数
百分比
累积百分比
开口三线表
条形图
定性变量
分类汇总
条形图/竖形图
帕累托图
帕累托原则:数据的绝大部分存在于很少类别中,极少剩下剩余的数据分散在大部分类别中。
饼图
定量变量
未分组
排序
茎叶图
用于显示原始数据的分布
由“茎”和“叶”两部分构成
茎叶图类似于横置的直方图,但又有区别
直方图可大体上看出一组数据的分布状况,但没有给出具体的数值
茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
分组
分组规则
等距分组和不等距分组
组数+组距分组
通常:上组限不含在内(10-20)
Excel:上组限包含在内
组中值的作用
带小数数据的分组
直方图
累积频数
2.2对比类图表
折线图/时间序列图
面积图
对比条形图
堆积柱形图
频数多边形
环形图
并列饼图
柱线图
散点图
2.3其他图表
茎叶图
箱线图
地图
数据大盘
2.4管理常用曲线
正态分布
偏态分布
J形曲线
U形曲线
对数图
2.5交叉表
列联表
并行条形图
2.6数据可视化:创建有效图形
图表不能扭曲数据。
图表不应有不必要的修饰图(有时是图表垃圾)。
任何两维图标应尽可能地在坐标轴上标上刻度。
纵轴的起始点应该合理。
所有的轴应合理布置。
图表应包含标题。
使用最简单的图表。
图表的选择
第1章 统计和统计数据收集
1如何理解“统计学”的概念
收集、整理和分析客观现象数量规律
统计对象的特点
“统计”的3种含义
2统计基本术语
变量、数据
总体、个体、样本
参数、统计量
3数据收集的方式
普查
抽样调查
概率抽样
简单随机抽样
分层抽样
整群抽样
系统抽样
多阶段抽样
非概率抽样
方便抽样
判断抽样
重点调查
典型调查
4抽样调查
5几种社会调查数据及调查方式
6问卷设计
7变量及类型
定类
定序
定距
定比