导图社区 统计学
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。干货满满,赶快收藏学起来吧!
编辑于2019-07-02 09:54:32统计学 第六版 贾俊平
第四章 数据的概括性度量
一、集中趋势的度量
1.众数(MO):
2.中位数(Me)
子主题
3.四分位数(QL、QU)
4.均值(X):
5.几何平均数(G)
6.众数、中位数和均值的比较
二、离散程度的度量
1.异众比率:(Vr)越大,众数的代表性就越差
2.四分位差(Qd)
3、极差(R)
4.平均差(Md)
5.方差和标准差(σ²、σ)
样本方差和标准差的符号用S²和S表示,其公式中的分母应n-1或Σf-1来表示。
标准分数
性质:平均数Z=0 标准差σZ =1
经验法则:当一组数据对称分布时,约有68% 的数据在平均数加减1个标准差的范围之内;约有95% 的数据在平均数加减2个标准差的范围之内;约有99% 的数据在平均数加减3个标准差的范围之内。统计上把落在3个标准差之外的数据称为异常值或离群点
6.标准差系数(Vσ) 离散系数或变异系数
三、偏态与峰态的度量
1.偏态系数(SK)
SK=O说明数据是对称分布SK为正,是正偏即右偏SK符号为负,则为负偏即为左偏;SK大于1或小于-1,称为高度偏态分布
2.峰态系数(K)
峰态系数为0,表明数据服从标准正态分布K>0时为尖峰分布;数据的分布也更集中K<0时为扁平分布,数据的分布也越分散
第五章 抽样分布与参数估计
一、概率抽样方法
1.简单随机抽样
重复抽样和不重复抽样
2.分层抽样
3.系统抽样
等距抽样或机械抽样
4.整群抽样
二、抽样分布
1.样本均值的抽样分布
无论重复抽样还是不重复抽样,样本均值的数学期望始终等于总μ),即 Ε(X)=μ
样本均值的抽样平均误差(标准误差σx)
2.样本比例的抽样分布
np≥ 5和n(1-p)≥ 5,就可以认为样本容量足够大
:无论重复抽样还是不重复抽样,样本比例的数学期望始终等于总体比例(π),即E(P)=π
样本比例的抽样平均误差(标准误差σP)
3.样本方差的抽样分布
样本方差的抽样分布服从自由度为(n-1)的χ2分布
子主题
三、总体参数的区间估计
1.估计方法及评价标准
点估计
区间估计
① 无偏性:估计量抽样分布的数学期望等于被估计的总体参数,E(θ^)=θ;② 有效性:在无偏估计的条件下,估计量的方差越小,估计也就越有效;③ 一致性:是指随着样本容量的增大,点估计量的值越来越接近被估计总体的参数。
2.一个总体参数的区间估计
总体均值(μ)的区间估计1-α的置信水平下
大样本
总体σ2未知,且小样本
总体均值区间估
正态总体未来观测值的预测区间估计某个未来观测值Xn+1的预测区间
未来观测值Xn+1预测误差比总体均值μ的估计误差要大。
总体比例(π)的区间估计:1-α的置信水平下
总体方差(σ²)的区间估计
3.两个总体参数的区间估计
两个总体均值之差的估计
大样本
小样本σ²1=σ²2
1.假定条件 ① 两个总体都服从正态分布 ② 两个总体方差未知但相等:σ²1=σ²2③ 两个独立的小样本(n1<30和n2<30)
小样本σ²1≠σ²2
两个总体均值之差的估计(匹配大样本)
1.假定条件① 两个匹配的大样本(n1≥30和n2≥30)② 两个总体各观察值的配对差服从正态分布
两个总体均值之差的估计(匹配小样本)
1.假定条件① 两个匹配的大样本(n1<30和n2<30)② 两个总体各观察值的配对差服从正态分布
两个总体比例之差的区间估计
1.假定条件① 两个总体服从二项分布② 可以用正态分布来近似③ 两个样本是独立的
两个总体方差比的区间估计:
四、样本容量的确定
1.估计总体均值的样本容量
2.估计总体比例时的样本容量的确定
大多数情况下,取E的值小于0.10;实际应用中,若π未知,可用样本比例P代替;当π无法知道时,通常取π(1-π)最大值为0.5代替
3.估计两个总体均值之差时样本容量的确定
第六章 假设检验
一,基本步骤
(显著性水平α是指当原假设实际上正确时,检验统计量落在拒绝域的概率
p<α,拒绝原假设
α:原假设实际正确,犯第一类错误的概率,弃真错误
二、一个总体参数的检验
1.总体均值的检验
大样本
小样本
2.总体比例的检验 np≥5
3.总体方差的检验
三、两个总体参数的检验
1.两个总体均值之差的检验
大样本
小样本
σ²1和σ²2已知,检验统计量运用Z分
σ²1和σ²2未知但是相等自由度为(n1+n2-2)的t分布
σ²1和σ²2未知但不相等,但是样本容量相等自由度为(n1+n2-2)=2(n-1)的t分布
σ²1和σ²2未知但不相等,且样本容量不等 自由度为v的t分布
2.两个总体均值之差的检验:匹配样本
3.两个总体比例之差的检验
(1)假定条件 ① 两个总体都服从二项分布 ② 可以用正态分布来近似
4.两个总体方差之比
一般是将较大的样本方差作为分子,而将较小的方差作为分母,这样都可以用右侧检验的结果来作判断是否拒绝原假设H0
第七章 方差分析
一、基本问题
1.概念及基本原理
方差分析是检验多个总体均值是否相等的统计方法。研究的是分类型自变量对数值型因变量是否有显著影响的问
2.方差分析所涉及的概念
① 方差分析的种类
单因素方差分析
双因素方差分析
无交互作用的双因素方差分析
有交互作用的方差分析
② 方差分析中误差平方和与均方差
总平方和SST反映全部数据误差大小的平方和
组内平方和SSE(误差项平方和)反映每个样本内部误差大小的平方和,只含有随机误差
组间平方和SSA(水平项平方和)反映了各个样本均值之间误差大小的平方和,既包含随机误差,也含系统误差
三者关系:SST=SSE+SSA
3.方差分析中的基本假定
① 每个总体都应服从正态分布;② 各个总体的方差σ²必须相同:③ 观测值是独立的。
二、单因素方差分析
主要分析一个分类型自变量对数值型因变量是否有显著影响,也就是检验自变量的K个因素水平(K个总体)的均值是否相等的问题
1.提出假设H0:μ1 =μ2 =… =μK自变量对因变量没有显著影响H1:μ1,μ2,…,μK不全相等,自变量对因变量有显著影响
2.计算各样本均值、总均值及三个误差平方和
3.构造检验统计量
4.统计决策
若F>Fα,则拒绝原假设H0
若F<Fα,则不拒绝原假设H0
5.计算关系强度系数/判定系数R²
6.方差分析中的多重比较
最小显著差异法,LSD
① 提出假设:H0∶μi =μj,H1∶μi≠ μj② 计算检验统计量:Xi-Xj③ 计算LSD④ 统计决策:根据显著性水平α作出决策,如果abs(Xi-Xj)>LSD,则拒绝H0,说明两均值之间存在显著差异
三、双因素方差分析
1.无交互作用的双因素方差分析
① 提出假设对行因素提出的假设为H0:μ1 =μ2 =… =μi =… =μk(μi为第i个水平的均值)H1:μi(i=1,2,…,k)不全相等对列因素提出的假设为H0:μ1 =μ2 =… =μj =… =μr(μj为第j个水平的均值)H1:μj(j=1,2,…,r)不全相等
② 算四个平方和、三个均方差
③ 构造检验统计量
④ 统计决策
若FR〉Fα,拒绝原假设H0
若FC〉Fα,拒绝原假设H0
⑤ 关系强度的测量
联合效应与总平方和的比值定义为R²
2.有交互作用的双因素方差分析
第八章 一元线性回归
二、相关分析
3.相关系数
总体的相关系数记为ρ,样本相关系数记为r
r=0,不存在线性相关关系
对称性:rxy =ryx
r数值大小与x和y原点及尺度无关,即改变x和y的数据原点及计量尺度,并不改变r数值大小
4.相关系数的检验
三、一元线性回归
2.相关分析与回归分析的联系与区别
联系:两者研究的对象是一致的,都是现象的相关关系;相关分析是回归分析的基础和前提,回归分析是相关分析的延伸和深入。区别:① 研究目的的侧重点不同:相关分析侧重于变量之间的关系强度,回归分析侧重于考察变量之间的数量伴随关系。② 研究的测度方法不同:相关分析测度工具主要是计算相关系数;回归分析测度方法是建立变量之间的回归方程。③ 研究的变量地位不同:相关分析两个变量都是随机变量,两者地位是对等的;回归分析中,因变量是随机变量,而自变量是非随机变量,即是确定变量,两者地位是不对等的
4.回归直线的拟合优度
判定系数R²
5.估计标准误差
6.显著性检验
①线性关系的检验
第1步:提出假设H0:β1 =0H1:β1≠ 0两个变量之间的线性关系显著
第2步:计算检验统计量F检验
第3步:作出决策
F>FαP<α拒绝原假设
② 回归系数的检验
四、回归方程的估计和预测
1.点估计
2.区间估计
五、残差分析
标准化残
根据标准化残差图可以直观地判断误差项ε服从正态分布这一假定是否成立。如果这一假定成立,在标准化残差图中,大约有95% 的标准化残差在-2到+2之间。
第九章 多元线性回归
一、多元线性回归模型与回归方程
多元回归模型
y=β0 +β1x1 +β2x2 +… +βkxk +ε
多元线性回归方程
E(y) =β0+β1x1+β2x2+… +βkxk
二、回归方程的拟合优度
多重判定系数R²
修正的多重判定系数R²
修正的多重判定系数Ra²永远小于R²
估计标准误差
三、显著性检验
1.线性关系的检验
① 提出假设H0:β1 =β2 =...=βK =0;H1:β1,β2,…,βk至少有一个不等于0
③ 作出统计决策若F >Fα,则拒绝原假设,说明总体线性关系显著
2.回归系数的检验
① 提出假设H0:βi =0(自变量xi与因变量y没有线性关系)H1:βi≠ 0(自变量xi与因变量y有线性关系)
③决策:ABS(t)〉tα/2,拒绝H0
回归系数的置信区间
四、多重共线性现象
1.多重共线性的判别
① 模型中各对自变量之间显著相关;② 当模型的线性关系检验(F检验)在统计上显著相关,但几乎所有回归系数βi的t检验却不显著;③ 回归系数的正负号与预期的相反
2.多重共线性的问题处理
① 将一个或多个相关的自变量从模型中剔除,使保留的自变量之间尽可能不相关;② 如果要在模型中保留所有的自变量,那应该避免根据t统计量对单个参数β进行检验;③ 对因变量y值的推断(估计或预测)限定在自变量样本值的范围内。
第十章 时间序列分析和预测
一、时间序列的组成要素
平稳型序列
非平稳型序列
1.长期趋势(T)
2.季节变动(S)
3.循环波动(C)
4.随机变动(I)
乘法模型/加法模型
二、时间序列的描述性分析
1.图形描述
2.增长率分析(增长速度) 发展速度减1
① 环比增长率
②定基增长率
平均增长率
年度化增长率
增长1% 绝对值
三、平稳序列的预测 消除其随机波动
简单平均法
移动平均法
;主要适合对较为平稳的序列进行预测
;对于k为偶数时,移动平均需进行二次修正移动,也叫“中心化”处理,以保证预测的序列与原始序列的时期相对应
指数平滑法(一次指数平滑法)
① 只有一个平滑系数
②观察值离预测时期越久远,权数变得越小
选择α时不同的α会对预测结果产生不同的影响。当时间序列有较大的随机波动时,宜选较大的α,以便能很快跟上近期的变化;当时间序列比较平稳时,宜选较小的α还应考虑预测误差。用误差均方来衡量预测误差的大小;确定α时,可选择几个进行预测,然后找出预测误差最小的作为最后的值。
四、趋势序列的预测
1.线性趋势预测
① 对得出的线性趋势方程及参数,还应当用前面介绍的检验方法,对线性回归方程去检验其统计显著性。
② 通过趋势方程可以计算出各期的预测值,并通过这些预测值来分析序列的变化趋势及其模型,也可以进行外推预测。
③ 上述求b和a公式有简捷法,也称“零点法”;
④ 趋势预测的误差可用回归中的估计标准误差来衡量
2.非线性趋势预测
① 抛物线型(二次曲线)
Y^t =a+bt+ct²
子主题
② 指数曲线型
当现象的长期趋势每期大体上按相同的增长速度递增或递减变化时,可拟合为指数曲线方
五、季节变动分析
目的
:一是掌握季节变动规律,为当前的决策提供依据
;二是对未来现象季节变动作出预测,以便提前作出合理安排
;三是消除季节变动对时间序列的影响,以便更好地分析其它因素。
1.原始资料平均法
对原始时间序列不剔除长期趋势影响,直接计算季节指数的方法
2.趋势-循环剔除法
六、循环变动分析
目的
一是从数量上揭示事物循环变动的规律性
二是研究不同事物周期性波动的内在联系及循环波动原因
三是通过对循环规律的认识对事物的发展作出科学的预测,
1.直接法
子主题
2.剩余法