导图社区 统计学
统计学考研必备宝典~内容涵盖数据分类与统计方法,参数估计与假设检验,方差分析,时间序列,多元统计分析知识点总结。
编辑于2023-02-25 22:04:52 北京市统计学
描述统计
数据分类与统计方法
数据分类
分类数据
顺序数据
数值型数据
统计方法
描述统计
图表描述
概括性度量
推断统计
抽样分布
参数估计
假设检验
其他方法
列联分析
分类数据-分类数据
方差分析
分类数据-数值型数据
判别分析|Logist 回归分析
数值型数据-分类数据
回归分析
数值型数据-数值型数据
要点
根据不同数据类型及维度来选择合适的统计方法
分类型数据
整理
方法
频数分布表
根据各分类数据的频数整理成频数|频率|比率|比例表
分类
一维|简单频数表
二维|列联表或交叉表
多维|多维列联表
图表描述
条形图📊
定义
根据各类别频数,用条形图的高度来表示数据多少的图形
分类
维度分类
一维|简单条形图
二维|复式条形图
并列条形图
堆叠条形图
脊形图
三维|马赛克图
变量位置
水平条形图
柱状图
特点
能够看出哪类数据出现的多,哪类数据出现的少
高度有意义,宽度没有意义
复式条形图便于比较两组数据,直观方便
帕累托图
将各类别频数按照降序排列,画出累计频率百分比
能否升序?不!遵从二八法则
饼图
定义
用圆形和圆内角度画出的图形
分类
一维|简单饼图
二维|复式饼图
用于比较同一总体不同变量的构成比例
作用
用来研究各类别占总体的构成比例,适合结构性研究
扇形图
定义
将占比最大的类别画成扇形,其他类别按照其比例大小按照不同半径叠在最大扇形上
作用
用于比较各类别的相对差异
环形图
定义
将饼图叠在一起,挖去中间的部分
作用
用于比较不同总体同一变量的构成比例
概括性度量
集中趋势
用于表述一组数据向其中心值靠拢的程度
众数
定义
一组数据中出现次数最多的变量值
特点
优点|不受极端值影响
缺点|具有不唯一性
应用
适用于分类,顺序,数值型数据
且在数据量较多时有意义
离散程度
用于描述一组数据远离其中心值的程度
异众比率
定义
非众数组占的频数
特点
异众比率越大,众数代表性越差
异众比率越小,众数代表性越好
作用
用于衡量众数对一组数据的代表程度
顺序型数据
整理
同分类数据一致
图表描述
同分类型数据一致
累计频数|率分布图
按照各类别顺序或组的频数逐级相加
分类
向上累计
向下累计
概括性度量
集中趋势
同前|众数
分位数
中位数
定义
一组数据中按顺序排列后处于中间位置的变量值
特点
优点|不受极端值影响
应用
适用于顺序数据和数值型数据
数据偏斜程度较大时代表性更好
四分位数
25%|下四分位数
75%|上四分位数
离散程度
同前|异众比率
四分位差
定义|上四分位数与下四分位数的差值
作用
用于衡量中间50%数据的离散程度
数值型数据
整理
分组处理
单变量值分组
就相当于是未分组
适用于离散变量且变量值较少的情况
组距分组
等距分组
步骤
确定组数 K=(Log N/Log 2)+1
确定组距
画出频数分布表
原则
不重不漏
上组限不在内
开口组
不等距分组
降维打击
转化成分类数据进行处理
图表展示
分组
直方图
定义|用矩形的高度和宽度来表示数据多少人图形
高度和宽度均有意义
各矩形连续排列
时间序列
线图
时间在横轴,观测值在纵轴
10:7 图形过扁或过宽不利于数据表达和解释
数据缺失要处理-拟合or 差值补齐
未分组
低维
茎叶图
定义|展示未分组的原始数据及分布状况的图形,由茎和叶组成
优点
能够显示原始数据及分布
能够及时添加和删除,不需要重新绘制
箱线图
定义|中位数,上下四分位数,最值画出的图形
技巧
平均水平看中位数的位置
离散程度看箱子的长短
偏斜程度看中位数在箱子中的位置
画法
应用
一组或两组数据的比较
小提琴图
本质|箱线图和核密度曲线的结合
作用
能够显示各位置的密度,可以看出哪些位置数据分布密集
误差图
可用于比较多组数据分布状况
中维
气泡图
三个变量间的关系
散点图
两个变量间的关系
矩阵散点图
雷达图
高维
轮廓图
闪电图
脸谱图
星相图
概括性度量
集中趋势
众数
未分组
分组
均匀分布
非均匀分布
分位数
未分组
分组
平均数
算数平均数
几何平均数
调和平均数
离散程度
异众比率
四分位差
极差
最大值减最小值
受极端值的影响
绝对离差
有绝对值符号,不便于计算
标准差
方差
相对位置
标准分数
计算公式
作用
用于检验某个数据在一组数据中的相对位置
检验异常值
对称分布|经验法则
1|68%
2|95%
3|99%
非对称分布|切比雪夫
2|75%
3|89%
4|94%
特点
不改变数据在该组数据中的位置
不改变数据分布的状态
相当于做一个线性变换
相对离散程度
变异系数
计算公式
作用
消除数据本身水平高低和计量单位不同的影响
用于比较多组数据的离散程度
分布形状
偏态
与正态分布比较
判别准则
=0|正态分布
>0|右偏
<0|左偏
峰态
与标准正态分布比较
判别准则
=0|正态分布
>0|尖峰分布
<0|平峰分布
概率论与数理统计
随机事件与概率
古典概型
不放回抽样
彩票问题
有放回抽样
盒子模型
几何概型
会面问题
蒲丰投针
贝特朗奇论
最大号码问题
配对问题
罐子模型
摸彩模型
迭代求第n次概率
证明无关性
赌本模型
全概率与贝叶斯模型
证明题
随机变量及其分布
多维随机变量及其分布
大数定律与中心极限定理
抽样分布
基本问题
统计量
为什么要构造统计量
统计量类型
常用统计量
充分统计量
顺序统计量
分布类型
抽样分布
渐进分布
近似分布
常用统计量
正态分布
卡方分布
t分布
F分布
原理
中心极限定理
总体均值
总体比例
总体均值差
总体比例差
参数估计与假设检验
参数估计
基本问题
基本概念
(1)
参数估计
非参数估计
非参数回归
(2)
估计量
估计值
(3)
置信水平
置信区间
二者的关系
参数估计
点估计
定义
方法
矩估计
最大似然估计
EM算法
顺序统计量
缺点
一个具体的点估计值无法给出可靠性度量
评估
无偏性
有效性
一致性
区间估计
定义
影响区间宽度的因素
置信区间
一个总体参数的参数估计
总体均值
大样本|正态总体
方差已知
方差未知
小样本&正态总体
方差已知
方差未知
总体比例
大样本|正态总体
小样本
总体方差
大样本|正态分布
两个总体参数的参数估计
两个总体的均值差
独立样本
大样本|正态总体
方差已知
方差未知
小样本&正态总体
方差已知
方差未知
方差相等
方差不等
匹配样本
大样本|正态总体
方差已知
方差未知
小样本&正态总体
方差已知
方差未知
两个总体的比例差
样本量相同
样本量不同
两个总体方差比
样本量的确定
影响因素
单总体
双总体
假设检验
引论知识
参数与非参假设检验
参数假设检验
非参假设检验
两个独立样本
两个配对|单样本
符号检验
Wilcoxon符号秩检验
分布的检验
K-s检验
拟合优度检验
Liffor正态分布检验
统计推断
参数估计
假设检验
二者的联系与区别
联系
区别
假设检验的基本问题
假设检验的定义
基本思想
思想1
原假设
小概率原理
P值
定义
大小
优缺点
思想2
原假设与备择假设
拒绝域与接受域
两类错误
第一类错误
第二类错误
深度思考
步骤
提出原假设与备择假设
选择适当统计量
确定显著性水平和相应的拒绝域
计算检验统计量
作出决策
拒绝与接受原假设
方法
临界值法
p 值法
置信区间法
一个总体参数的假设检验
单侧与双侧检验问题
总体均值
大样本
方差已知
方差未知
小样本
方差已知
方差未知
总体比例
大样本
总体方差
正态分布
两个总体参数的假设检验
总体均值差
大样本
方差已知
方差未知
小样本
方差已知
方差未知
方差相等
方差不等
总体比例差
大样本
检验比例相等
检验比例不等
总体方差比
正态分布
匹配样本的问题
列联分析
列联分析原理与思想
总
卡方统计量
公式
作用
特征
方法分类及步骤
拟合优度
原理
本质
分类
二项分布
多项分布
泊松分布
正态分布
检验比例
步骤
提出假设
计算统计量
根据显著性水平求临界值
作出决策
独立性检验
原理
步骤
提出假设
计算统计量
根据显著性水平求临界值
作出决策
若拒绝,则进行相关性测量
fai系数
公式
特点
C系数
公式
特点
V 系数
公式
特点
若不拒绝,说明调查数据的差异是由抽样的随机性引起的
列联分析注意事项
独立性检验|百分比方向问题
原因
抽样方法
XY 方向互换
卡方检验期望准则
准则
解决方案
补充
辛普森悖论
拟合优度与列联分析二者的区别与联系
方差分析
方差分析引论
what
方差分析及相关概念
方差分析的定义及本质
定义
本质|分类数据对数值型数据的影响
有关术语
因素或因子
水平或者处理
观察值
总体
因素下每个水平看成一个总体
方差分析的思想原理
误差分类
组内组差
组间误差
平方和
总平方和
组内平方和
组间平方和
误差分析
why
为什么叫方差分析
虽然我们感兴趣的是均值,但是要借助方差
它是通过对数据误差来源的分析判断不同总体的均值是否相同
为什么要用方差分析
假设检验的缺点
方差分析的优点
how
如何判断各总体间均值是否有差异
图示法|散点图
参数估计/假设检验
方差分析
步骤
非参方法
单因素|K- S
多因素|Friedman 秩方差分析
方差分析各步骤模块
基本假定
正态性
内容
检验
图示法
直方图和茎叶图
PP图和QQ图
偏度|峰度检验
偏度和峰度的极限分布
雅克贝拉检验
拟合优度检验
非参检验
K-S 检验
W 检验
EP 检验
解决方案
方差齐性
内容
检验
图示检验法
箱线图
残差图
Hartley 检验
Bartlett 检验
修正的Bartlett 检验
Levene 检验
解决问题
独立性
内容
解决问题
多重比较
LSD
HSD
SNK
Dunnett t检验
Sidak
其他方法|参数估计-假设检验
参数估计
极大似然估计
参数估计
单因素方差分析
含义
数学模型及解读
步骤
基本假定
提出假设
计算统计量
总均值
各误差平方和
均方误差
做出决策
画出方差分析表
效应量
多重比较
双因素方差分析
无交互双因素方差分析
含义
数学模型及解读
步骤
基本假定
提出假设
计算统计量
总均值
各误差平方和
均方误差
做出决策
画出方差分析表
效应量
多重比较
有交互双因素方差分析
同上
实验设计
大类
完全随机化设计
单因素方差分析
随机化区组设计
无交互的双因素方差分析
析因设计
有交互双因素方差分析
多因素方差分析
原则
重复性
随机性
适宜性
回归分析
基础知识
入门基础知识
变量间关系
函数关系
相关关系
定义
散点图
相关系数
相关系数检验
相关系数特点
回归分析
定义
为什么是线性
就参数而言是线性的
为什么是均值
目的
回归分析一般形式
假设条件
零均值
子主题
相关分析与回归分析
区别
联系
流程与步骤
选模型
估计
检验
评价
应用
一元线性回归
模型
总体
总体回归模型
总体回归函数
样本
样本回归模型
样本回归函数
假定
自变量和因变量之间是线性关系
自变量是非随机模型
随机误差项
零均值
同方差
不相关
正态性
与自变量无关
参数估计
最小二乘估计
思想及步骤
性质
线性
无偏性
有效性
最大似然估计
思想及步骤
性质
线性
无偏性
最优性
矩估计
思想及步骤
拟合优度与显著性检验
拟合优度R方
回归方程显著性检验
回归系数的显著性检验
相关系数检验
三者关系
回归预测
点预测
区间预测
多元线性回归
模型
总体
总体回归模型
总体回归函数
样本
样本回归模型
样本回归函数
假定
自变量和因变量之间是线性关系
自变量是非随机模型
随机误差项
零均值
同方差
不相关
正态性
与自变量无关
自变量
无多重共线性
参数估计
最小二乘估计
思想及步骤
性质
线性
无偏性
有效性
最大似然估计
思想及步骤
矩估计
思想及步骤
拟合优度与显著性检验
多重样本决定系数
调整的多重样本决定系数
回归方程显著性检验
回归系数的显著性检验
相关系数检验
模型选择
均方误差
调整的样本决定系数
AIC准则
SC准则
Cp准则
回归预测
点预测
区间预测
误差项
随机误差项
为什么要引入
作为未知影响因素的代表
作为无法取得数据的已知因素的代表值
作为众多细小影响因素的综合代表
模型的设定误差
变量的观测误差
经济现象的内在随机性
包括
人们认识的局限性
变量的观测误差
理论模型设定的误差
其他随机因素
不满足情况
均值不为零
不会产生严重后果
它只影响回归方程的截距项
非正态
目的
估计
影响不大|OLSE还是BLUE
预测或假设检验
影响较大
异方差
原因
模型缺少重要自变量
测量误差产生异方差
截面数据中总体各单位的差异
模型函数形式设定有误
后果
最小二乘估计不再最优
参数显著性检验和置信区间不可靠
参数估计量方差有偏,t检验不可靠
预测精度降低
检验
图示法
y和x散点图
残差和x的散点图
统计检验法
Spearman 等级相关检验法
Gleiser检验与Park 检验
Goldfeld-Quandt 检验
White 检验
解决方案
加权最小二乘
模型的对数变换
异方差稳健型估计法
相关性
原因
假自相关|遗漏了关键自变量
假自相关|采用错误的回归函数形式
经济变量的滞后性
蛛网现象
对数据加工整理不当,如消除季节因素不恰当差分
随机误差项本身的自相关
后果
参数估计值不再是最小方差线性无偏性
均方误差可能严重低估误差项方差
F检验和t检验失效
因变量预测精度降低
检验
图示法
残差前后期的散点图
残杀的时间序列图
统计检验法
Durban-Watson 检验
DW统计量
判别准则
DW检验局限性
Durbin h 检验
Breusch-Godfrey 检验
自相关系数法(很少用)
解决方案
原因分析法
模型错误|换模型
关键变量遗漏|根据实际找出被省略的自变量
一阶差分法
基于广义差分法
非线性回归法
Durbin 两步法
C-O迭代法
HAC 异方差自相关一致性方差法
Box-cox变换法
数据异常值
相关概念
异常点分类
离群点
高杆杠点
强影响点
残差性质
如何检验
描述统计法
茎叶图
散点图
残差图
标准分数
用残差来检验异常值和强影响点
异常值
关于y的异常值
残差
标准化残差
学生化残差
删除残差
删除学生化残差
关于x的异常值
杠杆值的平均值
中心化的杆杠值
x和y一起的强影响点
库克距离
DFFITS准则
产生原因及解决方案
数据登记误差
重新核实数据
数据测量误差
重新测量
数据随机误差
删除或重新观测
缺少重要自变量
增加必要自变量
缺少观测数据
增加观测数据
存在异方差
加权线性回归
模型选用错误
改用非线性
变量问题
变量选择
全模型与选模型
定义
影响
估计
回归系数有偏
参数估计方差更小
预测
预测是有偏的
预测残差更小
预测的均方误差小于预测方差
总结
解释变量的冗余
后果
计算量大
回归方程稳定性差
多重共线性
检验
F检验
补救
变量选择
变量选择的准则&方法
不能用
残差平方和
复相关系数
复决定系数
why
准则|自变量较少
自由度调整复决定系数
平均残差平方和
赤池信息量AIC达到最小
Cp统计量达到最小
BIC
SIC
方法|自变量较多
传统计量方法
前进法
后退法
逐步回归
最小二乘约束|惩罚因子
Lasso
岭回归
降维打击
偏最小二乘法
主成分分析法
变量选择
指导思想|少而精
原则|结合实际
结构分析
预测
控制
古典假定中的问题
多重共线性|针对多元回归
定义
完全共线性
近似共线性
多重共线性性质
相关系数
四步曲
产生原因
经济变量之间内在的联系
产生后果
研究目的
结构分析
预测
多重共线性程度
完全共线性
近似共线性
判别
有没有多重共线性
直观判别法
哪些变量之间存在多重共线性
判定系数检验法
不包括某一变量的判断系数
容许度和方差扩大因子
特征值和条件指数
补救措施
原因分析法
增加样本量
删除不重要的解释变量
利用先验信息
截面数据和时间序列数据并用
变换法
变量变换
模型变换
差分法
变量选择法
传统变量选择
最优子集
逐步回归法
最小二乘约束|惩罚因子
Lasso
岭回归
降维打击
偏最小二乘法
主成分分析法
内生性
定义
产生原因
后果
判别
Hausman 检验
补救措施
工具变量法
二阶段最小二乘估计
广义矩估计
样本个数不足即小于自变量个数
有偏估计
抽样技术
数据的来源
间接来源
统计部门,信息机构,期刊等
注意事项
Who
Why
How
When
直接来源
调查数据
社会现象
实验数据
自然现象
搜集数据的调查方法
分类
抽样方式
概率抽样
定义
简单随机抽样
定义
特点
局限性
分层抽样
定义
优点
要求
层内方差小
层间方差大
系统抽样
定义
优点
缺点
整群抽样
定义
优点
要求
群间方差小
群内方差小
多阶段抽样
非概率抽样
定义
分类
方便抽样
定义
优点
缺点
判断抽样
定义
优点
缺点
自愿样本
滚雪球抽样
定义
优点
适用
配额抽样
流动总体|捕获再捕获抽样
做法
适用性
评价
优点
缺点
适用性
二者的比较
升维思考
广义狭义
搜集数据的基本方法
自填式
面坊式
电话式
搜集数据的实验方法
数据的误差
抽样误差|可计算
抽样框误差
影响抽样误差的因素
非抽样误差
误差的控制问题
时间序列
传统时间序列
时间序列的分解
Wold分解定理
平稳序列
确定性
随机性
要求
确定性序列和随机性序列不相关
残差的方差
ARMA模型的理论基础
Cramer分解定理
分解
确定性
确定性分解
随机性
要求
两个部分或平稳或不平稳
确定性因素分解定理
传统
长期趋势
循环波动
季节性变化
随机波动
现在
趋势
线性
非线性
季节性
随机性
模型
乘法模型
加法模型
确定性因素分析的原因
时间序列描述性分析
线图
增长率
环比
平均
注意事项
观察值出现0或负数,不宜使用
不能单纯就增长率论增长率,要注意与绝对水平的结合分析
时间序列预测程序
确定时序的成分
趋势
线图
回归分析
作回归分析系数显著性检验
季节
折叠时间序列图
自相关分析
选择方法
原则
数据变化模式
平稳
简单平均法
移动平均法
简单指数平滑
ARMA模型
非平稳
趋势
线性趋势推测
非线性趋势推测
holt指数平滑法
差分平稳
趋势+季节
季节多元回归模型
时间序列分解法
winter指数平滑法
季节自回归模型
ARIMA模型
数据的多少
数据少
数据多
预测长度要求
短期
移动平均
简单指数平滑
中期
Holt指数平滑
一元线性回归
指数模型
多项式模型
Winter指数平滑
长期
含季节哑变量的多元回归
分解预测
ARIMA模型
评估预测方法
残差独立性,正态性,方差性检验
残差相关
平均误差
平均绝对误差
均方误差MSE
平均绝对百分比误差
平均百分比误差
利用最佳模型去预测
时间序列方法介绍
平稳
简单平均法
思想
特点
移动平均法
思想
分类
K期中心移动法
适用于数据丢失的情况
K期简单移动平均
特点
简单指数平滑
思想
模型
平滑系数的确定
ARMA模型
非平稳
趋势
线性趋势推测
模型
非线性趋势推测
指数曲线
多项式模型
holt指数平滑法
思想
模型
差分平稳
升维:若残差自相关,尽量避免使用最小二乘法
趋势+季节
季节多元回归模型
时间序列分解法
确定并分离季节成分
季节指数
定义
计算方法
建立模型并预测
计算最后的预测值
winter指数平滑法
加法模型和乘法模型略有差别
加法模型
乘法模型
ARIMA模型
交易日复合型
X-11
王燕-时序分析
时间序列基础知识
简介
描述性时间序列分析
时域时间序列分析
方法总介绍
一般情况
MA模型
AR模型
ARMA模型
ARIMA模型
异方差
多变量
非线性
时间序列的预处理
特征统计量
均值
方差
自协方差
自相关系数
平稳性检验
平稳序列的定义
严平稳
宽平稳
图示法
时序图
自相关图检验
统计检验法
纯随机性检验
纯随机性定义
纯随机性性质
方法介绍与汇总框架
平稳
白噪声
停止分析
非白噪声
ARMA模型
AR
MA
ARMA
传统平稳序列分析
平稳
简单平均法
思想
特点
移动平均法
思想
分类
K期中心移动法
适用于数据丢失的情况
K期简单移动平均
特点
简单指数平滑
思想
模型
平滑系数的确定
非平稳
差分
白噪声
随即游走模型
停止提取信息
非白噪声
ARIMA模型
差分与ARMA模型的结合
季节模型
加法季节模型
乘积季节模型
随机性与确定性
无相关
同方差
确定性因素分解
趋势
线性趋势推测
模型
非线性趋势推测
指数曲线
多项式模型
holt指数平滑法
思想
模型
升维:若残差自相关,尽量避免使用最小二乘法
趋势+季节
季节多元回归模型
时间序列分解法
确定并分离季节成分
季节指数
定义
计算方法
建立模型并预测
计算最后的预测值
winter指数平滑法
加法模型和乘法模型略有差别
加法模型
乘法模型
异方差
GARCH模型
ARCH模型
自相关
同方差
残差自回归模型
异方差
AR-GARCH模型
其他类
多变量
协整
非线性
双线性模型
门限自回归模型
时序分析步骤
计算问题
多元时间序列
多元统计分析
数理基础与计算
多元正态分布
概念
统计距离
多元正态定义与性质
多元分布及抽样分布
聚类分析
判别分析
主成分分析
因子分析
对应分析
典型相关分析