导图社区 统计思维架构
以下介绍了统计与数据科学、描述统计、抽样调查、回归分析、时间序列分析等内容,希望梳理的内容对你有所帮助!
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
第四部分 统计
统计与数据科学
Z.23
统计学
描述统计
Z.24
对数据分布特征的测度
集中趋势的测度
均值
中位数
众数
三者比较
离散程度的测度
方差
标准差
离散系数(变异系数.标准差系数)
分布形态的测度
偏态系数
取值
=0
>0
0~0.5之间
0.5~1之间
>1
<0
0~-0.5之间
-0.5~-1之间
<-1
标准分数
Z=(原始分数-平均分数)/标准差
68%【-1,1】
95%【-2,2】
99%【-3,3】
变量间的相关分析
相关关系的分类
相关的程度
完全相关
不完全相关
不相关
相关的方向
正相关
负相关
相关的形式
线性相关
非线性相关
相关关系的度量
散点图
pearson相关系数
正线性相关
0<r≤+1
负线性相关
-1≤r<0
完全正线性相关
r=1
完全负线性相关
r=-1
不存在线性关系,可能存在非线性关系
r=0
IrI
IrI≥0.8
高度相关
0.5≤IrI<0.8
中度相关
0.3≤IrI<0.5
低度相关
IrI<0.3
极弱,可视为无线性相关
推断统计
参数估计
假设检验
变量和数据
变量
定量变量(数量变量)
定性变量
分类变量
顺序变量
数据
定量数据(数值型数据)
分类数据
顺序sh数据
数据的来源
按收集方法
观测数据
实验数据
按使用者的角度
一手数据
二手数据
统计调查
按调查对象的范围不同
全面调查
统计报表
普查
非全面调查
抽样调查
Z.25
抽样调查的基本概念
总体
样本
总体参数
样本统计量(估计量)
抽样框
抽样调查中的误差
抽样误差
随机
非抽样误差
抽样框误差
无回答误差
随机因素
非随机因素
计量误差
几种基本的概率抽样方法
概率抽样
简单随机抽样
有放回
不放回
分层抽样
等比例分配
不等比例分配
层内差距小,层间差距大
系统抽样
整群抽样
群内差距大,群与群的结构相似
多阶段抽样
J1-整群抽样
J2-简单随机抽样
非概率抽样
判断抽样
方便抽样
自愿抽样
配额抽样
估计量与样本量
估计量的性质
一致性
无偏性
有效性
抽样误差的计算
样本估计量的方差=(1-样本量/总体个数)*总体方差/样本量
实践中,总体方差是未知的,通常用样本方差来替代
影响抽样误差的因素
与总体分布有关
与样本量有关
与抽样方式和估计量的选择有关
利用有效辅助信息的估计量也有效减少抽样误差
样本量的影响因素
调查的精度
总体的离散程度
总体的规模
大规模~几乎没有影响
小规模~规模越大,为保证相同估计精度,样本量也随之增大(但不是等比例的)
无回答情况
经费的制约
其他因素
重点调查
典型调查
按调查登记的时间是否连续
连续调查
不连续调查
数据科学与大数据
数据科学
大数据
特性4V
数据量大
数据多样化
结构化数据
非结构化数据
半结构化数据
价值密度低
数据的产生和处理速度快
数据挖掘
类型
指导学习或监督学习
无指导学习或非监督学习
常用的算方
分类
聚类分析
关联分析
趋势与演化分析
数据可视化
科学可视化
信息可视化
回归分析
回归模型
回归分析与相关分析的关系
联系
有共同的研究对象
在具体应用时常常必须互相补充
相关分析依靠回归分析表明现象数量相关的具体形式
回归分析依靠相关分析标明现象数量变化的相关程度
区别
在研究目的和方法上明显区别
相关分析研究变量之间的相关的方向和相关的程度
回归分析是研究变量之间相关关系的具体形式
类别
自变量的多少
一元回归模型
多元回归模型
是否线性
线性回归模型
非线性回归模型
公式
E(Y)=a+bX+c
回归方程
E(Y)=a+bX
最小二乘法
原理:使得因变量的观测值与估计值之间的离差(残差)平方和最小,来估计a和b的方法
模型的检验与预测
检验内容
结合经济理论和经验分析回归系数的经济含义是否合理
对模型进行假设检验
t检验
小于0.05,假设不成立
分析估计的模型对数据的拟合效果如何
决定系数R²
0≤R²≤1
时间序列分析
时间序列及其分类
时间序列构成要素
被研究对象所属时间
反映该现象一定时间条件下数量特征的指标值
时间序列的分类
绝对数
时期序列
时点序列
相对数
平均数
时间序列的水平分析
平均发展水平的计算
简单算术平均数
连续时点
每天登记
指标值变动登记
加权算术平均数
间断时点
每次登记间隔相等
两次平均:均为简单算术平均
每次登记间隔不等
(二次平均)第二次平均计算加权算术平均数
是派生数列,由两个绝对数对比形成
增长量与平均增长量
项目
增长量
=报告期水平-基期水平
逐期增长量
=报告期水平-报告期前一期水平
累计增长量
=报告期水平-最初水平
平均增长量
=累计增长量/(最末时间-最初时间)
平均增长量是时间序列中逐期增长量的序时平均数
时间序列的速度分析
发展速度与增长速度
发展速度
定基发展速度
=报告期水平/最初水平
环比发展速度
=报告期水平/报告期前一期水平
关系
定基积
定基发展速度=相应时期内各环比发展速度的连乘积
环比比
两个相邻时期定基发展速度的比率=相应时期的环比发展速度
增值速度
定基增长速度
=报告期累计增长量/基期水平=定基发展速度-1
环比增长速度
=报告期逐期增长量/基期水平=环比发展速度-1
平均发展速度与平均增长速度
平均发展速度
是一定时期内各期环比发展速度的序时平均数
几何平均法
平均增长速度
一定时期内逐期增长(降低)变化的一般程度
=平均发展速度-1
速度的分析与应用
当时间序列中的指标值出现0或负数时,不宜计算速度
速度指标的数值与基期的大小有密切关系
在环比增长速度时间序列中,各期的基数不同,因此运用这一指标反映现象增长的快慢时,往往要结合【增长1%的绝对值】分析,这一指标反映同样的增长速度,在不同时间条件下所包含的绝对水平
增长1%的绝对值=报告期前一期发展水平*1%
平滑预测法
目的
“消除”时间序列的不规则成分所引起的随机波动
适用于
平稳时间序列的预测,即没有明显的趋势、循环和季节波动的时间序列
移动平均法
使用时间序列中离预测期最近K期数据值的平均数作为下一期的预测值
指数平滑法
预测值F(t+1)=平滑系数a*第t期实际观察值Yt+(1-a)*第t期预测值Ft a为平滑系数,0<a<1
特点:观测值离预测期时期越久远,其权重也变得越小,呈现出指数下降