导图社区 统计学
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。干货满满,赶快收藏学起来吧!
编辑于2021-06-06 20:06:51统计学
1.总论
统计与统计学
统计的含义
统计工作
统计资料
统计学
统计研究的特点
数量性
数量规模
数量关系
数量界限
总体性
具体性
必须明确它所对应的客观现象、时间条件、空间限制以及计量单位等
统计学的类型
根据方法功能
描述统计学
推断统计学
方法研究重点
理论统计学
应用统计学
统计学的基本要素
总体、个体和样本
变量与变量值
变量
变量值
变量的具体表现
参数和统计量
参数
描述总体特征
是一个常数
唯一的
统计量
描述样本特征
随机变量
取值具有随机性,不唯一
统计数据
数据的计量尺度
定类尺度
定序尺度
定距尺度
定比尺度
数据的类型
分类数据、顺序数据、数值型数据
定型数据和定量数据
截面数据、时间序列数据、面板数据
截面数据
同一时间不同空间的数量情况
时间序列数据
同一空间不同时间的数量情况
面板数据
不同空间不同时间的数量情况
大数据
数值型数据的表现形式
绝对数
相对数
相对指标
两个相互联系的变量数值对比的比率
分类
结构相对数
总体中部分数值与全部数值的比率
总体中部分数值/总体中全部数值
无名
比较相对数
某个总体或个体对另一个总体或个体的同一变量数值的比率
某个总体或个体的某个变量值/另一个总体或个体的同一变量值
无名
动态相对数
发展速度动态相对数=报告期数值/基期数值
增长速度动态相对数=(报告期数值-基期数值)/基期数值
无名
强度相对数
两个性质不同但有联系
强度相对数=某一总体的变量值/另一有联系但性质不同总体的变量值
有名/无名
计划完成程度相对数
实际完成/计划任务数
无名数
平均数
静态平均数
同类现象某一数字变量值在同一时间的
动态平均数
同类现象某一数字变量在不同时间的一般水平
2.统计数据的搜集
统计数据的来源
统计调查组织方式
普查
全面调查方式
时点;全貌
特点
一次性/周期性
需要规定统一的标准调查时间
规范化程度较高
抽样调查
非全面调查,可判断总体
随机产生
目前应用最广
个体间差异不大
特点
经济性
时效性强
适应面广
准确性高
统计报表
自上而下统一布置,自下而上逐级填报
按照范围
全面报表
非全面报表
重点调查
总体中选择少数重点单位进行调查(个体间差异大)
重点单位:频数极少,但某一数量标志在其总量中却占有很大比重
目的
了解事物的基本情况,结果不用于推断总体
典型调查
选择一个或几个有代表性的单位进行调查
单位应能反映所调查问题的本质属性或特征
定性分析,结果一般不能用于推断总体
统计数据的搜集方法
直接来源
调查
被调查者知情
观察
被调查者不知情
实验
收集方法
询问调查
面访
电话调查
网络调查
邮寄调查
座谈会
个别深访
观察实验
观察
实验
感兴趣P18-21秃噜一遍
数据的间接来源
二手数据
注明出处
收集二手资料在研究中应优先考虑
难以适应和反映现实中正在发生的新情况、新问题
二手数据的评估 P22-23简要阅读
统计调查方案设计
统计调查方案的设计原则
科学性
可行性
有效性
统计调查方案的内容
明确调查对象
确定调查对象和调查单位
选择调查的组织方式
选择调查方法
设计调查项目和调查表
规定调查的时间
经费预算
调查工作的组织实施
调查数据的处理与分析
调查报告的撰写
调查问卷设计
问卷的作用
问卷的类型
问卷的基本结构
问卷的设计原则
问卷的设计流程和技巧
统计数据质量评价
统计数据误差
抽样误差
由于抽样的随机性
抽样误差是不可避免的
抽样误差可以计算和控制
非抽样误差
除抽样的随机性外其他原因引起的误差
非抽样误差在调查中普遍存在
理论上可以消除,但事际中并不能完全消除
统计数据的质量评价
精度
最低的抽样误差
准确性
最小的非抽样误差
关联性
满足用户决策、管理和研究的需要
及时性
在最短时间里取得并公布数据
一致性
保证时间序列的可比性
最低成本
在满足以上标准的前提下,以最经济的方式取得数据
3.数据的频数分布
数据的预处理与统计分组
数据的预处理
数据审核
准确性审核
对象
非误差抽样(登记性误差)
方法
逻辑检查
计算检查
全面性审核
内容是否齐全
及时性审核
是否按规定时间获取数据资料
数据筛选
剔除
筛选
数据排序
定性数据/定量数据
统计分组
意义
组与组之间“差异性”,同一组内保持相对的同质性
作用
划分现象的类型
研究现象的内部结构
分析现象之间的依存关系
原则
组内同质性和组间差异性原则
穷尽性原则
互斥性原则
分组方法
定性数据分组
定量数据分组
单变量值分组
适用于离散变量且变量值较少的情况
组距分组
离散变量数据较多
连续性变量
具体方法论
确定组数
k=1+3.32lgN (k=1+lgN/lg2)
确定组距
等距分组
异距分组
确定组限及其表示方法
上限不在内原则
[ )
组中值
代表值
简单分组
一个分组标准
复合分组
两个或两个以上分组标准
定型数据的频数分布
频数分布及其常见类型
概念
频数
以相对数形式
频率
频数分布
两个构成因素
对现象总体的分组
各组出现的元素数/数据数(频数)
常见类型
钟型分布
U型分布
两头大,中间小
J型分布
定性数据的频数分布
分类数据的频数分布
顺序数据的频数分布
定性数据频数分布的图像显示
条形图
帕累托图
容易找到“最重要”的类别
饼图
环形图
可同时表示多个总体或样本
定量数据的频数分布
定量数据的频数分布
基于单变量值分组的频数分布表编制
基于组距分组的频数分布表编制
排序
组数/组距
组限
定量数据频数分布的图形显示
条形图、饼图、环形图
直方图
折线图与曲线图
雷达图
多变量数据
探索性数据分析:茎叶图和箱线图
茎叶图
只方便记录两组的数据
样本数据较多时不方便
箱线图
10.相关分析与线性回归分析
相关分析与回归分析的基本问题
相关关系的含义
变量间的关系
确定性的函数关系
y=f(x)
各观测点落在一条线上
不确定性的相关关系
y=f(x)+ε
当变量x取某个值时,变量y的取值可能有几个
各观测点分布在直线周围
相关关系的种类
变量个数
单相关
负相关
偏相关
相关关系表现形式
线性相关
接近直线
非线性相关
接近曲线
相关方向
正相关
负相关
相关程度
完全相关
完全不相关
不完全相关
相关分析与回归分析的主要内容
相关分析主要内容
回归分析主要内容
相关分析与回归分析的关系
一元线性相关分析
相关表与相关图
相关表
简单相关表
从小到大排序,进行大致判断
分组相关表
相关图
含义
作用
判断变量间有无相关关系
观察相关关系的类型
观察相关关系的密切程度
散点分布区域宽窄可以表明变量关系的不同密切程度
越窄,关系越密切
简单线性相关系数及检验
简单线性相关系数
简单线性相关系数的计算
简单线性相关系数的性质
补充
相关密切程度划分
等级相关系数及检验
一元线性回归分析
回归模型的概述
一元线性回归模型
一元线性回归模型的估计
一元线性回归模型的检验
利用一元线性回归方程进行预测
多元线性回归分析
6.统计指数分析
7.统计推断理论
统计推断基本问题
总体与总体分布
三种形态
实物总体
数值总体
分布总体
eg.总体服从正态分布
样本与样本分布
样本
n<30的样本叫小样本
n≥30的样本叫大样本
样本分布
常用的统计分布
正态分布
后者大,矮胖;后者小,高瘦
分布
定义
性质
曲线形状取决于自由度n的大小,右偏分布(随n增大,逐渐趋于对称)
该分布变量值始终为正
该分布具有可加性
t分布
定义
性质
F分布
定义
性质
右偏
抽样方法与抽样方法
抽样方法
抽样方法
重置抽样
只能一个一个抽,放回
不重置抽样
可以一个一个抽,也可一次抽n个;不放回
样本可能数目M
考虑顺序重置抽样
不考虑顺序不重置抽样
抽样技术
基本技术
简单随机抽样
总体中每一个体都有相同机会(概率)被抽中
分层抽样
先分层,每层内简单随机抽样
等距抽样
抽样间隔;r,r+k...r+(n-1)k
整群抽样
抽群
组合技术
多阶段抽样
区分整群/多阶段
全面调查:整群
抽查:多阶段
抽样框
形式
精度上:分层>等距≈简单抽样>整群
统计量
统计量
概念
作用
特点
形式
统计量的计算
样本均值
简单样本均值
加权样本均值
样本方差
简单样本方差
加权样本方差
样本比例及0-1变量的方差与标准差
抽样分布
样本均值的抽样分布
单样本均值的抽样分布
样本均值的均值=总体均值
样本均值的方差=总体方差的1/n
重置抽样
样本方差≠样本均值的方差
样本均值的离散程度
双样本均值的抽样分布
样本比例的抽样分布
大样本比例的抽样分析
样本方差的抽样分布
正态总体下单样本方差的抽样分布
总结
统计推断的效果评价:抽样误差
抽样误差及其表现形式
精度通常由抽样误差来表现(不考虑非抽样误差)
形式
抽样个别误差
概念
特点
有正有负,有大有小
尽管客观存在,但却未知(因为参数真值未知)
随机且未知
不能单从某个别误差的大小来下结论,必须考虑所有可能样本的抽样误差的一般水平
抽样平均误差
抽样允许误差
抽样允许误差系数
抽样误差的影响因素
归纳:抽样误差的特点
8.参数估计
参数估计的基本原理
参数估计的意义
点估计
实践中常见的点估计类型
点估计量的优良标准
最优估计量的选择举例
点估计的缺陷
区间估计
区间估计的含义
置信区间与置信水平
区间估计的基本原理
区间估计的精度与可靠程度
估计误差Δ
精度
置信水平(1-α)
可靠程度
二者相互矛盾,此消彼长
一般是事先规定(1-α)
理解置信区间
区间估计的基本方法
单总体参数的置信区间估计
总体均值的置信区间估计
总体比例置信区间的大样本估计
正态总体方差的置信区间估计
两总体参数的置信区间估计
样本容量的确定
样本容量的影响因素
简单随机抽样下样本容量的确定
5.时间序列数据分析
时间序列概述
时间序列的概念
基本要素
时间要素
数据要素
时间序列的种类
绝对数时间序列(基础序列)
时期序列
不同时间数据具有可加性
时点序列
不具有可加性
相对数时间序列(派生序列)
不具有可加性
平均数时间序列(派生序列)
不具有可加性
时间序列的编制原则
基本原则:可比性
时间要素应尽量统一
数据的总体范围应该一致
若有变化,时间序列数据就不能直接对比,经调整后才能进行比较
数据的经济内容应该相同
数据的计算方法、计算价格、计量单位等应该统一
时间序列数据的分析方法
时间序列构成因素
长期趋势T
相当长的一段时间内
方向
上升趋势
下降趋势
水平趋势
形态
线性趋势
非线性趋势
季节变动S
一年或更短时间内
具有某种固定规律
循环变动C
持续若干年;周期长短不一
涨落交替
不规则变动I
受偶然性因素影响
随机变动
时间序列数据分析的组合模型
加法模型
前提
各影响因素对时间序列数据的影响是彼此独立的
公式
y=T+C+S+I
乘法模型
前提
各影响因素对时间序列数据的影响是彼此不独立的
公式
y=T·C·S·I
时间序列数据的描述性分析
时间序列数据的图形分析
线图
时间序列数据的水平分析
发展水平
每一项统计数据
平均发展水平
序时平均数/动态平均数
消除了现象在一段时间内随机变动因素的影响
时期序列的平均发展水平
时点序列的平均发展水平
连续时点序列
间隔相等连续时点序列
逐日登记
间隔不等连续时点序列
变化统计
间断时点序列的平均发展水平
有关期初、期末时点数据进行统计
假定
上期期末时点数据即为本期期初时点数据
相邻两时点间现象的数量变动是均匀的
间隔相等间断时点序列
首末折半法
间隔不等间断时点序列
相对数/平均数时间序列的平均发展水平
增长量
含义
报告期水平-基期水平
类型
逐期增长量
报告期-前一期
累计增长量
报告期-某一固定报告期
年距增长量
某年某月-上年同月
平均增长量
时间序列数据的速度分析
时间序列数据描述性分析应用中注意的问题
时间序列数据的趋势分析
研究长期趋势的目的与意义
线性趋势的测定及预测
非线性趋势的测定
趋势线的选择
时间序列数据的季节变动分析
季节变动分析的目的
季节指数
季节指数的测定方法
发展水平的季节影响调整与预测
时间序列数据的循环变动分析
循环变动分析的目的
循环变动分析的统计方法
4.数据分布特征的度量
9.假设检验与方差分析