导图社区 四、统计
判断抽样:依据调查目的和对被调查对象的了解,人为确定样本单元,如选择“平均型”单位为样本、方便抽样:以最大限度降低抽样成本为目的,如拦截式调查
编辑于2022-09-02 10:46:55四、统计
统计与数据科学
统计学:关于收集、整理、分析数据何从数据中得出结论的科学
描述统计:研究数据收集、整理和描述的方法
如何取得(收集)数据
如何利用图表或数学方法对数据进行整理和展示
如何描述数据的一般性特征
推断统计
参数估计:利用样本信息腿短总体特征
假设检验:利用样本信息判断总体的假设是否成立
变量和数据
变量
定量变量(数量)
定型变量
分类变量(类别)
顺序变量(类别且有序)
数据
数值型数据(数值,可以进行数学运算
分类数据
顺序数据
文字、数值代码
数据科学
定义
从数据整合成信息进而组织成知识的整个过程
对数据采集、储存、处理、分、表现
数据来源
按收集方法分
观测数据:通过直接调查或测量来收集,如CPI、GDP、房价等
实验数据:在实验中控制实验对象及实验环境来收集,如药物疗效、自然科学实验等
从使用者角度分
一手(直接)数据:来源于调查或观察、实验
二手(间接)数据:来源于别人的调查或实验
大数据的4V特性
数据量大
数据多样性
结构化:存储在数据库里,可用二维表表达
非结构化:结构不规则或不完整,没有预定义
半结构化:具有一定结构性
价值密度低
数据的产生和处理速度快
数据挖掘:从大量、不完全、有噪声、模糊、随机的实际用用数据中提取有潜在价值的信息和知识
数据源真实,用户感兴趣、可接受、可理解、可运用的知识,仅支持特定的发现问题
出发点:解决实际问题
核心任务:探索数据关系和特征
类型:有指导或监督学习、无指导或非监督学习
常用算法:分类、聚类分析、关联分析、趋势与演化分析、特征分析、异常分析
数据可视化:借助图形化手段传达、沟通信息,简单清晰
科学可视化:面向科学与工程领域
信息可视化:非结构化、非几何的抽象数据
统计调查方式
统计质量评价标准: 真实性、准确性、完整性、及时性、适用性、经济性、可比性、协调性、可获得性
统计报表
自上而下统一布置、自下而上逐级提供数据
以一定的原始数据为基础,按统一表式、统一指标、统一报送时间和程序进行填报
类型
按调查对象范围分:全面统计报表(大多数)、非全面统计报表
案报送周期长短:日报、月报、季报、年报等
按报表内容和实施范围分:国家的、部门的、地方的统计报表
普查
一次性或周期性:时间间隔较长,耗费大量人力、财力、物力
统一的标准调查时间:避免数据重复或遗漏
人口普查:逢0年份,10年1次
农业普查:逢6年份,10年1次
经济普查:逢3,8年份,10年2次
数据比较准确,规范化程度较高
适用范围窄
抽样调查
从条差对象的总体中抽出一部分单位作为样本进行调查,并根据调查结果推断总体数据特征
经济性、时效性强、适应面广、准确性高
重点调查
所选重点单位只是全部单位的一部分
调查的标志值占总体的绝大比重
适用范围很广,能以较少的投入。较快的速度取得主要标志的基本情况或变动趋势
典型调查
选择具有典型意义或有代表性的单位调查
抽样调查
基本概念
总体:调查对象总体
样本:总体中按原则抽出的个体所组成(入样单位:每个被抽中进入样本的单位
总体参数:根据总体中所有单位的数值计算
样本统计量(估计量):根据样本中各单位的数值计算,是对总体参数的估计
抽样框:所有抽样单元的名单,抽样总体的具体表现(如企业名录、电话簿、人员名册)
抽样调查的一般步骤
确定调查问题:问题的叙述、确定问题的组成部分
设计调查方案:抽样方案设计、问卷设计
实施调查过程:获得调查数据;保证原始数据质量
数据处理分析:检查、核对、编码、录入、统计分析等
撰写调查报告
抽样调查中的误差
抽样误差(源于抽样的随机性)
总体单位值之间差异越大,抽样误差越大
样本量越大,抽样误差越小
抽样方式、估计量的选择
非抽样误差
抽样框误差:部分数据遗漏、数据推估
无回答误差:被调查者无回答、不愿回答
计量误差
获得的数据与其真值之间不一致 调查人员诱导被调查者或有意作弊、提问或记录答案错误、问卷设计使人对问题理解有偏差、受访者记忆不清或提供虚假的数字等
概率(随机)抽样:每个单元都有机会被抽中且概率已知或可计算
简单随机抽样
在所有调查对象中随机选择样本(放回/不放回)
每个单位入样概率相同
分层抽样:将总体分层,在不同层内独立、随机抽取
等比例分配:样本单位比例与总体单位比例一致
不等比例分配:抽样误差可能更小
适用条件
抽样框中由足够的辅助信息,能够将总体单位划分到各层中 同一层内差异尽可能小,不同层兼差异尽可能大
整群抽样:将总体分为会不重叠的群,直接抽取群,对抽中的群调查其全部基本单位
系统抽样:将总体排序,随机抽取初始单元再按规则抽取其他样本(最简单等距抽样)
多阶段抽样:经两个以上阶段抽到最终样本;每个阶段的抽样方法可以不同
非概率(非随机)抽样
判断抽样:依据调查目的和对被调查对象的了解,人为确定样本单元,如选择“平均型”单位为样本
方便抽样:以最大限度降低抽样成本为目的,如拦截式调查
自愿样本:有自愿接受调查的单员组成样本,如网上调查
配额抽样:将总体分为若干类型,将样本数额分配到各类型
估计量和样本量
估计量的性质
无偏性:估计量的期望值等于总体参数的真值
有效性:无偏估计量取值的方差越小越有效
一致性:样本量增大,估计量的值稳定于总体参数真值
估计量方差的估计=(1-样本量/总体规模)*样本方差/样本量
样本量的影响因素
调查越精密,误差越小,所需样本量越大 总体离散程度越大,需要样本量越大 总体规模越大,样本量增大,但不是同比例 无回答率越高,所需样本量越大 经费制约:样本量是经费和精度之间的折中和平衡
描述统计
集中趋势的测度(向某一中心靠拢,中心点位置
均值(适用于数值类数据,受极值影响)
中位数:偶数个时为中间两数均值(适用于顺序或数值)
众数:不适用于定量,可能不唯一
离散程度的测量
方差:数据均值与各数值差的平方的平均数,有放回样本方差(减一)是总体方差(不减一)无偏估计量,无放回样本方差(减一)是总体方差(减一)无偏估计量
标准差:方差开(减一)更号,同计量单位
离散系数:标准差/均数,可以比较不同变量的离散程度
分布形态的测度
偏态系数,数据分布的偏斜方向和程度,描述数据分布对称程度。
 SK=0,对称 sk>0,分布右偏,SK<0,分布左偏。 绝对值为:0-0.5轻度,0.5-1中度,1以上严重
标准分数:测量数值在变量分布中相对于均值的相对位置
标准分数=(数值-均值)/标准差
服从对称钟型分布
数据占比68%,与均值距离1个标准差之内,标准分数【-1,1】 数据占比95%,与均值距离2个标准差之内,标准分数【-2,2】 数据占比99%,与均值距离3个标准差之内,标准分数【-3,3】
变量间的相关分析
相关关系:不等同于因果关系、函数关系
按相关程度分
完全相关:一个变量完全由另一个变量确定 不相关:两个变量互不影响 不完全相关:介于完全相关和不相关之间
按相关方向分:正相关、负相关
按相关形式分:线性相关、非线性相关
散点图:描述两个变量间的相关关系
线性相关:密集在一条直线周围
非线性相关:曲线
不相关:无规律
相关系数:度量两个变量之间的相关关系的统计量
Pearson的相关系数r:度量线性相关系数
取值范围:【-1,1】 r=-1:完全负相关;-1<r<0,负相关;r=0,不相关;0<r<1,正相关;r=1,完全正相关 r的绝对值判断线性关系强弱:0-0.3极弱;0.3-0.5低度;0.5-0.8中度;0.8-1高度
回归分析
回归模型与方程
回归分析
利用数学模型表达变量相关的具体形式
从已知量推测未知量
一元线性回归模型
自变量X的变化引起因变量Y的线性变化 是回归直线的截距 是回归直线的斜率
误差项:除X和Y的线性关系外的随机因素对Y的影响
最小二乘法估计的回归方程
根据样本统计量估计的医院回归方程
使因变量观测值与估计值的离差平方和最小
回归系数的显著性检验:t检验
原假设,即X对Y没影响
P值<0.05,则可以在0.05的显著性水平下拒绝原假设,认为X对Y有影响
决定系数
测度回归模型对样本数据的拟合程度
回归模型所能解释的因变量变化占因变量总变化的比列
取值范围【0,1】
:回归直线无法解释因变量变化
:所有观测点都落在回归线上,回归直线可以解释因变量的所有变化
越高,拟合效果越好,解释能力越强
调整后的决定系数(Adjustesd)
适用于多元回归模型:自变量个数增加,决定系数会增大
在数值上小于
时间序列分析
时间序列及分类
定义
经某一指标在不同时间上的数值按时间先后顺序编制
同一时间序列内,个指标时间单位相同
按表现形式分类
绝对数时间序列
时期序列:反映一段时期内发展的结果
时点序列:反映一定时点上的瞬间水平
相对数时间序列
平均数时间序列
分析指标
水平分析:发展水平、平均发展水平、增长量、平均增长率
速度分析:发展速度、平均发展速度、增长速度、平均增长速度
平均发展水平-绝对数时间序列
时期序列
采用简单算术平均
序时平均数=各期数值之和/期数
连续时点序列
逐日登记且逐日排列
采用简单算术平均
序时平均数=各时点数值之和/时点个数
只在发生变动时才记录一次
采用加权算术平均法
间断时点序列
每隔一定时间登记一次,采用二次平均法
时间间隔相等:两两平均,最后整体平均
增长量与平均增长量
增长量=报告期水平-基期水平
按基期确定方法分类
逐期增长量=报告期水平-前一期水平
累计增长量=报告期水平-某一固定时期水平
同一时间序列中,累计增长量等于相应时期逐期增长量之和
平均增长量
逐期增长量的序时平均数
发展速度和增长速度
发展速度=报告期水平/基期水平
定基发展速度=报告期水平/某一固定时期水平
环比发展速度=报告期水平/前一期水平
增长速度=报告期增长量/基期水平
定基增长速度=报告期累计增长量/某一固定时期水平
环比增长速度=报告期逐期增长量/前一期水平
平均速度与速度应用
平均发展速度
采用几何平均法
平均增长速度=平均发展速度-1
反映现象在一定时期内逐期增长(降低)变化的一般程度
时间序列指标值为0或负数时,不宜计算速度
速度指标数值与基数大小有密切关系
环比增长速度时间序列结合水平指标分析才能正确反映现象增长的快慢
增长1%的绝对值=逐期增长量/环比增长速度=前一期水平*1%
反映同样的增长速度,在不同时间条件下所包含的绝对水平
平滑预测法
平滑法
消除时间序列的不规则成分所引起的随机波动
适用于平稳的时间序列的预测
没有明显的趋势、循环和季节波动的时间序列
移动平均法
使用时间序列最近K期数据值的平均是作为下一期的预测值
指数平滑法
利用过去时间序列值得加权平均数作为预测值