导图社区 统计学
统计学思维导图,本图整理了数据的搜集、数据的描述、调查方案的内容,欢迎大家学习。
社区模板帮助中心,点此进入>>
马克思主义原理
考研数学重点考点知识总结归纳!
数据结构
法理学读书笔记
思维导图带你认识马克思主义原理
建筑光学基本知识
考研英语一写作
教育学考研:教育学原理第八章教学内容整理
考研三步翻译技巧
东方文明古国的教育
第一模块
绪论
什么是统计学?
研究数据的科学
以归纳推理为研究方法
研究结论带有不确定性
研究往往伴随新思想的产生
与大部分学科有紧密联系
数据的分类
观测数据 试验数据
观测数据:无人为因素控制
试验数据:有人为因素控制
截面数据 时序数据 面板数据
截面数据:对多个事物在同一时期或时点上进行测量得到的数据
时序数据:对某个事物在不同时期或时点上进行测量得到的数据
面板数据:对多个事物在不同时期或时点上进行测量得到的数据
定性数据 定量数据
定性数据
定性数据可以通过恰当的“编码”转换为数字
定类数据:可用数字表示 无等级次序(性别 籍贯)
定序数据:可用数字进行排序 未测量出类别之间的准确差值 (学历 服务满意度)
定量数据
定距数据:可以计算差值,不计算比值(摄氏温度、海拔高度、年份)
定比数据:两个数值间的比值具有实际意义(身高、体重、收入)
统计方法
描述统计方法:用表格、图形和数字来概括
推断统计方法:抽取样本 利用样本推断总体
基本概念
确定性 随机性
总体 样本
数据的搜集
数据来源
主要来源:统计调查
直接采集(调查法 实验法 观察法)
全面调查
抽样调查(经济性、适用面广)
统计报表
间接获取(二手数据)
时效性可能较差
可靠性可能较低
相关性可能较差
成本低
抽样方法
抽样框:抽样单位的花名册,包含了总体中的所有抽样单位
概率抽样
入样概率已知
简单随机抽样:利用抽样框直接从总体中抽取样本
分层抽样
总体分层,层中简单随机抽样
提高了代表性和精度
整群抽样
总体分群 抽取若干群 调查所选群所有样本单位
不需要抽样框
系统抽样
排序 确定随机起点 间隔抽样
注意避免样本的周期性
非概率抽样
入样概率未知
方便抽样 eg.拦门抽样
判断抽样(依据主观经验)
配额抽样(先分类分层 确定样本数额后配额)
滚雪球抽样(适用于稀有群体的抽样)
调查数据的误差
抽样误差
概念:由于抽取样本的随机性造成的误差
特点:只要是抽样就必然存在抽样误差
影响因素
总体内部差异越大,抽样误差越大
样本容量越大,抽样误差越小
不同抽样方法
非抽样误差
概念:由各种原因引起的,与样本抽取无关的误差
特点:任何调查方式都可能存在非抽样误差
抽样框误差、计量误差、无回答误差
数据的收集方法(访问调查、邮寄调查、电话调查、网络调查、座谈会等)
数据的描述
用统计图、统计表描述数据
选用方法
单变量
单个定性变量
概念:分析定性变量中各个水平(类别)的频数分布情况
各个类别是否均衡?哪个类别最多、最少?
可选用的统计图、统计表
频数分布表
柱形图
饼图
单个定量变量
分析定量变量的数据分布情况
数据集中在哪个范围?分散程度如何?数据分布是否对称?
直方图
箱线图
双变量
2个定性变量
概念:一般通过对比定性变量不同类别水平的交叉频数(频率),判断两个定性变量的关系
列联表
堆积柱形图
百分比堆积柱形图
1个定性变量+1个定量变量
分组箱线图
2个定量变量
一般是分析两个变量的相关关系
散点图
多个变量
雷达图
比较多个样本在多个定量变量上的表现
定量变量3~6个为宜 展示样本2~4个为宜
词云图
适用于文本数据
绘制规范
统计图
绘制统计图的技巧:(1)排序(2)合并冗余重复数据(3)进行图改文的尝试
标题在图的下方
文中的图应有编号
统计图的外围不应有边框
横纵轴标明单位
若横、纵轴有单位应注明
统计表
标题在表的上方
文中的表要有编号
小数位数统一,不宜超过四位,可以使用科学计数法
列标题下方应有一条横线与数据隔开
尽量减少竖线的使用
解读技巧
读图+解释
描述现象/规律+补充数值特征信息
描述现象/规律+指出亮点+解释原因
用数值指标描述数据
中心趋势
概念:一组数据的代表值或中心值
数值指标
平均数
易受极端值影响
算术平均数
几何平均数
调和平均数
加权平均数
中位数
对极端值不敏感
定量数据:一组数据按从小到大排列后,处在数列中间位置的数据
定性数据:观测值按升序排列后,累计频率首次超过50%的观测值
众数
一组数据中出现次数最多的观测值
离散程度
概念:离散程度的数值越大,数据越分散。反之,数据越集中
极差
max-min
四分位距
不受极端值的影响
上四分位数-下四分位数
反映了中间50%数据的分散程度
方差和标准差
是反映定量数据离散程度最常用的指标
标准差与观测数据保持相同量纲
使用全面数据的信息
离散系数
计量单位相同时若两组数据的均值相差悬殊,离散系数可能比标准差更有意义
若两个变量计量单位不同,则只能通过离散系数比较离散程度
分布形态
概念:一组数据分布的对称性、尖峰程度
偏度系数
和对称分布比较
峰度系数
和正态分布比较
Z分数
根据平均数和标准差确定观测数据的相对位置
Z分数=0、<0、>0:观测值恰好等于、小于、大于均值
应用:数据标准化的主要手段之一
调查方案
调查目的
调查对象和调查单位
调查内容
统计调查方案的核心
调查方式和方法
调查时间
调查的组织实施计划