导图社区 贾俊平统计学第七版第三章数据的图标展示
应当精心设计,有助于洞察问题;应当使复杂的观点得到简明、确切、高效的阐述;在最短时间内以最少的笔墨给读者最大量的信息。
编辑于2022-08-11 20:32:47 山东省第三章 数据的图表展示
数据的预处理
数据审核
原始数据
完整性 准确性
二手数据
适用性 时效性
筛选
筛选出符合条件的数据
排序
适用数据类型
分类数据 数值型数据
作用
①便于检查纠错 ②便于归类分组 ③排序本身就是目的之一
品质数据的展示和整理
分类数据的整理与展示
频数与频数分布
频数:(次数)是各组占有的单位个数 频数分布:将总体所有单位进行归类排序
对于定性数据,除用频数分布表进行描述,还可以使用比例、百分比、比率等描述
比例:是一个样本(或总体)中的各部分的数据与全部数据之比,反映样本(或总体)的构成与结构,乘以100的到百分比,用%表示
比率;是样本(或总体)中不同类别的数据之间的比值,比值可能大于1
图示
条形图
用宽度相同的条形高度或长短来表示数据多少
帕累托图
按各类别数据出现的频数多少排序后绘制的条形图
特点:易看出哪类数据出现的多,哪类数据出现的少
饼图
用圆形及圆内扇形的角度来表示数值大小的图形
特点:易看出各部分占全部的比例
环形图
特点:可以同时绘制多个样本或总体,每个样本或总体的数据系列为一个环 可以显示多个样本或总体各部分所占的相应比例
顺序数据的整理与展示
累积频数与累计频率
累积频数:各有序类别的频数累加
向上累积:从开始到最后,从小到大
向下累积 :从最后到开始,从大到小
累积频率或累积百分比:各有序类别的百分比累加
图示
累积分布或频率图
数值型数据的整理与展示
数据分组
分组方法
单变量分组 适合离散变量且变量值较少
组距分组
适用于连续产量或变量值较多的情况
一组的最小值称为下限 一组的最大值称为上限
分组和编制频数分布表
①确定组数:5≤K≤15
②确定组距:组距=(最大值-最小值)/组数,组距宜取5或10的倍数
③根据分组整理成频数分布表
组距分组的注意事项
①不重不漏,上线不在内,即上下限重叠时,计算在下一组
①离散变量 相临两组间断
②连续变量 上组限不在内或对一个组的上极限采用小数点
②避免漏掉,如果全部数据中的最大值和最小值与其他数值相差很大,对第一组和最狗一组采用开口组,开口组组距为相邻组的组距
等距分组和不等距分组
组中值 是上限与下限中间的值,不是组平均数
首组的组中值=首组的上限-邻组组距/2
末组的组中值=末组的下限+邻组组距
组中值=(上限值+下限值)/2
图示
分组数据:直方图,各矩形连续排列,不能保留原始数据,适用于大批量数据
未分组数据:茎叶图和箱线图
茎叶图:既能给出数据分布情况,又能给出每一个原始数据,保留了原始数据信息,适用于小批量数据
箱线图:根据最大值、最小值、两个四分位数绘制,反应原始数据分布的特征,不仅可以反映一组数据的分布特征,也可以进行多组数据特征比较
时间序列数据
线图
反映现象随时间变化的特征,纵轴下端应从“0”开始
多变量
散点图
两变量之间的关系
气泡图
三变量之间的关系
雷达图
多变量之间的关系
合理使用图表
鉴别图形优劣的准则
应当精心设计,有助于洞察问题
应当使复杂的观点得到简明、确切、高效的阐述
在最短时间内以最少的笔墨给读者最大量的信息
多维的
表述数据的真实情况
好图的基本特点
①服务于一个明确的目标
②强调数据之间的比较
③对图形有描述统计和文字说明
④避免歪曲
⑤注重内容
统计表设计
①合理安排表的结构
②表头一般包括表号、总标题、表中的数据单位等内容
③没有数据的单元格用"-"表示
④表中上下两条横线一般用粗线,中间的其他线用细线
⑤使用统计表必要时要在表的下方加上注释,以及数据来源