导图社区 统计学 第三章 数据的图表展示
这是一篇关于统计学 第三章 数据的图表展示的思维导图
编辑于2022-02-19 17:18:20第三章 数据的图表展示
数据的预处理
数据的审核:检查数据中有无错误
1)原始数据(一手)
完整性:有无遗漏,是否齐全
准确性:有无错误;是否有异常值,进行纠错或保留
2)二手数据
适用性:来源,口径
时效性:是否滞后
数据的筛选:根据需要找出符合特定条件的某类数据
数据的排序:按一定顺序排列,可以寻找解决问题的线索,或对数据进行纠错
分类数据:笔画、首字母拼音等
数值型数据:递增、递减,排序后称为顺序统计量
品质数据的整理与展示
分类数据
频数与频数分布
频数:个数
频数分布:把各组的频数用表格的形式展示出来
列联表:由两个及以上变量交叉分类形成的频数分布表(二维的叫交叉表)
比例:部分与总体的比值(不可能大于1)
比率:部分之间、类别之间的比值(可能大于1)
分类数据的图示
条形图:用宽度相同,高度不同的条形图表示数据大小
帕累托图:本质为排序后的条形图,左侧轴为频数,右侧轴为累计百分比
饼图:表示一个总体中各部占全部的比例,适用于结构性问题
环形图:表示多个总体各部分所占的比例,适用于构成的比较研究
顺序数据
累积频数和累积频率:将各有序类别频数逐级累加得到的频数/频率(向上累积、向下累积)
顺序分布的图示:累积频数分布或频率图
数值型数据的整理与展示
数据分组:分组后称为分组数据
目的:观察数据的分布特征
1)单变量值分组:一个变量值一组,适合离散型变量
2)组距分组:按变量值划分若干个区间,一个区间一组,适合连续型变量
原则:不重不漏,上组限不在内
数值型数据的图示(条、饼、环同样适用)
直方图:适用于分组数据,横轴是组距、纵轴是频数/频率
茎叶图、箱线图:适用于未分组数据
茎叶图:反映原始数据的分布与离散状况
箱线图:反映原始数据分布的特征,还可进行多组数据分布特征的比较,五个特征值分别为最大、上四分位点、中位数、下四分位点、最小值
1)都可看分布,但茎叶图保留了原始数据2)分别处理小批量数据与大批量数据
线图:适用于时间序列数据,反映现象随时间变化的特性,横轴时间、纵轴观察值
散点图(两个变量)、气泡图(三个变量)、雷达图(多个变量):适用于多变量数据,雷达图可比较多个样本的相似程度
合理使用图表
一张好图准则
1)显示数据
2)让读者把注意力集中于内容,而非制作图形的程序
3)避免歪曲
4)强调数据之间的比较
5)服务于一个明确的目的
6)有对图形的统计描述和文字说明
鉴别图形优势的准则
1)精心设计,有助于洞察问题的实质
2)使复杂的观点得到简明、确切、高效的阐述
3)能在最短时间以最少笔墨给读者提供最大量的信息
4)是多维的
5)表述数据的真实情况
统计表的设计:表头、行列、标题、表外附加
注意事项
1)合理安排统计表的结构
2)应包括表头、总标题、表中数据的单位
3)表中上下两条横线一般用粗线,其他用细线
4)在表下方加注释,特别注明数据来源等
条与直的比较:长度/面积;分类数据/数值型数据;分开/连续