导图社区 统计学
条形图的类别可以横置也可以纵置,类别放在横轴,称为柱形图、按各类别数据出现的频数多少排序后绘制的条形图(主要用于分类数据)
数据的搜集知识梳理,包括数据的直接来源和间接来源、原始数据收集的调查方法和数据的误差等等。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
数据的图表展示
数据的预处理
数据审核
对原始数据的审核
完整性:单位或个体是否遗漏、项目或变量是否齐全
准确性:数据内容是否真实、计算是否正确或存在异常值等
对二手数据的审核
适用性:来源,口径,背景是否符合研究需要
时效性:是否适用最新数据
数据筛选
根据需要找出符合条件的某类数据
数据排序
分类数据的排序
字母型数据
习惯上用英文字母升序
汉字型数据
首位拼音字母,笔画升序
数值数据的排序
递减排序
递增排序
分类数据的整理与展示
整理
频数:落在某一特定类别中的数据个数
频数分布:把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来
简单的频数表:针对一个分类变量
列联表或交叉表:两个分类变量
图示
条形图
用宽度相同的条形的高度或长短来表示各类别数据的图形
主要用于反映分类数据的频数分布
条形图的类别可以横置也可以纵置,类别放在横轴,称为柱形图(column chart)
简单条形图与复式条形图等
帕累托图
按各类别数据出现的频数多少排序后绘制的条形图(主要用于分类数据)
饼图
是用圆形及圆内扇形的度数来表示数值大小图形,主要表示各组成部分占总体的比例,用于研究结构性问题。
环形图
主要用于展示两个或多个分类变量的构成。 有利于构成的比较研究。
数值数据的整理与展示
数据分组
将原始数据分成不同的组别
单变量值分组:每一个变量值作为一组;离散数据且变量值较少
组距分组:连续变量或变量值较多,划分为若干区间(上限与下限);
需要遵循“不重不漏”原则; 可采用等距分组,也可采用不等距分组
组距分组步骤
确定组数:以显示数据的分布特征和规律为目的(5组与15组之间:数据有50~1000个)
Sturges 公式:K=1+3.32 lg(N), 其中N是数据样本数 确定组距: 组距=(最大值-最小值)÷ 组数
统计出各组(上限不在本组内a≤K<b)频数并整理成频数分布表
组距分组的一些概念
开口组:只有上限缺下限,或只有下限缺上限的组
下限:一个组的最小值 上限:一个组的最大值
组距:上限与下限之差(开口组通常用相邻组的组距)
组中值:下限与上限之间的中点值(代表数据组的一般水平,前提是数据在组中均匀分布)
直方图
在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成的矩形
展示分组数据分布的一种图形
矩形的宽度和高度来表示频数分布,本质上是用矩形的面积来表示频数分布
茎叶图
其图形由数字组成,以高位数值作茎,低位数字作叶,树叶上只保留最后一位数字 保留每一个原始数据,保留了原始信息
给出数据的分布状况
适用于小批量数据
箱形图
也称箱线图。不仅可用于反映一组数据分布的特征,还可以对多组数据的分布特征进行比较
散点图
横轴代表变量,纵轴代表变量,每组数据在坐标系中用一个点表示,组数据在坐标系中形成的个点称为散点,由坐标及散点形成的二维数据图
展示两个数值变量之间关系的图形
雷达图
又叫蛛网图,展示多个变量的关系展示两个数值变量之间关系的图形 显示或对比各变量的数值
用于研究多个样本之间的相似程度
n组样本,P个变量
合理使用图表
塔夫特5条鉴别图表优劣的准则
精心设计、有助于洞察问题的实质 使复杂的观点得到简明、确切、高效的阐述
最短时间内以最少笔墨给读者提供最大信息 是多维的
表述数据的真实情况
一张好的图应包括以下基本特征
显示数据,比例一般为4:3矩形 服务于一个明确目的,可使注意力集中内容上 避免歪曲和过多的修饰
强调数据之间的比较
有对图的统计描述和文字说明,有编号和标题
区别
条形图:长度表示各类别频数,其宽度无意义直方图:面积表示频数,高度表示频数或百分比,宽度为组距,高度与宽度均有意义。
直方图:各矩形连续排列 条形图:分开排列
条形图:分类数据,直方图:数值数据
所面对的数据类型
分类数据的整理和展示方法适用数值数据
数据数值的整理和展示方法不适用分类数据