导图社区 第二章 数据描述
统计学基础知识,如何简单地利用统计图表和少量数字数据来概括某些事物的基本特征。数据的集中趋势、离散趋势定义及特点概括总结。
编辑于2019-09-22 01:15:26数据描述
图表展示定性数据
定性数据包括分类数据和顺序数据
生成频数分布表
定性数据本身就是对事物现象属性特征的观测结果
列示所有属性特征,观测每一属性特征的频数就是一张频数分布表
频数/次数
频数分布表中落在某一特定属性特征的数据个数
频率
各组频数与各组次数总和之比
图形展示
饼图
圆形图/圆饼图
表示一个样本或总体中各组成部分的数据在全部数据中的比重
用于结构性问题研究
三产/消费/性别/年龄结构等
条形图
表示数据变动的图形,用于观察不同类别数据的多少或分布情况
单式条形图/复式条形图
环形图
反映多个样本之间的结构差异
用于结构比较研究,用于展示分类数据和顺序数据
帕累托图
排列图/主次图
按各类别数据的频数多少排序绘制,在同一张图中画出累积百分比
条形排序,看出哪类数据出现的多,哪类数据出现的少
至关重要的极少数和微不足道的大多数,体现帕累托原则
图表展示定量数据
生成频数分布表
首先将数据进行分组,再统计各组别的数据频数
统计分组
分组变量
分组个数在5-15之间
划分各组界限
第一组的下限应小于最小值
最后一组的上限应高于最大值
确定组距
各组组距=上限-下限
组中值=(上限+下限)/2
原则
要考虑各组的划分是否能区分总体内部各个组成部分的性质差别
要能准确、清晰地反映总体单位的分布特征
统计各组频数得出频数分布表
采取“上限不在组内”的原则
保证一项数据只被分在某一组
图形展示
直方图
定义
用矩形的面积来表示各组的频数分布,但对于不等距分组其纵轴表示为频数密度
频数密度=频数/组距(面积之和=总频数)
区别
条形图
用条形的高度表示各类别频数的多少,其宽度是固定的
各矩形分开排列
直方图
用面积表示各组频数的多少,矩形高度表示每一组的频数或百分比, 宽度表示组距,其高度与宽度均有意义
各矩形连续排列
折线图
利用线段的升降起伏表现描述的变量在一段时期内的变动情况
用于显示时间数列的数据,以反映事物发展变化的规律和趋势
散点图
在直角坐标系中用相对应的两个变量值作为图中一个点的横坐标和纵坐标描点得到的图形
观察两个变量之间的相关程度和类型最直观的方法
茎叶图
反映原始数据的图形,由茎和叶两部分组成,图形是数字构成的
可以反映数据的分布形状及数据的离散状况
显示未分组原始数据的分布
适用性
直方图适用于大批量数据
茎叶图适用于小批量数据
箱线图
用于描述数据分布特征的图形
显示未分组原始数据的分布
一组数据5个特征值,最大值/最小值/中位数/两个四分位数
气泡图
用于展示三个变量之间的关系,与散点图类似
雷达图
显示多个变量的常用图示方法-称蜘蛛图
在显示或对比各变量的数值总和时十分有用
研究多个样本之间的相似程度
绘制统计图注意事项
选择恰当的图形类型、刻度长度比例,准确反映数据中包含的信息
时间绘在横轴,指标数据绘在纵轴
长度比例适当10:7
纵轴数据从0开始
图形尽量简明
应有清楚的标题和必要的说明,明确图形含义、计量单位、坐标轴代表的变量资料来源
反复加工和修改是获得优秀图形的重要步骤
统计表来表示数据
统计资料最基本的表现形式,主要利用行和列中的数据来表述现象特征
组成
表头
表上方/说明表的主要内容
行标题
第一行
列标题
第一列
类别名称和指标名称
数据资料
子主题
表说明及附加
基本原则
科学、实用、美观、简练
用数字来概括数据
数据集中趋势
顺序数据集中趋势
计算百分比、中位数和众数
分类数据集中趋势
计算众数
定量数据集中趋势
平均数、中位数、众数、分位数
众数
出现次数/频率最多的数值,一种位置平均数,不受极端变量值的影响
一组数据可有多个众数,也可不存在众数,对于未分组的定量数据,一般少使用众数
等距分组数据
用众数所在组的组中值估计分组数据的众数
M=LD
excel函数 MODE
中位数
数据按照大小排列之后处在数列中点位置的数值,是典型的位置平均数,不受极端变量值的影响
主要用于顺序数据、数值型数据,不能用与分类数据
中位数是唯一的
计算方法
奇数列
(n+1)/2
偶数列
第n/2和1+n/2的平均数
EXCEL 函数 MEDIAN
分位数
数据按大小排列后,把数据分割成四等分的三个分割点上的数值是四分位数
位置为(n+1)/4,2(n+1)/4,3(n+1)/4,(n+1)/4,
如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均
平均数
算数平均数
未经分组的原始数据
简单平均数
已分组的数据
加权平均数
EXCEL 函数 AVERAGE
几何平均数
等于n个变量值乘积的n次方根,用于计算平均的比率、增长率
区别
平均数易受极值影响,对于严重偏态分布的数据,代表性较差
中位数和众数,不受极值影响,统计上具有稳健性,偏态分布数据代表性较好
当数据呈单峰或对称分布时,均值、中位数、众数三者大小相等
当呈左偏分布,众数>中位数>均值
当呈右偏分布,均值>中位数>众数
数据离中趋势
异众比率
非众数组的频数占总频率的比率-衡量众数对一组数据的代表程度
异众比率越大,非众数组的频数占总频数的比重越大,众数代表性越差
异众比率越小,非众数组的频数占总频数的比重越小,众数的代表性越好
极差/全距
R=max(x1)-min(x1)
易受极端值的影响,不能准确的描述数据的分散程度
四分位距
样本的内距或四分位之差
反映中间50%数据的离散程度,数值越小,中间数据越集中,越大,中间越分散
平均差
一组数据与其均值之差的绝对值的平均数
易受极值影响,用于数值型数据,数学性质较差,不常使用
方差与标准差
方差是各个变量与其均值离差平方的平均数,反映了样本中各个观测值到其均值的平均离散程度
标准差是方差的平方根
总体方差的分母是n,样本方差分母(n-1)
标准差越大,观测值分布越分散,趋中程度越差
标准差越小,说明观测值分布的越集中,趋中程度越好
离散系数
变异系数/标准差系数
一组数据的标准差除以其均值,用来测度数据离散程度的相对数
标准分数
标准化值/Z分数,变量值与其平均数的离差除以标准差后的值,测定某一个数据在该组数据中的相对位置
用途是可以把两个不同均值、不同标准的数据进行对比,判定它们在各组中的相对位置
偏态与峰度的度量
偏态系数
数据的不对称性称为偏态,SK
偏态系数越大,表示数据分布的偏斜程度越大
数据对称分布,偏态系数分子为0
数据不对称分布,偏态系数分子不为0
当SK大于零时,表示正偏离差数值较大,可判断正偏或右偏,反之为负偏或左偏
峰态系数
数据分布的平峰或尖峰程度称为峰态
数据服从标准正态,峰度系数等于零
峰度系数的值明显不为0,数据的分布比正态分布更平或更尖