导图社区 第4章 数据的概括性度量
这是一篇关于第4章 数据的概括性度量的思维导图,主要内容有集中趋势的度量(反映了—组数据中心点的位置)、离散程度的度量各变量值远离其中心值的程度、偏态与峰态的度量(分布的形状)。
编辑于2022-08-21 17:25:17 山东省第4章 数据的概括性度量
集中趋势的度量 (反映了一组数据中心点的位置)
分类数据:众数(mode)
定义:一组数据中出现次数最多的变量值,用Mo表示
特点:是一个位置代表性,不受极端值的影响,
缺点:具有不唯一性,一个/两个/多个/没有
适用范围:①数据量较多 ②分类数据,顺序数据,数值型数据
顺序数据:中位数和分位数
中位数(median)
定义:一组数据排序后处于中间位置上的变量值,用Me表示
特点:用中位数代表总体标志值的一般水平,不受数据极端值的影响,对某些经济社会现象更具有代表性
适用范围:顺序数据,数值型数据 当一组数据偏斜程度较大时,使用中位数会比较好,或者考虑众数
中位数的确定:①根据未分组数据计算中位数时,要对数据进行排序 ②确定中位数的位置 ③确定中位数的具体数值
四分位数(quartile)
定义:也称四分位点,一组数据排序后处于25%(下四分位数)和75%(上四分位数)位置上的值
计算
根据未分组的数据进行计算四分位数时,①对数据进行排序,②确定四分位所在的位置,③该位置上的数值就是四分位数 下四分位数为Ql 上四分位数为Qu
注意:①如果位置是整数,四分位数就是该位置对应的值 ②如果是在0.5的位置上,则取该位置两侧值的平均数 ③我是在0.25或0.75的位置上,则四分位数等于该位置的下侧值,加上按比例分摊位置两侧数值的差值
数值型数据:平均数(mean)
定义:一组数据相加后除以数据的个数得到的结果。平均数是集中趋势最主要的测度值
特点:利用了全部数据信息,应用最广泛的集中趋势测度值,特别是数据呈对称分布或接近对称分布时
缺点:易受数据极端值的影响,对于偏态分布的数据,代表性较差
适用范围:数值型数据 当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,这是则应选择平均数作为集中趋势的代表
分类
简单平均数(simple mean):未分组数据
加权平均数(weighted mean):分组数据 k组,各组组中值为Mi,各组变量出现的频数为fi
注:加权平均数的大小取决于频数之间的比率和变量值之间的大小
几何平均数(geometric mean):计算现象的平均增长率 计算比率的平均
众数、中位数和平均数的关系
注:①偏斜程度越小,它们之间的差别越小,偏斜程度越大,它们之间的差别越大 ②中位数在众数和算术平均数之间 ③众数与中位数的距离约为中位数与算数平均数距离的两倍
离散程度的度量 各变量值远离其中心值的程度
分类数据:异众比率(variation ratio)
定义:非众数组的频数占总频数的比例
计算公式:
特点:①衡量众数对一组数据的代表程度 ②异众比率越小,说明众数的代表性越好;异众比率越大,说明众数的代表性越差 ③不受极端值的影响
适用范围:分类数据,顺序数据,数值型数据
顺序数据:四分位差(quartile deviation)
定义:上四分位数与下四分数之差
计算公式:
特点:①反映中间50%的数据的离散程度 ②数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散 ③不受极值的影响
适用范围:顺序数据,数值型数据
数值型数据
极差(range)
定义:一组数据的最大值与最小值之差,也称全距,用R表示
特点:①容易受极端值的影响 ②不能反映出中间数据的分散状况 ③不能准确描述出数据的分散程度
平均差(mean deviation)
定义:各变量值与其平均数离差绝对值的平均数,用Md表示
计算公式
未分组数据:
分组数据:
特点:①平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散情况 ②平均差越大,数据的离散程度越大;平均差越小,数据的离散程度越小 ③避免离差之和等于零而无法计算平均差这一问题,在计算时对离差取绝对值以离差绝对值来表示总离差;实际中应用较少
方差和标准差
方差(variance)
定义:①方差:各变量值与其平均数离差平方和的平均数 ②样本方差:样本数据个数减1后除离差平方和。其中样本数据个数减1,即n- 1称为自由度
样本方差的计算公式
未分组数据:
分组数据:
标准差(standard deviation)
定义:方差的平方根,用s表示
标准差的计算公式
未分组数据:
分组数据:
补:平均差和标准差的相同点:①计算方法相同又简单,平均法和加权平均法两种 ②范围相同,将所有的变量都考虑在内 ③作用相同,以平均数为中心测定各变量值的离散程度 不同点:①计算公式的依据不同 ②对政府离差综合平均的方法不同 ③说明同质总体的变异程度有差异 ④受极端值的影响程度不同
相对位置的度量
定义:可以利用平均数和标准差计算一组数据中各个数值的标准分数,以测度每个数据在该数据中的相对位置,并可以用它来判断一组数据是否有离群数据
标准分数:
公式:变量值与其平均数的离差除以标准差后的职称为标准分数,也称标准化值或z分数
特点:①标准分数给出了一组数据中各数值的相对位置 ②平均数为0,标准差为1的特性 ③不改变一个数据在该数据中的位置,也不改变该数据分布的形状
经验法则
切比雪夫不等式
离散系数或变异系数(coefficient of variation)
定义:一组数据的标准差与其相应的平均数之比(受极端值的影响)
计算公式:
离散系数与方差标准差的区别:
方差标准差
①数据分散程度的绝对值 ②数值大小,一方面,受原变量值自身水平高低 ③数值大小,另一方面,他们与原变量值的计量单位相同,采用不同计量单位的变量取其离散程度的测度值也就不同
离散系数
①消除了变量值水平高低和计量单位不同,对离散程度测度值的影响 ②作用主要适用于比较对不同样本数据(多组数据)的离散程度 ③离散系数大,说明数据离散程度大,;离散系数小,说明数据离散程度越小
补:在标准差相等的情况下,平均数小的,其变异系数大,即离散程度较大
偏态与峰态的度量 (分布的形状)
偏态(skewness)
定义:测度偏态程度的统计量,记作SK
测度统计量:偏态系数(coefficient of skewness),记作SK
未分组数据:
数据分布对称:偏态系数等于0
数据分布不对称:偏态系数不等于0
大于1或小于-1:高度偏态分布
0.5~1或-1~-0.5:中等偏态分布
越接近0:偏斜程度越小
分组数据:
数据分布对称:偏态系数等于0
数据分布不对称:偏态系数不等于0
正值:正离差值较大,判断为正偏或右偏
负值:负离差值较大,判断为负偏或左偏
峰态(kurtosis)
定义:对数据分布平峰或尖峰程度的测度
测度统计量:峰态系数(coefficient of kurtosis),记作K
服从标准正态分布:峰态系数的值等于0
平峰分布或尖峰分布:峰态系数的值不等于0
K>0:尖峰分布,数据的分布更集中
K<0:扁平分布,数据的分布越分散
计算公式
未分组数据:
分组数据: