导图社区 描述统计
描述统计思维导图。该导图介绍了数据分布特征的测度分为三个方面、集中趋势的测度、离散程度的测距等等,供您参考。
编辑于2021-06-13 18:40:35第二十四章描述统计
数据分布特征的测度分为三个方面
分布的集中趋势
反映各数据向其中心值靠拢或聚集的程度
分布的离散程度
反映各数据之间的差异程度,也能反映中心值对数据的代表程度
分布的偏态
反映数据分布的不对称性
集中趋势的测度★
均值
是数据组中所有数值的总和除以该组数值的个数
也称平均数
均值是集中趋势最主要的测度值,它是一组数据的重心所在,解释了一组数据的平均水平
它主要适用于数值型数据,但不适用于分类和顺序数据
中位数
把一组数据按从小到大或从大到小的顺序进行排列,位置居中的数值叫作中位数
中位数是一个位置代表值,主要用于顺序数据和数值型数据,但不适用于分类数据。中位数的优点是不受极端值的影响,抗干扰性强,尤其适于收入这类偏斜分布的数值型数据
众数
指一组数据中出现次数(频数)最多的变量值
众数适用于描述分类数据和顺序数据的集中趋势。不适用于描述定量数据的集中位置
均值、中位数和众数的比较及适用范围
均值适用于定量变量
优点是能够充分利用数据的全部信息,均值大小受每个观测值的影响,比较稳定。缺点是易受极端值的影响,如果观测值中有明显的极端值,则均值的代表性较差
中位数不适于分类变量,适于顺序变量和定量变量,特别是分布不对称的数据
优点是不受极端值的影响。缺点是没有充分利用数据的全部信息,稳定性差于均值,优于众数
众数不适用于定量变量,主要适用于分类和顺序变量
优点是不受极端值的影响,尤其是分布明显呈偏态时,众数的代表性更好。缺点是没有充分利用数据的全部信息,缺乏稳定性,而且可能不唯一
例:某售货小组有5名营业员,元旦全天的销售额分别为520元、600元、480元、750元和500元, 求该日平均销售额
离散程度的测度★
离散程度反映的是数据之间的差异程度
集中趋势的测度值是对数据水平的一个概括性的度量,它对一组数据的代表程度,取决于该组数据的离散水平
数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差,离散程度越小,其代表性就越好
方差
方差是数据组中各数值与其均值离差平方的平均数,它能较好的反映出数据的离散程度,是实际中应用最广泛的离散程度测度值
对于总体数据,常用的方差有
对于样本数据,常用的方差有
N为总体规模,n为样本规模
方差越小,说明数据值与均值的平均距离越小,均值的代表性越好
标准差
标准差即方差的平方根,常用标准差来测度数据的离散程度
标准差不仅能度量数值与均值的平均距离,还与原始数值具有相同的计量单位。标准差与方差是应用最广泛的统计离散程度的测度方法
标准差与方差只适用于数值型数据,他们与均值一样,对极端值也很敏感
沿用上例
离散系数
也称变异系数或标准差系数,即标准差与均值的比值,主要用于不同类别数据离散程度的比较,记为CV
标准差的大小不仅与数据的测度单位有关,也与观测值的均值大小有关,不能直接用标准差比较不同变量的离散程度。离散系数消除了测度单位和观测值水平不同的影响,可以直接用来比较变量的离散程度
沿用上例
变量间的相关分析
按相关的程度
完全相关
当一个变量的取值变化完全由另一个变量的取值变化所确定时,称这两个变量间的关系为完全相关
不完全相关
两个变量之间的关系介于完全相关和不相关之间
不相关
两个变量的取值变化彼此互不影响
按相关的方向
正相关
同向变化
负相关
反向变化
按相关的形式
线性相关
当两个相关变量之间的关系大致呈现为线性关系时,称为线性相关
非线性相关
两个相关变量之间,并不表现为直线的关系,而是近似于某种曲线方程的关系则为非线性相关
散点图
图a的点几乎无规律可言,表示这两个变量不相关。 图b和图c中,观测点密集在一条直线周围,表现为较强的线性相关,但相关的方向不同。图b中的两个变量为正相关关系,图c的两个变量为负相关关系。 图d中的观测点呈现出曲线模式,表示两个变量为曲线非线性相关
相关系数
相关系数是度量两个变量之间相关关系的统计量。最常用的相关系数是Pearson相关系数,它度量的是两个变量间的线性相关关系
Pearson相关系数只适用于线性相关关系的判断
取值范围
Pearson相关系数的取值范围在+1和-1之间。若0<r≤1,表明变量X和Y之间存在正线性相关关系,若-1≤r<0,表明变量X和丫之间存在负线性相关关系。若r=1,表明变量X和Y之间为完全正线性相关,若r=-1,表明变量X和Y之间为完全负线性相关。可见,当|r|=1时,变量Y的取值完全依赖于X;当r=0时,说明Y和X之间不存在线性相关关系
根据经验可将相关程度分为以下几种情况:当|r|≥0.8时,可视为高度相关;当0.5≤|r|<0.8时,可视为中度相关;当0.3≤|r|<0.5时,可视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度极弱,可视为无线性相关关系
分布形态的测度
偏态系数
偏度是指数据分布的偏斜方向和程度,描述的是数据分布对称程度。测度数据分布程度的统计量为偏态系数
偏态系数取决于离差三次方的平均数与标准差三次方的比值。偏态系数的绝对值越大,说明数据分布的偏斜程度越大
如果偏态系数等于0,说明数据的分布是对称的;如果偏态系数为正值,说明分布为右偏的,取值在0~0.5之间说明轻度右偏,取值在0.5~1之间说明中度右偏,取值大于1说明严重右偏;如果偏态系数为负值,说明分布为左偏,取值说明同右偏相反
标准分数
也称为Z分数,是统计上常用的一种标准化方法,转变后的标准分数并没有改变数值在原分布中的位置,也没有改变数据分布的偏度,但是标准分数的平均数为0,标准差为1。计算方法是用数值减去均值所得的差除以标准差
在统计上,均值和标准差不同时,不同变量的数值是不能比较的。但是每个数值在变量分布中相对于均值的相对位置是可比的,因此可通过计算标准分数来比较不同变量的取值。标准分数可以给出数值距离均值的相对位置,计算方法是用数值减去均值所得的差除以标准差
对于服从对称的钟形分布的标准分数,68%的标准分数在[-1,+1]范围内,约有95%的标准分数在[-2,+2]范围内,约有99%的标准分数在[-3,+3]范围内
2020年考试大纲:理解数据特征测度,掌握集中趋势的测度指标、离散趋势的测度指标、分布形态的测度指标以及变量间关系的测度指标的计算方法,辨别常用测度数据。