导图社区 数据的概括性度量
这是一篇关于数据的概括性度量的思维导图,讲述了集中趋势的度量、离散程度的度量、偏态和峰态的度量等,收藏下图学习吧!
这是一篇关于数据收集的思维导图,讲述了数据的来源、调查方法、实验方法、数据的误差等,希望梳理的内容对你有所帮助!
数据的图表表示思维导图,讲述了数据的预处理、品质数据的整理与展示、数值型数据的整理与展示、合理使用图表等。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
第四章、数据的概括性度量
4.1集中趋势的度量
众数:不受数据中极端值的影响,但是具有不唯一性,适合作为分类数据的集中趋势测度值
分位数(中位数,四分位数):不受极端值的影响,数据分布偏斜程度大适合,适合作为顺序数据的集中趋势测度值
平均数:最广泛的集中趋势测度值,对称时使用最好,但是易受极端值影响
简单平均数
加权平均数
几何平均数
三者的关系: (1)数据分布对称:平均值=中位数=众数 (2)数据分布左偏:平均值<中位数<众数 (3)数据分布右偏:平均值>中位数>众数
4.2离散程度的度量
异众比率:非众数组的频数占总频数的比例,异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差,适合测度分类数据的离散程度(其他两类数据也可以用)
四分位差:也称为内距或四分间距 ,它是上四分位数与下四分位数之差,数值越小,说明中间的数据越集中,在一定程度上说明了中位数对一组数据的代表程度,四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差,但它不适合分类数据
数值型数据的离散程度的度量
极差:一组数据的最大值与最小值之差称为极差 ,也称全距,容易受极端值的影响。不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。
平均差:均绝对离差,它是各变量值与其平均数离差绝对值的平均数,反映了每个数据与平均数的平均差异程度,能全面反应离散程度,平均差越大,说明数据的离散程度越大
方差、标准差:较好的反应数据的离散程度
相对位置的度量
标准分数:变量值与其平均数的离差除以标准差后的值称为标准分数,也称标准化值或Z分数,给出了一组数据中各数据的相对位置
经验法则(适合对称分布的数据): 约有68%的数据在平均数士1个标准差的范围之内。 约有95%的数据在平均数士2个标准差的范围之内。 约有99%的数据在平均数士3个标准差的范围之内。
切比雪夫不等式(任何分布形态的数据):至少有(1-1/k^2)的数据落在+-k个标注差内(k>1)
离散系数:也称为变异系数,它是一组数据的标准差与其相应的平均数之比,离散系数大,说明数据的密散程度也大
4.3偏态和峰态的度量
偏态系数:偏态系数等于0,分布是对称的;偏态系数大于1或小于-1,称为高度偏态分布;偏态系数在 0.5~1或-1~-0.5之间,称为是中等偏态分布;偏态系数越接近0,偏斜程度就越小,偏态系数为正时,可判断为右偏(正偏)
峰态系数:当K>0时为尖峰分布,数据的分布更集中;当K<0时为扁平分布,数据的分布越分散。若式中不减3,此时的比较标准是3。当K>3时为尖峰分布,K<3时为扁平分布。