导图社区 24章描述统计
集中趋势的测度值是对数据水平的一个概括性的度量,它对一组数据的代表程度,取决于该组数据的离散水平。
编辑于2022-07-14 15:37:0524章 描述统计
1节 集中趋势的测度
分布的集中趋势,反映数据向其中心值靠拢或聚集的程度
一、集中趋势的含义
集中趋势是指一组数据向某一中心值靠拢的程度,集中趋势的测度也就是寻找数据一般水平的代表值或中心值。
二、集中趋势的测度指标
(一)均值
均值也就是平均数,就是数据组中所有数值的总和除以该组数值的个数。
1.均值是集中趋势中最主要的测度值,是一组数据的重心所在,解释了一组数据的平均水平。
2.均值主要适用于数值型数据,但不适用于分类数据和顺序数据。
3.均值易受极端值的影响,极端值会使得均值向极大值或极小值方向倾斜,使得均值对数据组的代表性减弱。
(二)中位数
含义
把一组数据按从小到大或从大到小的顺序进行排列,位置居中的数值叫做中位数 。中位数将数据分为两部分,其中一半的数据小于中位数,另一半数据大于中位数。
计算
根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,n 为数据的个数,其公式为:
(1)n 为奇数:中位数位置是(n+1)/2,该位置所对应的数值就是中位数数值。
(2)n 为偶数:中位数位置是介于n/2 和( n/2+1)之间,中位数就是这两个位置对应的数据的均值。
适用
中位数是一个位置代表值, 主要适用于:顺序数据和数值型数据, 不适用于:分类数据。 中位数不受极端值的影响,抗干扰性强,尤其适用于收入这类偏斜分布的数值型数据。
(三)众数
1、含义
众数是指一组数据中出现次数(频数)最多的变量值。
2.适用
众数适于描述分类数据和顺序数据的集中趋势。尤其是分布明显呈偏态时,众数的代表性更好。 而定量数据中,可能出现多众数和无众数的情况,因此众数不适用于描述定量数据的集中位置。 有些情况下可能出现双众数、多众数或者没有众数,难以描述数据的集中趋势。
(四)均值、中位数和众数的比较
集中趋势指标 ;适用变量类型 ;是否利用数据的全部信息 众数 ;分类变量和顺序变量 ;不受 ; 否(缺乏稳定性) 中位数 ;定量变量和顺序变量,特别是分布不对称的数据 ;不受 ;否(稳定性差于均值,优于众数) 均值 ;定量变量 ;受 ;是(受每个观测值影响,比较稳定)
2节 离散程度的测度
分布的离散程度,反映各数据之间的差异程度,也能反映中心值对数据的代表程度
一、离散程度的含义
二、离散程度的测度指标
衡量离散程度的指标包括方差、标准差、离散系数。
(一)方差
离散程度反映的是数据之间的差异程度。 集中趋势的测度值是对数据水平的一个概括性的度量,它对一组数据的代表程度,取决于该组数据的离散水平。 数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差,离散程度越小,其代表性就越好。
数据组中各数值与其均值离差平方的平均数。 对于样本数据,常用的方差公式: S²=【(X1-X平)²+(X2-X平)²+......】/(n-1)
方差越小,说明数据值与均值的平均距离越小,均值的代表性越好。方差的单位是原数据的平方。如身高的方差是 100(cm²)
(二)标准差
方差的平方根 例如,身高的方差是 100(cm2),则身高的标准差就是 10cm
(1)不仅能度量数值与均值的平均距离,还与原始数值具有相同的计量单位 (2)标准差越小,说明数据值与均值的平均距离越小,均值的代表性越好 (3)标准差的大小不仅与数据的计量单位【有关,也与观测值的均值大小有关 (4)不能直接用标准差比较不同变量的离散程度
(三)离散系数 (变异系数,标准差系数)
标准差与均值的比值 例如,平均身高是 170cm,标准差是 10cm,则离散系数=10cm/170cm
(1)离散系数主要用于不同类别数据离散程度的比较 (2)离散系数消除了测度单位和观测值水平不同的影响,因而可以直接用来比较变量的离散程度 离散系数越大,説明数据的离散程度越大
3节分布形态的测度
偏态系数
偏度 :数据分布的偏斜方向和程度,描述的是数据分布对称程度
偏态系数:测度数据分布偏度的统计量,取决于离差三次方的平均数与标准差三次方的比值 偏态系数= [n/(n−1)(n−2)]* (离差/标准差)³
偏态系数的取值
等于0,数据的分布是对称的
偏态系数>0 ,分布为右偏
(1)取值在 0 和 0.5 之间,轻度右偏;
(2)取值在 0.5 和 1 之间,中度右偏;
(3)取值大于 1, 严重右偏
偏态系数<0 分布为左偏
(1)取值在 0 和-0.5 之间,轻度左偏;
(2)取值在-0.5 和-1 之间,中度左偏;
(3)取值小于-1, 严重左偏
偏态系数的绝对值越大
数据分布的偏斜程度越大
标准分数(也称为“Z”分数)
一、标准分数适用及计算
在统计上,均值和标准差不同时,不同变量的数值是不能比较的,来自不同分布的变量值不可比,但是每个数值在变量分布中相对于均值的相对位置是可比的,因此可以通过计算标准分数来比较不同变量的取值。 标准分数可以给出数值距离均值的相对位置。 标准分数 Z=(原始分数-平均分数)÷标准差S
二、标准分数的实际应用
在实际应用中,当数据服从对称的钟形分布时,可以运用经验法则来判断与均值的距离在特定倍数标准差之内的数据项所占比例。 1. 约有 68%的数据与平均数的距离在 1 个标准差之内,标准分数在【-1,1】范围内;【168】 2. 约有 95%的数据与平均数的距离在 2 个标准差之内;标准分数在【-2,2】范围内;【295】 3. 约有 99%的数据与平均数的距离在 3 个标准差之内;标准分数在【-3,3】范围内;【399】 口诀:【399】【295】【168】 三舅舅带着个二舅舅和我一路发。
4节 变量间的相关分析
变量间的相关关系
相关的程度
完全相关
一个变量的取值变化完全由另一个变量的取值变化所确定,称这两个变量完全相关。 如价格不变的条件下,某种商品的销售总额由其销售量决定
不完全相关
介于完全相关和不相关之间,一般的相关现象都属于不完全相关。大部分相关现象均属于不完全相关
不相关
两个变量的取值变化彼此互不影响。 如股票的价格与气温的高低相关的方向
相关的方向
正相关
一个变量的取值由小变大,另一个变量的取值也相应的由小变大,即两个变量同方向变化。(两个变量同方向变化)
负相关
一个变量的取值由小变大,另一个变量的取值由大变小,即两个变量反方向变化。(两个变量反方向变化)
相关的形式
线性相关
两个相关变量之间的关系大致呈现为线性关系
非线性相关
两个相关变量之间的关系近似于某种曲线方程的关系
相关关系并不等于因果关系。也不等于函数关系。比如夏天雪糕和遮阳伞的销售量。
相关系数的度量
散点图
横轴纵轴两个变量不相关
杂乱无章
横轴纵轴两个变量正线性相关
右下角向右上角的倾斜,一堆点趋近一条直线
横轴纵轴两个变量负线性相关
右上角向右下角的倾斜,一堆点趋近一条直线
横轴纵轴两个变量非线性相关
有规律,不是一条直线
相关系数
相关系数是度量两个变量之间相关关系的统计量。 最常用的相关系数是 Pearson(皮尔逊)相关系数。 相关系数的取值范围在[-1,1]之间。
r 的取值;两变量之间的相关关系
0<r<+1 不完全正线性相关
-1<r<0 不完全负线性相关
r=1 完全正线性相关
r=-1 完全负线性相关
r=0 不存在线性相关关系,但并不能说明两变量之间没有任何关系, 它们之间可能存在非线性相关关系
|r|的取值;两变量之间的相关程度
|r|≥0.8 高度相关
0.5≤|r|<0.8 中度相关
0.3≤|r|<0.5 低度相关
|r|<0.3 相关程度极弱,可视为无线性相关关系