导图社区 SPSS统计分析基础教程 第七章 连续变量的统计描述与参数
分析的第一步应当是首先对样本数据进行统计描述,并在此基础上对其所在总体进行推估,即参数估计。本章将介绍连续变量的统计描述与参数估计
编辑于2022-08-18 10:31:17 浙江省可口可乐的总裁罗伯特·伍德鲁夫曾说过一句话:“即使可口可乐的工厂被大火烧掉,给我三个月时间我就可以重建完整的可口可乐。” 所以说大火能够烧掉的都是花钱马上就可以重建的,只是多花一点时间。真正烧不掉的成果是什么?那就是在顾客的心智中,左右了顾客选择和认知的载体——品牌
短视频直播间引流,指利用系统自然推荐或商业化投放方式,通过让消费者观看直播预约短视频、15-30秒商品解说、利益点宣导等内容视频,引发消费者对直播内容的兴趣,在播前点击直播间预约或在播中进入直播间,并最终实现在直播间下单的销售转化方式。
智能终端 是搭载操作系统的智能硬件设备。基于网络与多元智能技术,智能终端不仅是信息平台,为用户提供丰富的内容应用;也是数据中台,与用户进行实时的数据交换与流动;还是渠道载体,产品与服务直接触达,用户即时调取互动;更是体验空间,为用户打造立体可交互的虚拟世界。
社区模板帮助中心,点此进入>>
可口可乐的总裁罗伯特·伍德鲁夫曾说过一句话:“即使可口可乐的工厂被大火烧掉,给我三个月时间我就可以重建完整的可口可乐。” 所以说大火能够烧掉的都是花钱马上就可以重建的,只是多花一点时间。真正烧不掉的成果是什么?那就是在顾客的心智中,左右了顾客选择和认知的载体——品牌
短视频直播间引流,指利用系统自然推荐或商业化投放方式,通过让消费者观看直播预约短视频、15-30秒商品解说、利益点宣导等内容视频,引发消费者对直播内容的兴趣,在播前点击直播间预约或在播中进入直播间,并最终实现在直播间下单的销售转化方式。
智能终端 是搭载操作系统的智能硬件设备。基于网络与多元智能技术,智能终端不仅是信息平台,为用户提供丰富的内容应用;也是数据中台,与用户进行实时的数据交换与流动;还是渠道载体,产品与服务直接触达,用户即时调取互动;更是体验空间,为用户打造立体可交互的虚拟世界。
SPSS统计分析基础教程第二部分 统计描述与统计图表
第 7 章 连续变量的统计描述与参数
7.1 连续变量的统计描述指标体系
分析的第一步应当是首先对样本数据进行统计描述,并在此基础上对其所在总体进行推估,即参数估计。本章将介绍连续变量的统计描述与参数估计,而第 8 章将介绍无序分类、有序分类变量和多选题的统计描述与参数估计
7.1.1 集中趋势的描述指标
在统计学中用于描述集中趋势,或者说数据分布的中心位置的统计量就被称为位置统计量(Location Statistic )
1.算术均数
算术均数(Arithmetic Mean)是最常用的描述数据分布的集中趋势的统计指标
总体均数(Population Mean)用希腊字母
样本均数常用
均数是最常用的集中趋势描述指标,但它不适用于对严重偏态分布的变量进行描述,只有单峰和基本对称的分布资料,使用均数作为集中趋势描述的统计量才是合理的
2.中位数
中位数(Median)是将全体数据按大小顺序排列,在整个数列中处于中间位置的那个值
(2) 由于中位数是位置平均数,因此不受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比算术平均数更具有代表性
(3) 中位数适用于任意分布类型的资料,不过由于它只考虑居中位置,对信息的利用不充分,当样本量较小时数值会不太稳定
备注:因此对于对称分布的资料,分析者会优先考虑使用均数,仅仅是对均数不能使用的情况才用中位数加以描述
3.其他集中趋势描述指标
(1) 截尾均数(Trimmed Mean)
由于均数较易受极端值的影响,因此可以考虑按照一定比例去掉最两端的数据,然后再计算均数
如果截尾均数和原均数相差不大,则说明数据不存在极端值,或者两侧极端值的影响正好抵消
常用的截尾均数有 5%截尾均数,即两端各去掉 5%的数据。SPSS 的“探索”过程可以计算 5%截尾均数
(2) 几何均数(Geometric Mean)
几何均数用G表示,适用于原始数据分布不对称,但经对数转换后呈对称分布的资料
在 SPSS 中,几何均数可以在“报告”子菜单的“个案摘要”过程中输出
(3) 众数(Mode)
众数指的是样本数据中出现频次最大的那个数字
不受极端值影响,但不易确定,且没有太明确的统计特性,一般很少使用该指标
在 SPSS 中,众数可以在“报告”子菜单和“表”子菜单的全部制表过程中计算输出
(4) 调和均数(Harmonic Mean)
调和均数用符号 H 表示
它实际上是观察值X 倒数之均数的倒数,常用于完成的工作量相等而所用时间不同的情况,主要用来求平均速度
各原始数据的大小相差越悬殊,该均数的“调和”作用就越明显
在 SPSS 中,调和均数可以在“报告”子菜单的“个案摘要”过程中输出
7.1.2 离散趋势的描述指标
描述该趋势的统计量就被称为尺度统计量(Scale Statistic)
1.全距
全距(Range)又称为极差,是一组数据中最大值与最小值之差,是最简单的变异指标
全距一般只用于预备性检查
2.方差和标准差
均差&总体方差
对于每个数据而言,其离散程度的大小就是和均数的差值,简称离均差
而总体方差就是将离均差平方和除以观察例数n
方差
对于样本数据而言,方差( Variance)的计算公式
其中的 n-1被称为自由度( Degree of Freedom),用符号 v 表示
标准差(Standard Deviation )
将方差开平方
总体标准差
样本标准差
注意
由于标准差和方差的计算涉及每一个变量值,所以它们反映的信息在离散指标中是最全的,是最理想 、最可靠的变异描述指标
但也正是由于标准差和方差的计算涉及每一个变量值,所以它们也会受到极端值的影响,当数据中有较明显的极端值时不宜使用
实际上,方差和标准差的适用范围应当是服从正态分布的数据
3.百分位数、四分位数与四分位间距
百分位数(Percentile)
是一种位置指标
一个百分位数Px 将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大
中位数实际上就是一个特定的百分位数,即P50
四分位数
除中位数外,常用的百分位数还有四分位数,即 P25,P50 和 P75 分位数的总称
这 3 个分位数正好能够将全部数据按大小等分为 4 部分
且 P25 和 P75 这两个分位数间包括了中间50%的观察值
四分位间距
四分位间距既排除了两侧极端值的影响,又能够反映较多数据的离散程度
是当方差、标准差不适用时较好的离散程度描述指标
4. 变异系数( Coefficient of Variation )
当需要比较两组数据的离散程度大小时,直接使用标准差来进行比较可能并不合适
分为两种情况
(1) 测量尺度相差太大
例如希望比较蚂蚁和大象的体重变异
(2) 数据量纲不同
例如希望比较身高和体重的变异
以上情形中,应当考虑消除测量尺度和量纲的影响,而变异系数就可以做到这一点
它是标准差与其平均数的比
CV显然没有量纲,同时又按照其均数大小进行了标准化,这样就可以进行客观比较
7.1.3 分布特征及其他趋势的描述指标
由于所假定的分布不同,所使用的分布特征描述指标也会有所差异,这里只简单介绍和正态分布有关的偏度系数和峰度系数的概念
1. 偏度(Skewness)
偏度(Skewness)是用来描述变量取值分布形态的统计量,指分布不对称的方向和程度
样本的偏度系数记为
这是根据矩法测定分布偏度的计算公式
偏度是与正态分布相比较而言的统计量
>0 分布为正偏或右偏,即长尾在右,峰尖偏左
<0 分布为负偏或左偏,即长尾在左,峰尖偏右
=0 分布为对称
2. 峰度(Kurtosis)
峰度是用来描述变量取值分布形态陡缓程度的统计量,是指分布图形的尖峭程度或峰凸程度
样本的峰度系数记为
根据矩法测定分布峰度的计算公式
峰度也是与正态分布相比较而言的统计量
>0 时峰的形状比较尖,比正态分布峰要陡峭
<0 时形状比正态分布要平坦
=0 时则分布为正态峰
3.其他趋势的描述指标
数据是呈单峰还是双峰分布
数据是否存在极端值
常用的有针对异常值数据进行描述的极端值(Oullier)列表
7.1.4 SPSS 中的相应功能
1. 频率( Frequencies) 过程
频率过程的特色是产生原始数据的频数表,并能计算各种百分位数
除统计指标外,频率过程还可以为数据直接绘制相应的统计图,如用于连续变量的直方图
2. 描述( Descriptive)过程
该过程用于进行一般性的统计描述
相对于频率过程而言,它不能绘制统计图
所能计算的统计量也较少,但由于输出格式非常紧凑,使用频率却很高
该过程适用于对服从正态分布的连续变量进行描述
3.探索(Explore)过程
该过程用于对连续资料分布状况不清时的探索性分析,它可以计算许多描述统计量
除常见的均数、百分位数之外,还可以给出截尾均数、极端值列表等,并绘制出各种统计图,是功能最强大的一个描述过程
4.比率(Ratio)过程
该过程的功能比较特殊,用于对两个连续变量计算相对比指标
除中位数、均值、加权均值等常见指标外,还可以计算出一系列专业指标,如离差系数(COD)、以中位数为中心的变异系数、以均值为中心的变异系数、价格相关微分(PRD)、平均绝对偏差(AAD)等
7.2 连续变量的参数估计指标体系
7. 2. 1 正态分布
1. 正态分布的定义
若连续型随机变量欠的概率分布密度函数为
正态分布曲线是一条对称曲线,关于均数对称,因此均数被称为正态分布的位置参数,而该曲线的高矮形状则与标准差有关
标准差被称为正态分布的尺度参数
标准差越大,个体差异越大,正态曲线也越矮阔
标准差越小,个体差异越小,正态曲线也越尖峭
正态曲线下的面积也有一定的分布规律
例如约 95%的个体的取值与平均数的距离在 1.96 个标准差之内,据此可以做出一些相应的总体推断
2. 标准正态分布
均数为 0 、标准差为 1 的正态分布被称为标准正态分布(Standard Normal Distribution, SND)
对于其他的正态分布,则可以通过使用以下变换将其转换为 SND
该变换被称为标准正态变换
在国外,标准正态分布被称为 u 分布或者z 分布,因此变换也被称为 u变换或者z 变换
7.2.2 参数的点估计
参数的点估计就是选定一个适当的样本统计量值作为参数的估计值,如将样本均数作为总体均数的点估计值
参数点估计可用的方法有矩法和极大似然法两种
具体统计量的选择3 个原则
(1) 无偏性
虽然估计量的值不全等于参数,但应当在真实值附近摆动
(2) 一致性
样本量越大,估计值离真实值的差异应当越小
(3) 有效性
如果有两个统计量都符合上述要求,则应当选取误差小的一个作为估计值
1. 矩法
它指的是在许多情况下,样本统计量本身往往就是相应总体参数的最佳估计值,此时就可以直接取样本统计量作为总体参数的点估计值
例如,样本均数 、方差 、标准差都是相应总体均数 、方差 、标准差的矩估计量
对于常用的正态分布而言,矩法几乎可以满足全部参数的点估计需求,所以平常书中所说的点估计实际上就是用的矩法
2. 极大似然法
优点在于估计量常能满足一致性 、有效性等要求,且具有不变性,不变性是指当原始数据进行某种函数变换后,相应估计量的同一函数变换值仍是新样本的极大似然估计量
该方法的原理是在已知总体分布,但未知其参数值时
在待估参数的可能取值范围内进行搜索,使似然函数值(在参数所确定的总体中获得现有样本的概率)最大的那个数值即为极大似然估计值
矩法和极大似然法虽然能够很好地满足点估计的需要,但也有明显缺陷,就是估计值受异常值的影响十分显著,或因数据分布的偏离而使估计值产生较大变化
3.稳健(Robust)估计值
稳健估计方法就是当观测数据不符合假定模型,与假定模型有偏离时,分析结论仍然保持稳定并正确的统计方法
稳健估计指的就是该统计量受数据异常值的影响较小,而且对大部分的分布而言都很好(当然,这种特征意味着它不会对每个分布都是最佳的)
稳健估计有 M 估计、R 估计等不同方法,前者是稳健估计常用的方法
7.2.3 参数的区间估计
1. 标准误( Standardized Error)
虽然原始数据可能服从各种各样的分布,但是根据中心极限定理,当样本量几足够大时(如n>50),其抽样均数都会近似服从正态分布
而此正态分布所对应的标准差就可用来表示抽样误差的大小,此即标准误
2. 区间估计的计算
结合样本统计量和标准误可以确定一个具有较大的可信度( 如 95%或 99%)包含总体参数的区间,该区间称为总体参数的 l-a可信区间或置信区间(Confidence Interval, CI)
下面来看一下可信区间是如何求得的
以最常用的 95%双侧可信区间为例
其公式为
也是未知总体参数
计算中必须要使用样本标准差 s 来代替
公式就必须加以修
此时样本均数按照前述标准化公式变换后服从的是t分布而不是u分布
7.2.4 SPSS 中的相应功能
1. 描述( Descriptive )过程
该过程较为特殊的一个功能是将原变量变换为标准正态分布下的得分,只需要选中主对话框左下角的“将标准化得分另存为变量”复选框即可
2. 探索(Explore)过程
该过程不仅会计算标准误,还可以直接给出均数 95%可信区间,而对于均数的点估计,还可直接提供稳健估计值,显然要更为专业
3. P-P 图和 Q-Q 图
这两个过程用图形方式来直接观察样本数据分布是否服从所假设的理论分布
7.3 案例:信心指数的统计描述
7. 3. 1 使用频率过程进行分析
例 7.1
对 CCSS 数据中的消费者信心总指数 indexl 、现状指数 indexl a 和预期指数 indexl b进行统计描述,并计算出 95%个体参考值范围
本例要求计算出 95%个体参考值范围,这可以用百分位数法和正态分布法两种方法加以计算
由于目前尚不了解 in#xl 是否服从正态分布,且样本量较大,因此可以考虑使用频率过程计算出 P2. 5 和 P97. 5 的数值,这就是百分位数法得出的 95%个体参考值范围的上下界
1. 界面说明
选择“分析” “描述统计" " 频率”菜单项,就会调出频率对话框界面
(1) 主对话框
“变量”列表框用于选入需要进行描述的变量,如果选入多个,系统会对其依次进行分析。左下角的“显示频率表”复选框用于输出频数表,默认选中
(2)“统计”按钮
相应的子对话框定义需要计算的描述统计量
包括集中趋势、离散趋势、分布特征和百分位数 4 组
比较特殊的是右侧的“值为组的中点”复选框,当输入的数据是分组频数数据,并且具体数值是组中值时,需要选中该复选框,这样 SPSS在计算各种百分位数时会将数据按频数表对待 ,而不会认为同一组内的数据取值都是组中值的大小
(3)“图表”按钮
相应的子对话框用于设定所做的统计图
(4)“格式”按钮
用于定义输出频数表的格式,主要涉及排序方式,一般不用更改
(5)“样式”按钮
用于对输出结果中的透视表进行格式自定义
(6)“自助抽样”按钮
使用 Bootstrap 这种计算统计学方法进行任意总体参数的估计
2. 操作说明与结果解释
( 1 ) 将 index1 、indexla 和 index1b 选入“变量”列表框,取消左下方“显示频率表”复选框
(2) 进入“统计量”子对话框,选中所需的常用统计量,并且在百分位数中设定输出 P2.5 和P97. 5
本例的输出结果
可见总信心指数的均数和中位数非常接近,而根据百分位数法计算出的95%个体参考值范围为 46. 86 ~132. 78
可以利用均数和标准差计算出正态分布下的95%个体参考值范围是 54. 74 ~137. 05
7.3.2 使用描述过程进行分析
1. 界面说明
选择“分析"" 描述统计" 描述”菜单项,就会调出其对话框界面
(1) 主对话框
“变量”列表框用于选入需要进行描述的变量,如果选入多个,系统会在同一张表格内输出描述结果
选中下方的“将标准化值另存为变量”复选框会在数据集中生成一个新变量,该变量自动命名为“Z+原变量名" ,大小即为原变量的标准正态变换结果
(2)“选项”按钮
相应子对话框用于设定描述统计量
实际上这些统计量均只适用于正态分布资料
(3) 其余按钮
2.操作说明与结果解释
该过程的操作非常简单,只需要将希望描述的变量选入即可
7.3.3 使用探索过程进行分析
例 7・2
分月份 time 对总指数 index 1 进行统计描述,以详细了解其分布情况
1. 界面说明
(1) 主对话框
“因变量列表”列表框用于选入需要分析的变量,“因子列表”列表框用于选入分组变量,“个案标注依据”列表框用于选入标签变量,而下方的“输出”框组用于选择结果中是否包含统计描述 、统计图,或者两者均包括
(2)“统计”按钮
用于选择所需要的描述统计量
默认选中的“描述”复选框可以输出一系列常用指标,详见分析实例
“M-估计量”复选框会给出集中趋势的最大稳健估计值
“离群值”复选框会输出 5 个最大值与 5 个最小值备查
而“百分位数”复选框则会输出第 5% 、10%、25% 、50%、75% 、90% 、95%分位数备查
(3)“图”按钮
相应的对话框用于选择所需要的统计图
“箱图”框组可要求绘制分组箱图或者单一箱图
(4)“选项”按钮
要用于控制存在缺失值时的处理方式,一般不用更改
2. 基本输出结果
输出结果
(1) 集中趋势指标
可见 2007 年 4 月的总指数均值为 98.3,而5%截尾均数为 99.0,中位数为 101.5,三者相差不明显,说明数据基本对称分布
(2) 离散趋势指标
总指数方差为 358.0,其平方根即标准差为 18.9,样本中总指数最低值为 31.2,最高值为 140.6,两者之差即为全距(范围)109.35,中间一半样本的全距即为四分位距 23.43
(3) 参数估计
总指数均数的标准误为 1.09,总体均数 95%可信区间为 96.2~ 100.5
(4) 分布特征指标
表格最下方还会给出表示数据偏离正态分布程度的偏度系数和峰度系数,及其各自的标准误,这里不再详述
3. M-统计量
如果选择了“统计量”子对话框中的 M-统计量,则会给出结果如图
表格中一共会输出 Huber,Andrew ,Hampel 和 Tukey 共 4 种 M-统计量,其中 Huber 法适用于数据接近正态分布的情况,另 3 种则适用于数据中有过多异常值时
4.极端值列表
当选择“统计量”子对话框中的“界外值”复选框后,即可输出极端值列表如图
表格中会输出 5 个最大值与 5 个最小值,以及这些数值所对应的记录号,从两侧极值的大小可见,在最大、最小两个方向上并没有特别明显的异常值,该结果同样支持前面得出的数据分布基本对称的结论
5.百分位数
如果选择“百分位数”复选框,则会输出百分位数表如图
其中,会给出第 5%、10%、25%、50%、75%、90%、95%分位数,并分别采用了两种算法
当数据量较大,且基本无重复值时,两法的结果相同;反之,则加权平均法会对数据进行内插,此时其结果应当比 Tukey 法更为准确一些
7. 4 Bootstrap 方法
7. 4. 1 模型介绍
1. 基本原理
Bootstrap 方法由 Efron 于 1979 年提出,是基于大量计算的一种模拟抽样统计推断方法
两种目的
① 判断原参数估计值是否准确
②计算出更准确的可信区间,判断得出的统计学结论是否正确
基本思想
在总样本量为 n 的原始数据中做有放回的抽样,样本含量仍为n,每个观察单位每次被抽到的概率相等 ,为 1/n,所得样本称为 Bootstrap 样本
2. 参数法和非参数法
Bootstrap 方法有参数法和非参数法两种
3.抽样次数的确定
应用 Bootstrap 方法时需要首先确定抽样次数 B 应取多大。显然,B 取值越大,则计算结果越准确,但需要花费的计算时间也越长
从经验值上讲,一般取 50 ~ 200 即可保证参数估计值的相对误差不大于5%,但如果采用百分位数法来计算可信区间,则显然此时可用于计算区间的数据量太少,最好能增加到 1 000 例上下
高于 1 000 例多数情况下带来的精度改善非常有限,且过于耗时。因此在多数情况下抽样次数定为 1 000次最为常见
7. 4. 2 案例:对总指数进行 Bootstrap 估计
例 7. 3
对 CCSS 中总指数的均数 、标准差进行 Bootstrap 方法的参数点估计和区间估计
1. 界面说明
SPSS 目前在许多过程的对话框中均纳入了 Bootstrap 模块,在其中以一个子对话框的方式出现
(1)”执行自助抽样”复选框
要求进行 Bootstrap 抽样,下方的“样本数”文本框则用于指定抽样次数,默认为 1 000 次,该设定适用于大多数情形,一般不需要修改
(2)“设置梅森旋转算法种子”复选框
作为一种计算统计学方法,默认情况下 Bootstrap 每次的抽样计算结果都是随机出现的,很难重现
使用该选项就可以在下方的文本框中自行指定随机种子,从而在设定相同随机种子的情况下得到完全相同的分析结果
(3)“置信区间”框组
默认是采用百分位数法计算出95%可信区间,如果希望得到更为精确的结果,则可以使用偏差修正加速(BCa)算法来调整区间,它更加准确,但代价是需要更长的计算时间
(4)“抽样”框组
SPSS 默认为不分层的完全随机抽样,如果确认数据存在层次结构,则可以通过指定分层变量来实现分层抽样 ,以得到更为准确的分析结果
2. 结果解释
输出结果
均值下方给出的是“标准差”的统计结果
显然此处 Bootstrap 方法就显示出了其独特的能力
indexl 总体标准差的95%CI 为 19. 9 ~ 22. 1 ,而经典的标准差点估计值 21. 0 也基本接近 Bootstrap 点估计值,说明其估计也是准确的