导图社区 SPSS统计分析基础教程 第八章 分类变量的统计描述与参数
在工作中,往往需要对两个甚至多个分类变量的频数分布进行联合观察,此时就涉及了多个分类变量的联合描述。以两个变量为例,假设有几 个个体根据两个属性 A 和 B 进行分类。属性A 有 r 类: A1, A2 …,Ar,属性 B 有 c 类:B1,B2,…,Bc。n个个体既属于 Ai类又属于Bj的有Nij个。那么就构成如下一个二维的 rXc 列联表。
编辑于2022-09-16 09:29:41 浙江省可口可乐的总裁罗伯特·伍德鲁夫曾说过一句话:“即使可口可乐的工厂被大火烧掉,给我三个月时间我就可以重建完整的可口可乐。” 所以说大火能够烧掉的都是花钱马上就可以重建的,只是多花一点时间。真正烧不掉的成果是什么?那就是在顾客的心智中,左右了顾客选择和认知的载体——品牌
短视频直播间引流,指利用系统自然推荐或商业化投放方式,通过让消费者观看直播预约短视频、15-30秒商品解说、利益点宣导等内容视频,引发消费者对直播内容的兴趣,在播前点击直播间预约或在播中进入直播间,并最终实现在直播间下单的销售转化方式。
智能终端 是搭载操作系统的智能硬件设备。基于网络与多元智能技术,智能终端不仅是信息平台,为用户提供丰富的内容应用;也是数据中台,与用户进行实时的数据交换与流动;还是渠道载体,产品与服务直接触达,用户即时调取互动;更是体验空间,为用户打造立体可交互的虚拟世界。
社区模板帮助中心,点此进入>>
可口可乐的总裁罗伯特·伍德鲁夫曾说过一句话:“即使可口可乐的工厂被大火烧掉,给我三个月时间我就可以重建完整的可口可乐。” 所以说大火能够烧掉的都是花钱马上就可以重建的,只是多花一点时间。真正烧不掉的成果是什么?那就是在顾客的心智中,左右了顾客选择和认知的载体——品牌
短视频直播间引流,指利用系统自然推荐或商业化投放方式,通过让消费者观看直播预约短视频、15-30秒商品解说、利益点宣导等内容视频,引发消费者对直播内容的兴趣,在播前点击直播间预约或在播中进入直播间,并最终实现在直播间下单的销售转化方式。
智能终端 是搭载操作系统的智能硬件设备。基于网络与多元智能技术,智能终端不仅是信息平台,为用户提供丰富的内容应用;也是数据中台,与用户进行实时的数据交换与流动;还是渠道载体,产品与服务直接触达,用户即时调取互动;更是体验空间,为用户打造立体可交互的虚拟世界。
SPSS 统计分析基础教程 第二部分 统计描述与统计图表
第 8 章 分类变量的统计描述与参数
8.1 指标体系概述
8.1.1 单个分类变量的统计描述
1.频数分布
对于无序分类变量,分析中首先应当了解的是各类别的样本数有多少,以及各类别占总样本量的百分比各为多少。这些信息往往会被整理在同一张频数表中加以呈现
对于有序分类变量,除给出各类别的频数和百分比外,研究者往往还对累计频数和累计百分比感兴趣,即低于/高于某类别取值的案例所占的次数和百分比
2. 集中趋势
众数只反映频数最多的类别的情况,而浪费了所有其他信息,因此只有集中趋势显著时,众数才较有价值
3.相对数指标
比( Ratio)
指的是两个有关指标之比 4/8,用于反映这两个指标在数量/频数上的大小关系。事实上,比也可以被拓展到连续变量的范畴内,如本月销售额/销售人员数
构成比(Proportion)
用于描述某个事物内部各构成部分所占的比重,其取值在 0%~100%之间
率(Rale)
率是一个具有时间概念,或者说具有速度 、强度含义的指标,用于说明某个时期内某个事件发生的频率或强度
率应当是一个时间点上的强度测量,但这在实际工作中很难做到,因此一般都按一个时段来进行测量。从而它的分子往往是一个时期的累计数
8.1.2 多个分类变量的联合描述
在工作中,往往需要对两个甚至多个分类变量的频数分布进行联合观察,此时就涉及了多个分类变量的联合描述。以两个变量为例,假设有几 个个体根据两个属性 A 和 B 进行分类。属性A 有 r 类: A1, A2 …,Ar,属性 B 有 c 类:B1,B2,…,Bc。n个个体既属于 Ai类又属于Bj的有Nij个。那么就构成如下一个二维的 rXc 列联表
8.1.3 多选题的统计描述
以标准的多重二分法为例,多选题会使用多个变量加以记录,显然可以对每一个单独的题项/变量来进行统计描述
在多选题分析中比较特别的描述指标有以下 4 个
应答人数( Count)
是指选择各选项的人数,或者说原始频数
应答人数百分比(Percent of Cases)
选择该项的人占总人数的比例,应答人数百分比可以反映该选项在人群中的受欢迎程度
应答人次(Responses)
是指选择各选项的人次,对于单个选项,应答人次和应答人数是相同的,但是对整个问题而言,应答人次可能远远大于应答人数,因为如果一个受访者选择了两个选项,则将会被计为 1 个人数,2 个人次
应答次数百分比( Percent of Responses)
在做出的所有选择中,选择该项的人次占总人次数的比例) 应答次数百分比可以用于比较不同选项的受欢迎程度
8. 1.4 分类变量的参数估计
对于分类变量而言,由于只能取若干个离散的值,因此参数估计所关心的就是各类别在总体中的比例是多少,或者当从中进行一次抽样时,抽得相应类别的概率是多少, 在各种分类变量的分布中,二项分布最为常见
1. 二项分布的定义
如果一个随机变量 X,它的可能取值是 0,1,…,n,且相应的取值概率为:
2. 二项分布的参数估计
在实际问题中,对于一个二项分布的总体而言,其试验次数 几是可以人为确定和控制的,因此只需要对参数 Π加以估计,就可以明确整个分布的情况
由中心极限定理可知,当〃较大、Π不接近0也不接近 1 时(一般认为这个界限是 n>40,且np和nq均大于 5),二项分布B(n,Π)近似正态分布 ,这样就可以利用正态分布中的相应成果来进行参数估计,相应的100(1-a)%可信区间为
当不满足正态近似的条件时,则可以直接利用二项分布的概率分布规律计算相应的可信区间
8. 1.5 SPSS 中的相应功能
作为比较基本的功能,SPSS 的许多分析过程均可完成分类变量统计描述的任务,但常用的有位于“描述统计”子菜单中的“频率”过程和“交叉表”过程,以及另外两个用于多选题描述的制表过程/菜单项
1. 频率过程
显然针对单个分类变量输出频数表是其基本功能,从中可以得到“频数”、“百分比”和“累计百分比”统计量
2. 交叉表过程
其强项在于两个/多个分类变量的联合描述,可以产生二维至n维列联表,并计算相应的行/列/合计百分比、行/列汇总指标等
3. 多重响应( Multiple Response) 子菜单项
该子菜单项属于 Base 模块,专门用于对多选题变量集进行设定和统计描述,包括多选题的频数表和交叉表均可制作,可以满足基本的多选题分析需求
4. 表格模块
表格模块提供了非常强大的制表功能,自然也可以使用多选题进行统计描述,并且还可以直接进行分类变量的参数估计,如给出相应类别频数或者百分比任意置信度的可信区间上下限等
8.2 案例:对学历等背景变量进行描述
8.2.1 使用频率过程进行描述
如果希望了解 CCSS 项目中受访者的学历分布情况,则可以使用频率过程输出相应的频数表,操作非常简单,将变量 S4 学历选入“变量”列表,单击“确定”按钮后,相应的结果如图 所示。表格中依次为频数 、百分比、有效百分比和累计百分比的数值。这里的有效百分比指的是去除掉缺失样本后,各类别在有效样本中所占的比例,本例因为学历没有缺失值,因此数值等同于其左侧的百分比
8.2.2 使用交叉表过程进行描述
1. 界面说明
选择“分析”"描述统计 ""交叉表”菜单项,就会调出“交叉表”对话框
(1) 主对话框
中部依次排列的“行”列表框、“列”列表框分别用于选择交叉表中的行、列变量
(2)“精确”按钮
相应的子对话框用于设定对行 * 列表是否进行确切概率计算,以及具体的计算方法
(3)“统计”按钮
提供了一整套用于计算行/列变量关联性的统计指标和检验方法
(4)“单元格”按钮
用于定义列联表单元格中需要显示的指标,这些指标被分为计数、百分比和残差 3 类,实际上以前两类较常用
(5) 其他按钮
“格式”按钮主要用于设定单元格的排序方式,使用价值不大
2. 操作说明与结果解释
根据分析目的,只需要分别将“性别”和“学历”选入“行”、“列”列表框中,然后在“单元格”子对话框中选择列百分比输出,即可得到所需的结果
表中(标签有删减)很清楚地给出了性别和学历的交叉分布情况,可以看出随着学历的上升,男性所占的比例从初中/技校或以下的 48%,逐渐上升至硕士或以上的 63%。当然,由于这只是样本数据的描述情况,这究竟是因为抽样误差所致,还是总体中也的确存在此趋势,还需要通过假设检验来加以确认
8.3 案例:对多选题 C0 还贷状况进行描述
8. 3.1 设定多选题变量集
由于 SPSS 并不能自动将数据集中相应的多个变量识别为多选题,只会默认它们是若干分散的变量,因此在分析之前必须要在软件中先进行多选题变量集的定义
在 SPSS 中选择“分析” "多重响应" “定义变量集" 菜单项
(1)“集合中的变量”列表框
选入需要加入多选题变量集的变量列表,对于多重二分法录入的多选题,这些变量必须为二分类,并按照相同的方式来编码(如都用 1 代表选中)。对于多重多分类法录入的多选题,这些变量须为多分类,并共用一套值和值标签
(2)“变量编码方式”单选框组
选择变量的编码方式。在多重二分法时,需要在右侧的“计数值”文本框中指定是用哪个数值表示选中。在多重分类法时需要在右侧设定取值范围,在该范围内的记录值将纳入分析,注意在制表模块中不需要设定这一取值范围,操作更简单
(3)“名称”文本框
输入多选题变量集的名称,在此定义的变量集名为 C0,下方的“标签”文本框可以为相应的多选题变量集定义一个名称标签
所有设定均完成后单击右侧的“添加”按钮,相应的多选题变量集设定就会被加入最右侧的"多重响应集”列表框,且名称前会增加 $ 符号,表示该名称定义的是多选题变量集
SPSS 中的多 重响应(Muhiple Response)子菜单和制表模块都可以 用来设定和分析多选题 变量集 ,且两套系统完全独立。其区别主要是多重响应子菜单的功能较弱 ,其定义的多选题 变量集不能被保存在 SPSS 数据文件中;制表模块功能较强,所定义的变量集信息则 可被加以保存
8.3.2 多选题的频数列表
多重响应子菜单中的频率过程可以针对多选题变量集完成整体的频数分析
1. 界面说明
选择“分析““多重响应”“频率”菜单项
该对话框内容非常简单,没有多余的选项,只有下方的“缺失值”框组用于选择对缺失值的处理方式,两个复选框实际上分别对应了多重二分法和多重分类法两种多选题编码方式
2. 操作说明与结果解释
在全部 1 147 人次中,有 163 人选择了至少一个贷款种类。随后的分析将基于这 163 人的情况进行
( 1) 在 199 个有效回答中,各贷款种类一共被选择了 199 次,其中“房贷”118 次,“车贷”33次,“其他消费还贷”48 次
(2) 响应百分比指的是每个选项被选中的次数占总选择次数的比例,即应答人次百分比。比如这 118 人次选择了房贷,占总选择次数的比例为 118/199= 59.3%
3) 个案百分比指选择某选项的人数占总人数的比例,即应答人数百分比。仍然以房贷为例,这 118 个人占总应答人数的比例为 118/163 =72. 4%,而最下方的比例 122. 1%则说明这 163人平均而言每人选择了 1.22 个贷款种类
8.3.3 多选题的列联表分析
上面直接给出了多选题的频数表,但分析中往往还需要对不同的人群分别描述,即将多选题变量集和其他分类变量进行交叉描述
1. 界面说明
选择“分析 “多重响应“ “交叉表"菜单项
(1) 主对话框
和普通交叉表过程的主对话框非常相似,只是左下方单独列出多响应集供选择。需要指出的是,多响应变量集在使用上没有任何限制,可以被任意选入行/列/层列表框中,只是不合适的选择可能会使得表格过于复杂。此外,对于选入行/列/层的分类变量,还需要使用最下方的“定义范围”按钮,为该变量设置取值范围
(2)“选项”按钮
最上方的“单元格百分比”框组用于定义输出行百分比 例百分比和总百分比指标;下方的“在响应集之间匹配变量”复选框用于当行/列变量均为多重分类法记录的多选题变量集时,可以要求结果表格按两个变量集取值一一对应的方式来生成,但实际应用价值不大;下方的“百分比基于”框组则可以定义交叉表中的比例计算是基于应答人数,还是应答人次;最下方则用于控制缺失值的处理方式
2. 操作说明与结果分析
根据分析要求,只需要分别将 S3 和 CO 选人行/列列表框,并在选项中要求输出行百分比即可
可以发现已婚人群的房贷比例高于未婚受访者,而未婚人群的车贷和其他消费还贷比例则均高于已婚人群,贷款的范围的确要更广一些
但对这一结论有两点需要指出,首先,上述比例是基于 163 位有贷款的受访者计算,而不是基于全部的 1 147 人计算,因此结论可能有一定的偏差;其次,上述趋势仍然只是样本情况,未经过假设检验的验证,因此仅仅是一种可能存在的趋势,尚不能下最终结论