导图社区 SPSS统计分析基础教程 第四章 文件级别的数据管理
SPSS第四章的文件级别的数据管理:SPSS 中的个案排序就是将数据编辑窗口中的数据,按照用户指定的某一个或多个变量的变量值的升序或降序重新排列,这里用户所指定的变量称为排序变量。
编辑于2022-08-15 11:05:58 浙江省可口可乐的总裁罗伯特·伍德鲁夫曾说过一句话:“即使可口可乐的工厂被大火烧掉,给我三个月时间我就可以重建完整的可口可乐。” 所以说大火能够烧掉的都是花钱马上就可以重建的,只是多花一点时间。真正烧不掉的成果是什么?那就是在顾客的心智中,左右了顾客选择和认知的载体——品牌
短视频直播间引流,指利用系统自然推荐或商业化投放方式,通过让消费者观看直播预约短视频、15-30秒商品解说、利益点宣导等内容视频,引发消费者对直播内容的兴趣,在播前点击直播间预约或在播中进入直播间,并最终实现在直播间下单的销售转化方式。
智能终端 是搭载操作系统的智能硬件设备。基于网络与多元智能技术,智能终端不仅是信息平台,为用户提供丰富的内容应用;也是数据中台,与用户进行实时的数据交换与流动;还是渠道载体,产品与服务直接触达,用户即时调取互动;更是体验空间,为用户打造立体可交互的虚拟世界。
社区模板帮助中心,点此进入>>
可口可乐的总裁罗伯特·伍德鲁夫曾说过一句话:“即使可口可乐的工厂被大火烧掉,给我三个月时间我就可以重建完整的可口可乐。” 所以说大火能够烧掉的都是花钱马上就可以重建的,只是多花一点时间。真正烧不掉的成果是什么?那就是在顾客的心智中,左右了顾客选择和认知的载体——品牌
短视频直播间引流,指利用系统自然推荐或商业化投放方式,通过让消费者观看直播预约短视频、15-30秒商品解说、利益点宣导等内容视频,引发消费者对直播内容的兴趣,在播前点击直播间预约或在播中进入直播间,并最终实现在直播间下单的销售转化方式。
智能终端 是搭载操作系统的智能硬件设备。基于网络与多元智能技术,智能终端不仅是信息平台,为用户提供丰富的内容应用;也是数据中台,与用户进行实时的数据交换与流动;还是渠道载体,产品与服务直接触达,用户即时调取互动;更是体验空间,为用户打造立体可交互的虚拟世界。
SPSS统计分析基础教程第一部分 软件入门与数据管理
第四章文件级别的数据管理
4.1 几个常用过程
4. 1. 1 个案排序
数据编辑窗口中的记录次序默认是由录入时的先后顺序决定的
SPSS 中的个案排序就是将数据编辑窗口中的数据,按照用户指定的某一个或多个变量的变量值的升序或降序重新排列,这里用户所指定的变量称为排序变量
单变量排序
SPSS 提供了一种简易操作方法,就是在数据视图的变量名处单击右键,弹出的右键菜单其最后两项就是“升序排列”和“降序排列”
多变量排序
需要使用这里的“个案排序”对话框来进行
注意
需要注意的是,排序以后原来记录数据的排列次序将被打乱且不可恢复。因此,如果需要考虑恢复原先的排序顺序,则应注意事先保存原数据的备份
4.1.2 拆分文件
“拆分文件“(Splil File)对话框界面
(1)右上部单选框组
用于设定如何拆分文件,默认为不拆分文件;第 2 项为按所选变量拆分文件,各组的分析结果会尽量放在一起输出(甚至于放在同一张表格里)以便于相互比较;第 3种方式则为按所选变量拆分文件后,各组分析结果单独放置
(2)中部“分组依据”列表框
用于选入进行数据拆分的变量,可以选入多个
(3)右下部单选框组
设定文件的排序操作。默认为要求拆分时将数据按所用的拆分变量排序。但如果数据集很大,而所用的拆分变量已经排过序了,可使用该单选框组以节省运行时间,但该功能较少用到
注意
分割文件的设定一旦完成,就将在以后的分析中一直有效,而且会被存储在数据集中,直到再次进行设定为止
4. 1.3 选择个案
很多时候不需要分析全部的数据,而是按要求分析其中的一部分,这时就可以使用“选择个案”对话框来操作
“选择个案”对话框界面
(1) 如果条件满足
此时将只分析满足所指定条件的记录,单击下方的“如果”按钮会弹出if子对话框,用于定义筛选条件,该对话框几乎和变量赋值过程的“IF”子对话框完全相同,因此不再重复解释
(2) 随机个案样本
从原数据中按某种条件抽样,使用下方的“样本”按钮进行具体设定,可以按百分比抽取记录,或者精确设定从前若干个记录中抽取多少条记录。
(3) 基于时间或个案范围
基于时间或记录序号来选择记录,使用下方的“范围”按钮设定记录序号范围
(4) 使用过滤变量
此时需要在下面选入一个筛选指示变量,该变量取值为非o 的记录将被选中,进入以后的分析
对话框下方的输出框组则用于选择对没有选中的记录的处理方式,可以选择以下可选项之一来处理未选定个案
(1) 过滤掉未选定的个案
未选定的个案不包括在分析中,但保留在数据集中,使用该选项则会在数据文件中生成名为 filter_$ 的变量,对选定个案该变量的值为 1,对未选定个案该变量的值为 0。而相应的未被选中的个案 1ID号处也会以反斜杠加以标记
(2) 将选定个案复制到新数据集
选定的个案复制到新数据集,原始数据集将不会受到影响。未选中个案不包括在新数据集中,而在初始数据集中保持其初始状态
(3) 删除未选定的个案
选定的个案复制到新数据集,原始数据集将不会受到影响。未选中个案不包括在新数据集中,而在初始数据集中保持其初始状态
当对数据集做出筛选后,可以看到状态栏右侧会出现“过滤开启”的提示,表明所做的筛选正在生效。和拆分文件操作相类似,筛选功能将在以后的分析中一直有效,而且会被存储在数据集中,直到再次改变选择条件为止
4.1.4 加权个案
加权个案会给不同个案赋以不同的权重,以改变个案在统计分析中的重要性
(1) 以频数格式录入的数据
在默认情况下,数据集中每一行就是一条原始记录,这在多数情况下没有什么问题,但有时却非常麻烦
因此,此时一般使用频数格式录入数据,即相同取值的个案只录入一次,另加一个频数变量用于记录该数值共出现了多少次。这样就需要在分析时用加权个案对话框将数据指定为频数格式
(2)案例数据抽样权重的调整
统计抽样理想情况下是等概率随机抽样,但许多时候是将整个总体拆分成若干层,然后对每层采取不同的抽样方法,这就造成了事实上的不等概率抽样,需要在数据采集完毕进行统计分析之前,对每条案例数据进行抽样权重的计算和调整
抽样权重可以理解成一系列因素影响的乘积,每一个因素对应某种抽样概率、覆盖率、应答率等方面的差异所导致偏倚的调整
一旦应用了一个权重变量,该权重变量将始终保持有效,且可以被存储到数据集中,直到选择另一个权重变量或关闭加权,否则将一直按加权对数据进行处理
4.1.5 分类汇总
分类汇总就是按指定的分类变量对个案进行分组,并按分组对变量计算指定的描述统计量,结果可以存入新数据文件,也可以添加人当前文件
1. 界面介绍
在 SPSS 中,为了方便用户,分类汇总的整个操作过程都是在一个统一的对话框界面中进行设定
(1 )“分界变量”列表框
用于选择分组变量,可以有多个
(2)“变量摘要”列表框
用于选择被汇总的变量,可以有多个,包括对同一个变量的多种不同汇总方式
(3)“汇总函数”子对话框
用于定义汇总函数,此处共提供了4 组函数,分别为摘要统计,特定值,个案数,百分比、分数和计数
(4)“名称与标签"子对话框
用于定义新产生的汇总变量的名称和标签
(5)“个案数"复选框
用于定义一个新变量以存储同组的个案数,右侧的“名称”文本框则用于定义相应的变量名
(6)“保存”框组
设定汇总结果的具体输出方式,可以是将汇总后结果直接加入当前数据文件,也可以定义一个新工作文件以存储汇总的结果,或者直接存储为外部数据文件
2. 分析实例
例 4. 1 分 time 月份和 SO 城市对 CCSS 案例数据中的变量 index1 进行均数汇总,并将结果输出到新工作文件 Sum_indexl 中
本例的分组变量不止一个,此时第 1 个指定的分类变量为主分类变量,其他的依次为第 2、第 3 分类变量,且汇总数据文件的记录数等于各分类变量类别数的乘积。因此本例的汇总数据文件中会有 4x3= 12 条记录
4.2 多个数据文件的合并
4. 2. 1 一些基本概念
1. 纵向拼接和横向合并
(1) 纵向拼接
指的是几个数据集中的数据纵向相连,组成一个新的数据集,新数据集中的记录数是原来几个数据集中记录数的总和。其实质就是将两个数据文件的变量列,按照各个变量名的含义一一对应进行连接
(2) 横向合并
指的是按照记录的次序,或者某个关键变量的数值,将不同数据集中的不同变量拼接为一个数据集 ,新数据集中的变量数是所有原数据集中不重名变量的总和。横向合并的实质就是将两个数据文件的记录,按照某种对应关系一一进行左右对接
2. 案例文件解释
相同的变量可能采用了不同的变量名称,因此拼接时需要考虑正确的变量对应关系
4.2.2 数据文件的纵向拼接
例 4.2 将数据 b. sav 中的记录添加到 a. sav 中,注意在 b. sav 中的变量 h 对应了 a. sav 中的height
在数据窗口中分别打开数据文件 a. sav 和 b. sav, 在 a 为当前数据文件的情况下,选择“数据”一>“合并文件”一>“添加个案”菜单项
第一个对话框中选择待合并的文件 b. sav
(1)“非成对变量”列表框
该列表框中的变量名后面都跟有* 或+号,* 表示该变量名是当前活动数据集中的变量,+表示该变量名是外部待合并数据文件中的变量 c 在默认情况下,如果一个变量名没有在两个文件中同时出现,则 SPSS 认为这些变量不是待合并的两个文件所共有的,无法被自动对应匹配,因此它们不自动成为合并后新数据文件中的变量
(2)“新的活动数据集中的变量”列表框
在该框中,两个待合并的数据文件中共有的变量名会被自动对应匹配,并出现在本变量框中。SPSS 默认它们具有相同的数据含义,自动成为合并后新数据文件中的变量。如果需要修改默认设置,可以将它们剔除到非成对变量框中
(3) 强行配对
本例中显然 h 和 heighl 应当是同一个变量,因此可以将其同时选中,然后单击中部的“配对”按钮强行匹配,此时新变量默认会按照当前文件中相应变量的名称来设定
(4)“重命名”按钮
如果希望新数据集中的变量名与先前不同,则可以选中相应变量后先单击“重命名”按钮改名后再选入
(5)“指示个案源变量”复选框
如果希望在合并后的数据文件中看出哪些记录来自合并前的哪个 SPSS 数据文件,可以选中该复选框,此时合并后的数据文件中将自动出现名为“sourceOl”的变量,取值为 0 或 1。0 表示该记录来自第 1 个数据文件 ,1 表示该记录来自第 2个数据文件
4.2.3 数据文件的横向合并
数据文件的横向合并由于较为复杂,因此应遵循 3 个条件
(1) 如果不是按照记录号对应的规则进行合并,则两个数据文件必须至少有一个变量名和长度均相同的关键变量,该变量是数据文件横向对应拼接的依据,如学号 、贵宾卡号等,关键变量可以是多个,且关键变量的取值在不同个案间最好具有唯一性
(2) 如果是使用关键变量进行合并,且希望尽可能多地保留数据信息,则两个数据文件都必须事先按关键变量进行升序排列,否则系统将报错
(3) 为方便SPSS 数据文件的合并,在不同数据文件中,数据含义不同的列,变量名尽量不要取相同的名称
例 4. 3 将数据 c. sav 中的变量添加到 a. sav 中,并尽量保留数据
在数据窗口中分别打开数据文件 a. sav 和 c. sav,然后选择“数据” 合并文件” 添加变量”菜单项,并在弹出的第 1 个对话框中选择文件 c. sav
(1)“新的活动数据集”列表框
该列表框中的变量名后面都跟有* 或+号,* 表示该变量名是当前活动数据集中的变量,+表示该变量名是外部待合并数据文件中的变量 G 在默认情况下,如果变量名没有在两个数据集中同时出现,则 SPSS 会自动将其列入新数据文件的变量列表中
(2)“排除的变量”列表框
与当前数据集变量同名的外部数据集变量,为免于重复而列与此
(3)“按键变量匹配个案"框组
如果两个待合并的数据文件中的记录数据是按照记录号横向一一对应的,则可直接确认完成合并工作。否则必然是按照关键变量进行匹配,此时需要先选中“按键变量匹配个案”复选框
但随后的操作有些复杂
如果两个文件并未均按照关键变量排序,则只能使用前两个选项。第 1 个选项“非活动数据集是键控表”指在合并时尽量保留当前文件的所有数据,但丢弃只在外部数据文件中才有(关键变量取值)的个案;第 2 个选项“活动数据集是键控表”则正好相反,尽量保留外部数据中的信息;显然第 3 个选项“两个文件都提供个案”对信息的保留最为完整,但使用它要求两个文件均按照关键变量排序,并选中上方的“两个数据集中的个案都按键变量的顺序进行排序”复选框加以确认才可以
(4)“键变量”列表框
用于选入合并时的关键变量,本例中为变量 ID。将其选中,并选人“键变量”列表框中
4.3 数据文件的重组与转置
数据文件的重新排列,是数据分析中经常用到的一个功能「特别是重复测量数据,在使用不同的模型进行分析时,就可能需要根据分析的要求改变数据的排列格式,而数据重构向导就可以直观地满足此类需求
4. 3.1 数据的长型与宽型格式
长型格式和宽型格式指的是重复测量数据的两种不同的排列方式
4.3.2 长型格式转换为宽型格式
选择“数据 重构”菜单项
可见该向导共提供了 3 种数据重排功能,分别是宽型格式转换为长型格式、长型格式转换为宽型格式,以及行列转置
4.3.3 宽型格式转换为长型格式
在正确设定了变量选择界面之后,下面的工作就非常简单了,随后的几个向导界面分别用于设定重复测量指示变量、选择缺失值 、未选中变量的处理方式,以及是直接执行还是生成相应的程序。在本向导全部运行完毕后,数据就会被转换成长型格式
4. 3. 4 数据转置
数据转置( Transpose) ,这实际上也是数据重构向导的第 3 个功能,是对数据进行行列互换,即将记录转为变量,将变量转为记录后,重新显示在数据编辑窗口中
左侧为候选变量列表框;右上方为“变量”列表框,用于选入需要转置的变量,一般应选入除名称变量外的所有其他变量 ,如果有变量未选入,则转置时会被自动弃;右下方为“名称变量”列表框,用于指定原数据文件中记录转置后变量名的字符变量 ,但不是必需的
4.4 数据菜单中的其他功能
1. 和统计模型密切相关的功能
正交设计过程实际上是联合分析模块的一部分,用于生成联合分析所需的设计,它的讲解请参见本丛书《高级教程》中的联合分析一章
2. 和大型研究项目数据管理相关的功能
包括和数据字典有关的几个过程,和数据核查有关的验证模块 、比较数据集,以及和数据准备有关的标识异常个案 、数据自动准备 、匿名化等过程,这些功能都将在第 5 章中详细介绍
3. 和研究设计相关的功能
包括倾斜权重 、得分匹配 、个案匹配等 Python 扩展,主要用于在大数据库中按照要求进行抽样配对,以便实现更精确的配对/配伍研究设计