导图社区 SPSS统计分析基础教程 第五章 大型研究项目的数据管理
SPSS统计分析基础教程的第五章:在大型数据分析项目中,数据管理员往往会事先定义好一个非常详细的数据格式,包括变量格式 、变量标签 、值标签、缺失值定义等,这被称为数据字典,它是使用者定义具体数据文件格式的标准模板。
编辑于2022-08-15 11:08:08 浙江省可口可乐的总裁罗伯特·伍德鲁夫曾说过一句话:“即使可口可乐的工厂被大火烧掉,给我三个月时间我就可以重建完整的可口可乐。” 所以说大火能够烧掉的都是花钱马上就可以重建的,只是多花一点时间。真正烧不掉的成果是什么?那就是在顾客的心智中,左右了顾客选择和认知的载体——品牌
短视频直播间引流,指利用系统自然推荐或商业化投放方式,通过让消费者观看直播预约短视频、15-30秒商品解说、利益点宣导等内容视频,引发消费者对直播内容的兴趣,在播前点击直播间预约或在播中进入直播间,并最终实现在直播间下单的销售转化方式。
智能终端 是搭载操作系统的智能硬件设备。基于网络与多元智能技术,智能终端不仅是信息平台,为用户提供丰富的内容应用;也是数据中台,与用户进行实时的数据交换与流动;还是渠道载体,产品与服务直接触达,用户即时调取互动;更是体验空间,为用户打造立体可交互的虚拟世界。
社区模板帮助中心,点此进入>>
可口可乐的总裁罗伯特·伍德鲁夫曾说过一句话:“即使可口可乐的工厂被大火烧掉,给我三个月时间我就可以重建完整的可口可乐。” 所以说大火能够烧掉的都是花钱马上就可以重建的,只是多花一点时间。真正烧不掉的成果是什么?那就是在顾客的心智中,左右了顾客选择和认知的载体——品牌
短视频直播间引流,指利用系统自然推荐或商业化投放方式,通过让消费者观看直播预约短视频、15-30秒商品解说、利益点宣导等内容视频,引发消费者对直播内容的兴趣,在播前点击直播间预约或在播中进入直播间,并最终实现在直播间下单的销售转化方式。
智能终端 是搭载操作系统的智能硬件设备。基于网络与多元智能技术,智能终端不仅是信息平台,为用户提供丰富的内容应用;也是数据中台,与用户进行实时的数据交换与流动;还是渠道载体,产品与服务直接触达,用户即时调取互动;更是体验空间,为用户打造立体可交互的虚拟世界。
SPSS统计分析基础教程第一部分 软件入门与数据管理
第五章大型研究项目的数据管理
对于较大型的研究项目,往往还会遇到如下一些特殊的问题
(1) 项目问卷有数百页,涉及非常多的变量,且不是一次采集完毕,数据分批入库时必须要保证标准统一。
(2) 项目跨区域,在全国范围内有多个协作中心,牵涉的人员和单位众多,必须要在各方面都有一套严格定义的流程和规范,否则极易出错。
(3) 项目持续数年,核心人员存在流动性(研究生毕业,人员离职等),必须要保证数据信息和标准在人员变换时不至于发生丢失。
5. 1 数 据字典
5.1.1 数据字典简介
在大型数据分析项目中,数据管理员往往会事先定义好一个非常详细的数据格式,包括变量格式 、变量标签 、值标签、缺失值定义等,这被称为数据字典,它是使用者定义具体数据文件格式的标准模板
在 SPSS 中,数据字典其实就是一个数据文件,它可以是一个只有结构没有数据的空文件,也可以是有预实验数据存储在内的一个实际数据文件,但无论怎样,对其都只限于使用其数据结构定义
SPSS 提供了 4 个与数据字典相关的对话框界面
定义数据字典
将预定义的数据字典引入当前数据文件
设置未知测量级别
建立变量自定义属性
(1) 如果有事先定义的数据字典格式,则可以先生成一个没有记录的空数据文件,将全部的数据字典设定好,将来在数据录入完毕后使用复制文件属性向导套用一下字典即可
(2) 如果没有事先定义的数据字典格式,则可以在录入工作进行了一段时间以后先使用变量属性定义向导完成数据字典的设定工作,然后随着录入工作的进行经常扫描数据的情况,以及时更新字典,最后在录入工作完毕后使用复制文件属性向导应用字典的最终版本
5.1.2 定义变量属性
定义变量属性(Define Variable Properties)指对数据集中已存在的变量进一步定义其属性
,可以列出所选变量的所有取值
分辨没有值标签的值,并且提供自动给出值标签的功能
将另一个变量的属性复制到所选的变量
将所选变量的属性复制到其他变量
(1)“已扫描变量列表"列表框
列出所有被选择/扫描的变量,具体又分为 4 列显示,分别表示该变量有无值标签定义 、测量尺度 、角色和变量名
(2) 右上侧变量属性组
用于设定测量尺度、存储格式、变量名标签等
(3) 中部值标签网格
用于列出该变量所有取值的频数、当前值标签和缺失值设定等
(4) 下部“复制属性”框组
用于将另一个被扫描变量的属性复制到所选的变量,也可以将所选变量的属性复制到其他被扫描变量
(5)“自动标签”按钮
用于自动生成值标签,实际上就是将相应的变量值赋给空白值标签
5.1.3 复制数据属性
复制数据属性(Copy Data Properties)过程用于将定义好的数据字典直接应用到当前文件中,在操作时可以将一个外部的数据文件相关属性全部应用到当前数据文件中
选择“数据”“复制数据属性”菜单项,则首先会弹出复制数据属性向导的第一个界面
(1) 第 1 个对话框
在该对话框中可以选择希望复制的数据属性来源
(2) 第 2 个对话框
用于设定希望复制的属性种类
(3) 第 3 个对话框
要求详细指定希望复制的变量属性,共有 7 种之多
5.1.4 新建自定义属性和设置新变量的测量级别
在默认情况下,SPSS 为每个变量都会设定名称 、类型等共 11 个属性
在 SPSS 中建立自定义属性需要先将数据窗口切换到变量视图,然后选择“数据”一>“新建定制属性”菜单项
在下方“属性名称”文本框中输入希望建立的属性名称,然后在“属性值”文本框中输人希望默认设定的属性值,并将希望给予默认属性值设定的变量选入右上方的变量框中
事实上,SPSS 目前提供的这一功能更多的类似于变量注解,以和实用程序菜单中的数据文件注释功能相对应
对于批量创建的新变量,或者从外部直接读取的数据文件,有可能变量的测量尺度都是未知的,此时可选择“数据 设置测量级别未知的字段的测量级别”菜单项,使用相应的对话框对所有未知测量尺度的变量做批量设定
5.2 数 据核查
在数据采集完毕正式人库之前,对数据进行查错或验证是必须要做的工作
5. 2.1 数据核查概述
1. 数据核查的基本内容
(1) 配额检查
对于有配额限制的项目,检查所规定的配额要求是否被满足
(2) 封闭题数值核查
具体选项有限,数值中不应当出现选项外取值
(3) 开放题数值核查
应的连续变量应在有效范围内取值
(4) 多选题数值核查
(5) 逻辑查错
出于质量控制的要求,问卷中对题目取值进行了逻辑控制
2・ 数据核查的技术路线
(1) 任务分解
将各种查错工作归类为若干个基本独立的种类,实际上上文就在完成这项工作
(2) 技术实现
对每个分解出的类别给出适当的错误识别规则定义,并采用适当的技术手段来实现
(3) 结果反馈
采用适当的技术手段作为查错结果的输出接口,从而使得查错的结果能够清楚,并且格式统一地反馈给用户
5.2.2 数据验证模块
SPSS 中的数据验证模块专门用于实现数据核查功能,用户通过自行定义数据验证规则,运行这些规则并对数据进行检查,以确定个案取值是否有效
验证规则
(1) 单变量规则
单变量规则包含一组应用于单个变量的数值检查规则
(2) 交叉变量规则
交叉变量规则是用户定义的设计多个变量间逻辑关系的规则,由标记无效值的逻辑表达式定义,可以应用于单个变量,也可以应用于变量组合
1. 定义验证规则
选择“数据” “验证” “定义规则”菜单项,打开“定义验证规则”对话框
2. 进行数据验证
规则定义完毕后,下一步工作是使用这些规则来进行数据验证。选择“数据““验证“验证数据”菜单项,则会打开“验证数据”对话框
(1)“变量”选项卡
用于选入分析变量(需要应用单变量规则的变量)和表示个案的 ID 变量
(2)“基本检查”选项卡
数据核查时会对所有入选变量/个案进行分析,并报告明显表现异常的变量/个案
(3)“单变量规则”选项卡
本选项卡用于将前面定义的单变量规则应用到具体变量上,左侧会列出所有分析变量,右侧使用复选框列表将定义好的规则和变量相对应
(4)“交叉变量规则”选项卡
以复选框列表的形式列出所有的交叉规则,使用时将希望应用的规则选中即可
(5)“输出”选项卡
设定数据核查在结果窗口中的错误报告输出形式
(6)“保存”选项卡
可以将数据核查的情况以标记变量的形式保存在数据集中,以便直接对原始案例进行修改,这些标记变量所反映的问题包括空变量JD 变量异常、验证违规总数等
3. 加载预定义规则
为方便用户使用,SPSS 默认在"Predefined Validation Rules.sav”文件中设定了一些常用的单变量规则,如非负整数 、月份 、星期等,用户只需要单击“数据 “验证”一>“装入预定义规则”菜单项即可将其载入加以使用。当然,对于自己常用的规则,用户也完全可以将其保存在该文件中形成自己的规则库,以方便使用
5.2.3 标识重复个案
在数据管理中,同一份案例数据可能会被不同的数据录入员重复录入
(1)“定义匹配个案的依据”列表框
用于确认重复个案的变量列表。如果有个案的所有这些变量值均相同,则将其视为重复个案
(2)“匹配组内的排序依据”列表框
对于发现的重复个案,按照指定的变量值排序
(3)“主个案指示符”复选框
对于重复个案,可以指定其中一个为主个案,其余为多余的“重复”个案
可以将第一个或者最后一个个案设定为主个案,主个案标识变量取值为 1.该变量对重复个案组中其余的非主要重复个案则取值为 0
(4)“每个组中的匹配个案的连续计数”复选框
在每一匹配组中为个案创建序列值为 1 到几 的变量
5.2.4 双录核查
在临床试验数据管理等非常严格的数据管理项目中,双份录入是很常见的需求,即设定一个完整的数据字典,然后对同一份问卷由不同的数据录入员分别录入一个数据集 ,最后再将两个数据集进行数据对比,以发现不同之处,从而尽可能地减少录入错误,此即双录核查
选择“数据“比较数据集”菜单项,并在首先弹出的对话框中选择希望比较的另一个 文件
(1)“比较”选项卡
用于数据集比较中相应变量的角色,哪些变量用于比较,哪些变量用于个案标记
(2)“属性”选项卡
对于比较严格的双录数据比较,可以在本选项卡中进一步要求严格比较数据字典的设定
(3)“输出”选项卡
用于设定不匹配记录在数据集中的呈现方式,默认为用一个新字段标识不叫配项,也可以要求将这些案例输出到一个新的内存数据集供核查
5.3 数 据准备
在数据清理完毕,已经入库之后,往往还需要根据统计分析的需要进行各种预处理,如处理异常值 、处理缺失值 、按建模需求转换数据格式等
5. 3.1 标识异常个案
1.算法原理
(1)聚类
采用两步聚类方法(本方法详情请参见本丛书《高级教程》),将所有个案按照其相似性自动分为若干类(被称为对等组)
(2)评分
使用该聚类模型,对每一个案例进行其相对于所属类别的异常度评估,并计算出相应的异常索弓1( Anomaly Indices,由各变量值的偏差度指标综合而来,具体算法与对数似然值有关)。计算完毕后所有案例将按该指标降序排列,索引值最高的一部分(具体比例在对话框选项中设定)将被识别为异常案例
(3) 报告
对所识别出的每一个异常案例,其相应变量将会按照其数值所对应的偏差度指标( Corresponding Variable Deviation Indices )排序,该指标最大的变量 、数值以及对应的标准值( Norm Values,也称范数)将会被作为该案例被识别为异常案例的原因列出
2. 界面介绍
(1)“变量”选项卡
选入希望进行异常个案分析的变量,下方可以选入一个 ID 变量,该变最用于识别个案,不会进入具体的分析计算
(2)“输出”选项卡
默认会输出异常个案及其异常原因的列表
(3)“保存”选项卡
可以要求将模型变量保存到活动数据集
(4)“缺失值”选项卡
用于控制对用户缺失值和系统缺失值的处理
(5)“选项”选项卡
此处可以设定异常个案的标识条件,即在异常列表中包括多少个个案
5.3.2 数据自动准备
自动准备数据过程中的因变量可以是连续 、有序 、无序等任何一种测量尺度,系统会自动选择相应的算法加以分析
界面介绍
在“转换 准备数据以进行建模”菜单项下共有 3 个菜单项
“自动”菜单项进行的是全自动的数据准备,相当于交互式的简化版
“交互式”菜单项则在准备过程中提供了和用户交互的能力
“逆转换得分”菜单项则可以根据提供的信息将转换出的分值逆转换回原变量
( 1 )“目标”选项卡
根据分析需求和计算机的配置,确定分析时是速度优先还是模型精确度优先
(2)“字段”选项卡
对模型中的自变量和因变量进行设定,可以选择一个变量作为待预测的目标变量,而自变量(输入变量)则可以选择多个
(3)“设置”选项卡
对数据准备过程中的一些细节进行设定
(4)“分析”选项卡
在模型完成预分析后提供详细的结果供用户解读
5. 3.3 数据的匿名化
对于大型研究项目而言,往往会出于数据质量的考虑而收集一些受访者的私人信息
SPSS 为数据的匿名化提供了一个 Python 扩展,如果默认未安装,需要首先在扩展中心中安装该扩展
选择“转换 “变量匿名化”菜单项,就可以打开相应的对话框
( 1 )“要匿名化的变量”列表框
用于选择要替换原始数值的变量
(2)“需要 1-1 值映射的变量”列表框
如果是使用数值随机交换的方法来替换值,而又希望数据管理员能够准确地根据变换后变量确定原始值,就要将需要匿名化的变量同时选入本框中
(3)“替换值的上限”列表框
替换时随机选择的非负整数值或字符串值的上限,注意如果该上限值过小,则可能无法实现 1-1 映射
(4)“选项”子对话框
选择匿名化方法,可以是连续编码、随机交换,或者变量变换
(5)“保存”子对话框
可以要求将变量名称或者变量值的映射表存为新文件,从而可以根据该映射表反变换回原始信息
5.3.4 使用变量集
所谓变量集,顾名思义就是变量的集合,或者说变量分组
(1) ALLVARIABLES:包括所有的变量
(2) NEWVARIABLES:包括数据集打开后所有新建立的变量
只要根据需求设定好新的变量集并加以应用,就可以满足简化候选变量的目的了