导图社区 SPSS统计分析基础教程 第二章 数据录入与数据获取
SPSS统计分析基础教程的第二章【数据录入与数据获取】。统计软件中对多选题的标准存储格式有两种:多重二分法(Multiple Dichotomy Method ) 和多重分类法( Multiple Category Method )
编辑于2022-08-11 11:13:36 浙江省可口可乐的总裁罗伯特·伍德鲁夫曾说过一句话:“即使可口可乐的工厂被大火烧掉,给我三个月时间我就可以重建完整的可口可乐。” 所以说大火能够烧掉的都是花钱马上就可以重建的,只是多花一点时间。真正烧不掉的成果是什么?那就是在顾客的心智中,左右了顾客选择和认知的载体——品牌
短视频直播间引流,指利用系统自然推荐或商业化投放方式,通过让消费者观看直播预约短视频、15-30秒商品解说、利益点宣导等内容视频,引发消费者对直播内容的兴趣,在播前点击直播间预约或在播中进入直播间,并最终实现在直播间下单的销售转化方式。
智能终端 是搭载操作系统的智能硬件设备。基于网络与多元智能技术,智能终端不仅是信息平台,为用户提供丰富的内容应用;也是数据中台,与用户进行实时的数据交换与流动;还是渠道载体,产品与服务直接触达,用户即时调取互动;更是体验空间,为用户打造立体可交互的虚拟世界。
社区模板帮助中心,点此进入>>
可口可乐的总裁罗伯特·伍德鲁夫曾说过一句话:“即使可口可乐的工厂被大火烧掉,给我三个月时间我就可以重建完整的可口可乐。” 所以说大火能够烧掉的都是花钱马上就可以重建的,只是多花一点时间。真正烧不掉的成果是什么?那就是在顾客的心智中,左右了顾客选择和认知的载体——品牌
短视频直播间引流,指利用系统自然推荐或商业化投放方式,通过让消费者观看直播预约短视频、15-30秒商品解说、利益点宣导等内容视频,引发消费者对直播内容的兴趣,在播前点击直播间预约或在播中进入直播间,并最终实现在直播间下单的销售转化方式。
智能终端 是搭载操作系统的智能硬件设备。基于网络与多元智能技术,智能终端不仅是信息平台,为用户提供丰富的内容应用;也是数据中台,与用户进行实时的数据交换与流动;还是渠道载体,产品与服务直接触达,用户即时调取互动;更是体验空间,为用户打造立体可交互的虚拟世界。
SPSS统计分析基础教程第一部分 软件入门与数据管理
第二章数据录入与数据获取
2.1 CCSS 顶目背景介绍
2.1.1 项目背景
消费者信心
消费者信心是指消费者根据国家或地区的经济发展形势,对就业 、收入 、物价 、利率等问题加以综合判断后得出的一种看法和预期 ,消费者信心指数则是对消费者整体所表现出来的信心程度及其变动的一种测度
调研背景
联恒市场研究看到了这一指标体系潜在的市场价值,于 2007 年启动了中国消费者信心调研(China Consumer Sentiment Survey,CCSS)项目
CCSS项目的调查始于 2007 年 4 月,每月在东部与中西部 30 个具有代表性的中国城市中抽取 1000 个左右的家庭,通过计算机辅助电话访问(CATI)进行访谈
为化繁为简,这里只截取北京 、上海 、广州 3 个城市在 2007 年 4 月 ,2007 年 12 月 .2008 年 12 月和2009 年 12 月共 1 147 个样本用于随后的讲解
2.1.2 项目问卷
CCSS 项目的问卷是标准化的,每月固定执行
2.2 数据格式概述
2.2.1 统计软件中数据的录入格式
基本原则
不同个案(Case)的数据不能在同一条记录中出现,即同一个案的数据应当独占一行
每一个测量指标/影响因素只能占据一列的位置,即同一个指标的测量数值都应当录入到同一个变量中去
特殊情况
这种情况在配对数据和重复测量数据中最多见。这是因为根据分析模型的要求 ,需要将同一个观察对象某个观察指标的不同次测量看成是不同的指标,因此被录入成了不同的变量,这是允许的
对 CCSS 项目而言,数据框架的设定比较简单,因为每位受访者都只会被访问一次,从而在数据集中就会成为单独的一条记录,而相应的问卷中的每道题目就会构成一个或多个变量
2.2.2 变量属性
变量名
对任何一个变量而言,变量名都是其最基本的属性
SPSS 中的变量名比较灵活,目前的限制为长度不超过 64 个字符,不能以数字开头,中间不能有空格,一个数据文件中不能有相同的变量名等
但出于和其他软件兼容性的考虑,建议仍然尽量采用标准的由字母和数字构成的 8 位以内长度的变量名
其他变量属性
如变量类型(Type)、变量宽度(Width)、小数位(Decimals)等
变量的存储类型
存储类型指的是数据以何种方式进行存储
3 种基本类型
数值型(Numeric)
数值型是 SPSS 最常用的变量类型,是由 0~9 的阿拉伯数字和其他特殊符号,如美元符号、逗号或圆点组成的
可进行各类四则运算,使用起来最为方便
分类
标准数值型(Numeric)
最为常用
每 3 位用逗号分隔的逗号数值型(Comma)
每 3 位用圆点分隔的圆点数值型(Dot)
科学计数型(Scienlifk Notation)
显示时带美元符号的美元数值型(Dollar)
用户自定义型(Custom Currency)
字符型(String)
字符型数据以字符串方式存储,不能做四则运算,但可进行拆分、合并、检索等操作
字符型数据的默认显示宽度为 8 个字符位
字符型数据在 SPSS 的数据处理过程(如在计算生成新变量时)中需要用一对引号引起来,但在输入数据时不应输入引号,否则双引号将会被作为字符型数据的一部分
日期型(Date)
日期型数据用来存储日期或时间
日期型数据的显示格式有很多,SPSS 在对话框右侧会用列表框给出各种显示格式以供用户选择
如果选择 mni/dd/yy 或类似的两位数年份记录方式,则需要在系统选项的“数据”选项卡中确定具体的世纪范围,目前系统默认为 1941 2040 年区间
日期型数据在时间序列分析中比较有用,但在比较简单的分析问题中完全可以用普通数值型数据来代替
变量的测量尺度
按照携带信息量的多少,该属性从低到高可被分为 4 个层次:名义尺度 、有序尺度 、定距尺度和定比尺度
名义尺度(Nominal Measurement )
按照事物的某种属性对其进行分类或分组,其变量取值仅代表类别差异,不能比较各类之间的大小
如变量 SO“城市”就是一个名义尺度变量。这种变量只能计算频数和频率,如在所有个案中,北京有多少人 、占总人数的百分率是多少等
有序尺度( Ordinal Measurement)
对事物之间等级或顺序差别的一种测度,可以比较优劣或排序
有序变量比名义变量的信息量多一些,不仅包含类别的信息,还包含次序的信息;但是由于有序变量只是测度类别之间的顺序,无法测出类别之间的准确差值,所以其计量结果只能排序,不能进行算术运算
CCSS 数据中的变量 S4“学历”就是一个典型的有序变量
定距尺度(Interval Measurement)
对事物类别或次序之间间距的测度
其数值不仅能进行排序,而且可准确指出类别之间的差距是多少
定距变量通常以自然或物理单位为计量尺度,生活中最典型的定距尺度变量就是温度
定比尺度( Scale Measurement)
能够测算两个测度值之间比值的一种计量尺度,它的测量结果同定距变量一样也表现为数值,如职工月收入 、企业销售额等
定比变量与定距变量的差别在于有一个固定的绝对“零点”,而定距变量则没有
比如温度,0℃只是一个普通的温度(水的冰点),并非没有温度,因此它只是定距变量,而重量则是真正的定比变量,0kg 就意味着没有重量可言
变量 S2“年龄”就是一个典型的定比变量
定比变量是测量尺度的最高水平,它除了具有其他3 种测量尺度的全部特点外,还具有可计算两个测度值之间比值的特点,因此它可进行加 、减、乘、除运算 ,而定距变量严格来说只可进行加减运算
备注
由于定距和定比尺度在绝大多数统计模型中没有区别,因此 SPSS 将其合并为一类,统称为"标度”,另两类则分别用“有序”和“名义”来表示,具体在“测量”( Measure)属性框中加以定义
3 种尺度在许多统计书籍中会有更为通俗的称呼:无序分类变量 、有序分类变量和连续性变量
变量名与变量值标签
标签(Label)属性
可以对变量含义进行详细说明
值(Values)属性
可以对变量取值的含义加以说明
变量名、变量类型和测量尺度可被看成是变量设定的基本属性
标签属性和值属性都会在数据集和分析结果中出现,以提高数据和结果内容的可读性
缺失值
该属性用于设定自定义缺失值,主要用于问卷数据
SPSS 中缺失值有用户自定义缺失值和系统缺失值两大类
用户自定义缺失值
这往往出现在一些设计比较严格的大型调查中,在一些题项处会给出一个选项:不知道/拒答
相应的代码可能用 9 或者 99 来表示
具体做法为单击相应变量缺失属性框右侧的r按钮,会弹出“缺失值”对话框。利用该对话框,用户可以自定义缺失值
系统缺失值
对于数值型变量的数据,系统缺失值用圆点 表示,而字符型变量默认就是空字符串
2.3 在 SPSS 中直接建立数据集
2.3.1 操作界面说明
在打开 SPSS 后,默认情况下系统在内存中就已经生成了一个空数据文件
注意窗口左上角的文字是“无标题 1[数据集0]”,其含义是说该数据暂时未被存储为数据文件,所以没有文件名称(无标题)
但是 SPSS 系统内部在使用该数据文件时,将会以“数据集 。”这个名称来标识该文件,这就是所谓的工作名称
2. 3. 2 开放题和单选题的设定与录入
1. 开放题的设定
首先,需要对每个受访者编制一个流水号以便管理
该变量一般可以起名为“ID",严格说来它的存储类型应该被设定为字符型
但由于它是数值流水号,只是方便检查和核对问卷,不参与后面的数据分析工作,因此完全可以用数值型变量来加以记录,即可以采用“数值型+有序/名义测量尺度”的组合作为流水号
在变量视图中定义该变量 ,直接在第一行的“名称”属性列中输入变量名 ID,按回车键后就可以看到 SPSS 会立刻在其余变量属性列中自动填入默认值
2. 单选题的设定
单选题的设定与开放题类似,只需要一个字符型变量或者数值型变量即可记录信息
单选题中可以定义变量值标签,通过这种方式既可以减少数据录入的工作量,还方便了后面的数据分析工作
单选题的设定可以采用原始字符串、字符代码+值标签 、数值代码+值标签 3 种方式
第 3 种录人方式“数值代码+值标签”方便了后面的分析工作,是本书建议的使用方式
3.半开放题的设定
半开放题指的是问卷数据中有含“其他,请指出”选项的单选题,此类题目在录人时可以使用两个变量对其进行定义
在第 1 个变量中,“其他,请指出”为选项之一
第 2 个变量将“其他,请指出”的具体内容看作一个独立的开放题,按照开放题的录入方式进行数据录入,将没有选择该选项的被访者作为缺失值处理
为使得变量名之间具有一定的逻辑联系,可以将第 2 个变量的名称设置为由第 1 个变量名称后直接加“a”之类的方式
4. 数据的录入
变量定义完毕后,就可以向文件中录入数据了
2.3.3 多选题的设定与录入
多选题,又被称为多重响应(Multiple Response)
统计软件中对多选题的标准存储格式有两种:多重二分法(Multiple Dichotomy Method ) 和多重分类法( Multiple Category Method )
多重二分法
多重二分法,是指在编码时对每个选项都定义一个变量,有几个选项就有几个变量,这些变量各自代表对其中一个选项的选择结果,一般均为二分类,其中一个类别代表受访者选中该选项
以 CCSS 中的 O)题目为例,对应所需选择的 3 种选项,这里需要设定 c0_l.c0_2.c0_3 这 3个变量,且均以 1 表示选中,以 2 表示未选中
多重二分法实际上是多选题的标准数据格式,但这种数据格式有时也会给数据录入带来麻烦
多重分类法
以 CCSS 项目中的 A3a 题目为例,每个受访者被限制只能最多选两项,但总选项多达 12 个。显然,如果使用多重二分法录入,则大部分数据都需要录入为“未选中”,徒增许多数据录入工作。对于此类多选题,使用多重分类法进行记录更为便捷
多重分类法也是利用多个变量来对一个多选题的答案进行定义,应该用多少变量根据被访者实际可能给出的最多答案数而定
所有这些变量均为多分类,采用同一套值标签,每个变量代表被访者的一次选择结果
多重分类法适合于问题的选项较多的情况,尤其适合于“请在下列选项中选出您喜欢的几个选项”一类的问题
两种多选题格式的比较与转换
多重二分法实际上是最标准的多选题记录格式,所有的统计软件均可直接使用,而且可直接进行统计建模,但是该格式要求对每个选项均建立对应的变量,当选项较多时效率很低
多重分类法的存储效率就要高很多。此外,在多重分类法中可以很明确地得知受访者的选项选择顺序,即第一个变量存储的就是第一提及选项 、随后为第二提及选项,依此类推
但是,多重分类法也有自己的缺陷,SPSS 之外的很多统计软件都不能直接使用该存储格式,并且在 SPSS 中,多重分类法的数据也只能进行多选题的统计描述,如果希望对多选题建模,就必须要将多重分类法转换为多重二分法的格式
这一转换可以使用“分析“——”定制表”——“转换多类别集”菜单项,调用相应的 Python 扩展来实现
但是转换之前需要先在软件中定义好相应的多选题变量集
半开放多选题的处理方式
对于含有“其他,请指出”答案的附加内容的多选题,基本处理思路和半开放单选题非常相似,即首先将“其他”当成一个答案选项,而用另一个字符型变量来存储其具体内容
在数据录入完毕后再根据频次高低对附加内容进行二次编码,以进行更为深人的分析
2.4 读入外部数据
对于以其他格式存储的外部数据,SPSS 也可用各种方式直接读人
直接打开
利用文本向导读人文本数据
利用数据库 ODBC 接口进行读取
2.4.1 读取电子表格数据文件
可支持的文件类型
在 SPSS 中可以直接读入许多常用格式的数据文件,选择“文件”一>“打开 数据”菜单项,或直接单击快捷工具栏上的快捷按钮
SPSS 可以直接打开的数据类型
2.4.2 读取文本数据文件
纯文本格式虽然简单,是很多时候可以考虑兼容性最好的数据格式,但是这种类型的数据在读入时需要对数据格式做进一步的设定,因此 SPSS 提供了文本导入向导来完成该项工作
向导共分为以下 6 步
系统首先会询问有无预定义格式,如果有则在此处选择相应的文件,下方则为按预定义格式读人的数据文件的预览(以后的各个向导界面也会随时更新预览状况)
在未给定预定义格式文件时,SPSS 基本上是不可能正确识别该文件的。因此按照默认的选择“否”并直接单击“下一步”按钮
此处用于设定变量排列方式和变量名行,这里文件中如果有变量名,则需要将“文件开头是否包括变量名”单选按钮改为“是”,然后单击“下一步”按钮
用于确定数据开始行、每个个案所占行数、希望导入的个案数量,一般前两者的默认设定就是最常 见情况,第 3 个功能则可以用于对个案进行随机抽样
对变量分隔符以及文本限定符进行设定,这里根据相应选项的设定情况,会在下方动态显示出数据的预览情况
对各变量做进一步的属性设定,包括更改变量名和更改数据格式,在数据预览窗口中选择某一列变量即可进行操作,如果这里不需要做更改,可以直接单击“下一步”按钮
确认是否希望重复利用本次操作的选择,可以考虑将这次的文件设定保存为预定义格式文件,或者将本次操作粘贴为 SPSS 语句。如果直接单击“完成”按钮,则向导结束,随后就可以看到 SPSS 成功地读入了该文本数据
2.4.3 用 ODBC 接口读取各种数据库文件
对于不能直接打开的数据格式,SPSS 可以利用通用的数据库 ODBC 接口进行读取
选择”文件,, 导入数据,,,数据库,,新建查询“菜单项,系统会弹出数据库向导的第一个窗口,其中会列出本机上已安装的所有数据源
2.5 数据的保存
2.5.1 保存为 SAV 格式
选择“文件”“保存”菜单项,如果数据文件曾经存储过,则系统会自动按原文件名更新存储;否则实际上弹出的是“将数据另存为”对话框
有时分析者会在分析过程中生成一些临时变量,如果不希望保存全部变量,则可以使用对话框中的“变量”按钮来筛选需要保存的变量
在每个变量的最左侧都有一个复选框,表明它们是否会被保存在文件中。对不需要的变量,单击相应复选框取消选择,则该变量就不会出现在新保存的数据文件中
除SAV 格式外,SPSS还针对大数据集提供了一种ZSAV 格式,该格式本质上是存储时对原 SAV 格式进行了 zip 压缩,打开时则先解压再读入
2.5.2 保存为其他数据格式
SPSS 的开放和友好之处不仅在于可以读取非 SPSS 类型的数据,它还允许将数据保存为很多种非 SPSS 格式的数据
在对话框中可以看到,最下方有一个“保存”列表框,单击后可以看到SPSS 能够保存的各种数据类型,有 DBF .EXCEL.SAS 各版本的各种数据格式 、纯文本格式等,用户只需要选择合适的类型,然后单击“确定”按钮即可
不过,将数据保存为 SPSS 以外的其他类型时,有些变量设置可能会丢失,如标签和缺失值
2.6 数据编辑窗 用操作技巧
本章最后总结一下数据编辑器中有哪些常用操作技巧以方便日常工作
和其他统计软件相比,SPSS 数据界面最大的优势就是其便捷性
2. 6.1 数据录入技巧
1. 连续输入多个相同值
如果需要在数据窗口的许多连续单元格中输入相同数值,则可以首先在其中任意一个单元格内输入相应数值,如“1”,按回车键后用鼠标右键选中该单元格,在右键菜单中选择“复制”菜单项,然后用鼠标左键拖动选择所有希望填入该数值的单元格区域,再单击右键,在右键菜单中选择“粘贴”菜单项,则所有被选中的单元格都会被自动填充入该数值
2.快速定义成批变量
变量视图中定义新变量时,按回车键后当前单元格默认向右侧单元格移动,直到将所有10 个定义框“跑遍”后才开始定义下一个变量,实际上其中绝大部分都可以采用默认值,如果需要同时定义大批变量,这样就非常浪费时间。其实可以在输入变量名后使用方向键而不是回车键让当前单元格向下移动,直到将所有新变量的名称都定义完毕之后再使用标签栏定义批量变量名标签,使用值栏定义变量值标签,这样可以成倍地提高工作速度。
另外一种快捷的方式是,如果需要定义很多变量,同时对变量名要求不严,SPSS 自定义的变量名就可以满足需求,则可以在变量视图中直接跳到最后一行变量设定处
3. 将 Excel 或 Word 中的数据直接导入 SPSS
对于 Excel 数据文件而言,如果在 Excel 已经打开原数据文件,并且数据量较少时,可以直接用复制粘贴的方法将数据引入 SPSS
如果数据中含有文本,则直接粘贴时有可能字符串长度设定过短,从而丢失数据。解决的办法是先在 SPSS 中设定好相应的变量列表,包括数值型、字符型这些属性,然后再对应相应的列进行粘贴,此时字符型数据就不会丢失了
对于 Word 文档中的数据表格,其基本操作方式和 XLS 文件基本相同,粘贴后原来的单元格会自动对应为 SPSS 中的一个单元格
4.快速改变变量/记录排列次序
在数据视图中选中列首的相应变量名,松开鼠标左键后再按下左键不放,就可将该列数据拖动到所希望的任何地方。选择时可以选中连续多个变量,如果按下 Ctrl 键选中不连续的多个变量,拖动时则会把它们同时加以移动
该操作对数据行也同样有效,也可以在变量视图中进行,此时应当选中变量的相应行号,其余操作相同
2.6.2 快速定位技巧
记录的快速定位
快速定位到第 X 条记录。此时可选择“编辑”一“转到个案”菜单项,或者直接使用工具栏上的按钮,在弹出的对话框中输入相应的记录号,单击“跳转”按钮后即可
定位到变量值等于某个取值的记录(如 ID = 34 980)。此时需要先让相应变量成为当前列 ,然后单击按钮,在弹出的“查找”对话框中输入相应数值,单击“查找下一个”按钮后系统就会查找到符合条件的第一条记录 ,再次单击该按钮则会继续找到第二条,依此类推
利用排序功能快速查找异常值、极端值
对于异常值、极端值的发现,标准的做法应当是做出频数表看看有无异常值,但这样过于麻烦,而且无法马上知道是哪一条记录出错
最简单的做法是在数据视图中选中列首的相应变量名,然后单击鼠标右键,根据需要选择右键菜单下方的升序排列或降序排列,相应的最小值(或缺失值)、最大值就会成为第 1 条记录
利用变量值标签检查录入错误
实际上除「开放题外,绝大多数字符型变量都只有有限的几种取值,因此可以将这些变量一律按照数值型变量来设置,录入时只需要输入编制的代码 1,2,3,…,然后将实际含义一一写入标签,这样可以大大加快速度
下面来进行最重要的一步:在菜单上选择“视图”——“值标签”菜单项,或者直接单击工具栏上的按钮,在该按钮按下后,数据编辑器中所有设定了值标签的变量值均会被切换成相应的值标签。弹起该按钮,则仍然按照录入的数值来显示
单击数据单元格,此时相应的变量值标签会以下拉列表的形式供用户选择,以免出现录入错误,同时通过排序,就可以很快发现缺失值和无标签的数值,而后者往往就是错误的数值
2.6.3 窗口操作与切换技巧
冻结行或列
数据编辑器电子表格的右侧、下方分界线中部都有类似(标尺)的标记,将鼠标指针移动到该分界线处,可以发现鼠标指针会变成这种双向调整符号
此时按住鼠标左键,就可以上下/左右拖动分界线,至合适的位置松开鼠标左键,就会发现电子表格将被该界线分为两半。对右侧和下侧同时进行该操作,则最多可将数据编辑器分为 4 部分
对于不习惯鼠标拖放操作的用户,也可以选择“窗口”7‘拆分”菜单项,则数据窗口就会被直接拆分成 4 部分,然后再将分界线拖动至合适的位置即可
如果希望取消冻结,则将分界线重新拖动至右侧/下侧即可,相应的分区就会消失
快速重复调用对话框
一般进行分析都是从菜单上依次选择相应项目,这样比较麻烦,该问题在需要重复进行相同的分析时尤为突出。实际上只要单击工具栏上的按钮,所弹出的下拉列表中就依次列出了最近几次使用的一些对话框,直接从中选择需要的功能,要比选择菜单方便得多
该对话框可以列出最多 9 个最近使用过的对话框,并且对话框中的相应选项设定都会得到保留(在该数据集关闭前均有效)
从其他窗口中快速切换回数据窗口
数据编辑窗口是 SPSS 的核心窗口,经常需要从其他 SPSS 窗口中切换回去,如果从系统任务栏上选比较麻烦,实际上所有其他类型的 SPSS 窗口在工具栏上都有一个按钮,只要单击它,系统就会立刻切换回数据编辑窗口
如果有多个数据窗口同时存在,则返回最后一次使用过的那个窗口
指定结果窗口
当同时打开了两个以上结果窗口时,SPSS 默认使用上次结果输出的最后一个窗口来输出结果,但这样有时并非分析者的本意,此时可以切换到希望输出结果的窗口,然后选择“实用工具”——“指定窗口”菜单项,此时当前结果窗口就会被指定为结果输出窗口,而无论将来分析时它是否仍为当前窗口