导图社区 SPSS统计分析基础教程 第一章 SPSS入门
本篇章是SPSS统计分析基础教程的第一章 SPSS入门,软件由来:斯坦福大学的 3 位不同专业的研究生(两位博士研究生,一位硕士研究生)编制出了世界上最早的统计软件系统,并将其命名为 SPSS。
编辑于2022-08-10 13:41:38 浙江省可口可乐的总裁罗伯特·伍德鲁夫曾说过一句话:“即使可口可乐的工厂被大火烧掉,给我三个月时间我就可以重建完整的可口可乐。” 所以说大火能够烧掉的都是花钱马上就可以重建的,只是多花一点时间。真正烧不掉的成果是什么?那就是在顾客的心智中,左右了顾客选择和认知的载体——品牌
短视频直播间引流,指利用系统自然推荐或商业化投放方式,通过让消费者观看直播预约短视频、15-30秒商品解说、利益点宣导等内容视频,引发消费者对直播内容的兴趣,在播前点击直播间预约或在播中进入直播间,并最终实现在直播间下单的销售转化方式。
智能终端 是搭载操作系统的智能硬件设备。基于网络与多元智能技术,智能终端不仅是信息平台,为用户提供丰富的内容应用;也是数据中台,与用户进行实时的数据交换与流动;还是渠道载体,产品与服务直接触达,用户即时调取互动;更是体验空间,为用户打造立体可交互的虚拟世界。
社区模板帮助中心,点此进入>>
可口可乐的总裁罗伯特·伍德鲁夫曾说过一句话:“即使可口可乐的工厂被大火烧掉,给我三个月时间我就可以重建完整的可口可乐。” 所以说大火能够烧掉的都是花钱马上就可以重建的,只是多花一点时间。真正烧不掉的成果是什么?那就是在顾客的心智中,左右了顾客选择和认知的载体——品牌
短视频直播间引流,指利用系统自然推荐或商业化投放方式,通过让消费者观看直播预约短视频、15-30秒商品解说、利益点宣导等内容视频,引发消费者对直播内容的兴趣,在播前点击直播间预约或在播中进入直播间,并最终实现在直播间下单的销售转化方式。
智能终端 是搭载操作系统的智能硬件设备。基于网络与多元智能技术,智能终端不仅是信息平台,为用户提供丰富的内容应用;也是数据中台,与用户进行实时的数据交换与流动;还是渠道载体,产品与服务直接触达,用户即时调取互动;更是体验空间,为用户打造立体可交互的虚拟世界。
SPSS统计分析基础教程第一部分 软件入门与数据管理
第一章SPSS入门
1.1软件概述
SPSS是世界上应用最广泛的专业软件之一
全称变化
Statistical Package for Social Sciences
Statistical product and Service Solutions
IBM SPSS Statistics
1.1.1 SPSS发展简史
1968 年
斯坦福大学的 3 位不同专业的研究生(两位博士研究生,一位硕士研究生)编制出了世界上最早的统计软件系统,并将其命名为 SPSS
1968~ 1974 年
SPSS 成为真正的产品
1975~ 1983 年
SPSS公司正式成立
1984 ~ 1991 年
PC 时代。SPSS 公司在全球首家推出了 PC 版的统计分析软件 SPSS/PC+4.0
1992~1996 年
Windows 时代。在 1992 年,SPSS 公司在全球首家推出了 Windows 版的统计分析软件 SPSS 6
1997~2002 年
向大企业进化,期间SPSS 不断推陈出新,经典的 11 版就是在这一期间推出
2003 ~ 2008 年
向预测分析转型。在完成上述并购后,SPSS 公司开始重新整合产品线,并开始统一向商务智能与预测分析转型
2009 年至今
融人IBM。随着并购的完成,SPSS产品揭开了新的一页,以IBM 商务智能(BI)方向的一个重要产品线的面貌出现
1.1.2 SPSS 的产品定位
(1) Data Collection Family
定位为中低端的数据采集与报告需求领域。是一个完整的技术平台,支持从创建调查到收集数据,再到报告的整个调查研究的生命周期
在线调查( Online Surveys)
电话调查( Phone Surveys)
离线调查(Offline Surveys)
数据录入( Data Entry)
调查报告( Survey Reporting)
调查管理( Survey Management)
(2) Statistics Family
定位为中端的统计分析服务需求领域
(3) Modeling Family
主攻高端的数据挖掘与商务智能需求领域
(4) Deployment Family
相对而言是对前 3 个产品系列的整合与后台支持。用于将市场调研、统计分析技术、数据挖掘技术以及报表技术整合到一个平台中,帮助企业建立统一的中央资产存库,用完整的预测分析流程支持企业日常业务,方便数据分析人员分享资源
1.1.3 SPSS 的基本特点
功能强大
兼容性好
易用性强
扩展性高
1.1.4 SPSS 的 Client/Server 结构与模块化结构
SPSS 的 Client/Server 结构
SPSS Server
大数据量的分析
SPSS Client
数据量不大的客户
SPSS 的模块结构
无论是 SPSS Client 还是 SPSS Server,均是模块式结构,即它把自己的所有功能划分为多个模块
SPSS 常见模块与功能对应表
Statistics Base 提供最常用的数据管理和统计分析功能
Advanced Statistics 一般线性模型 、混合线性模型、对数线性模型、生存分析等
Regression Logistic 回归、非线性回归、Probit 回归等
Categories 对应分析 、感知图 、PROXSCAL 等
Missing Value 缺失数据的报告与填补等
Conjoint 正交设计 、联合分析等,适用于市场研究
Forecasting Arima 模型 、指数平滑 、自回归等
Tables 交互式创建各种表格(如堆积表、嵌套表、分层表等)
Complex Samples 多阶段复杂抽样技术等
Bootstrap 提供计算统计学中的 Bootstrap 方法用于参数估计
Decision Trees 提供树结构模型分析方法
Neural Network 提供 BP 神经网络和 RBF 神经网络方法
Data Preparation 提供数据核查、自动清理等一系列数据准备工具
Statistic Adapter 实际上属于SPSS 和 Deployment Family 产品的接口,可以在企业应用程序、工具和解决方案环境中管理对象的生命周期
Direct Market 提供了一组用于改善直销活动效果的工具•以针对特定目标群体最大限度地提高促销措施的响应率
1.2 SPSS 操作入门
1.2.1 SPSS 的安装与激活
1. SPSS 的安装
2. SPSS 的激活
1.2.2 SPSS 的启动与退出
1.2.3 SPSS 的操作方式
1. 统计软件的常见操作方式
命令行
即用户一条条地提交命令,软件系统直接对命令进行解释执行,用户再根据执行结果提交下一条命令
程序
由于命令行无法实现一些复杂功能,因此随后就出现了将多条命令组合起来,用户批量提交,系统按程序要求执行,批量输出结果的程序方式
菜单对话框
以菜单对话框为主的操作方式
2. SPSS 对各种操作方式的支持和扩展
菜单对话框方式
命令行/程序方式
1.2.4 SPSS 对话框操作基本规范
1. 对话框元素构成
“变量”列表框
变量移动按钮
标准按钮组
其他按钮及选项
子对话框
2. 对话框基本操作规律
按钮颜色
变量的选中
变量的移动
更改变量的显示与排序方式
更改变量测量尺度
1.3 SPSS 的窗 单顶和结果输出
1.3.1 SPSS 的 4 种窗口
数据窗口(SPSS Data Editor)
也称为数据编辑器,分为两个视图
数据视图
用于显示具体的数据,一行代表一个观测个体(SPSS 中称为 Case) ,一列代表一个数据特征( SPSS 中称为 Variable)
变量视图
门显示有关变量的信息,如变量名称 、类型 、格式等
结果窗口(SPSS Output Viewer)
也称为结果查看器,此窗口用于输出分析结果,整个窗口分两个区
左边为目录区
右边是内容区
语法窗口( SPSS Syntax Editor )
也称语法编辑器
脚本窗口(SPSS Script Editor)
SPSS 脚本是用 Basic 或者 Python 编写的程序
1.3.2 SPSS 菜单项
数据与转换
这两个菜单项提供数据管理相关的功能
分析
提供了90%以上的统计分析功能,以及少数与分析功能紧密相关的统计绘图功能
图形
提供了90%左右的统计绘图功能,另外 10%的绘图功能由于和统计分析结合得较为紧密,因此在分析菜单中提供
直销
该菜单提供了一组用于改善直销活动效果的工具
实用程序
该菜单为用户提供了一些比较方便的数据文件管理功能和界面编辑功能
扩展
为用户提供下载并安装 SPSS 社区中各种扩展包的功能
1.3.3 SPSS 的4 种结果输出
透视表( Pivot Table)
文本格式
统计图表
模型
1.3.4 分析结果的保存和导出
直接保存
导出
直接复制粘贴
1.4 SPSS 的系统选顶与扩展资源
1.4.1 系统选项
外观设定
界面语言和结果输出语言
数据编码
查看器字体设定
透视表默认格式
1.4.2 网站资源
Python/R 扩展
用户手册
补丁包(Fixpacks)
1.4.3 安装 Python/R 扩展
1.5 SPSS 的帮助系统
1.5. 1 学习向导
1. 统计指导( Statistics Coach )
2. 教程( Tutorial)
3. 个案研究(Case Studies )
1.5.2 软件操作帮助
1.目录树方式
2.索引方式
1.5.3 针对高级用户的帮助功能
1. 命令语法参考( Command Syntax Reference )
2. SPSS 社区( SPSS Community )
1.6 数据分析方法论概述
1.6.1 严格设计支持下的统计方法论
严格设计支持下的统计方法论也可称为经典统计方法论
具体特征
1. 这些研究都具有非常严密的研究设计,且往往严格遵循所渭的 7 大步骤:试验设计、数据收集 、数据获取、数据准备 、数据分析 、结果报告和模型发布
2. 试验设计过程中会充分考虑需要控制的影响因素,并采用各种精巧的设计方案来对非研究因素的作用加以控制,如配伍、完全随机抽样、随机分组等
3. 整个试验过程会在尽量理想的情况下进行,从而在试验/数据获取过程中也对无关因素的作用加以严格控制
4. 原始数据往往需要从头加以采集,数据质量完全取决于试验过程是否严格依从设计的要求,以及试验设计是否合理
5. 在分析方法上,最终所采用的统计模型应当是基于相应的试验设计所定制的分析模型
1.6.2 半试验研究支持下的统计方法论
具体特征
1. 研究设计具有明显的向实际情况妥协的特征,因此所谓的7 大步骤可能不被严格遵循
2. 研究设计可能无法做到理想化,例如抽样/分组的完全随机性,试验组/对照组干预措施的严格控制都可能无法严格满足
3. 整个数据采集过程难以做到理想化
4. 部分数据可能先于研究设计而存在,整个研究中需要在这些数据的基础上去补充所需的其他部分信息。而另一方面,数据有可能不完全满足分析需求,但这种缺陷却无法得到补正
5. 在分析方法上,由于试验设计难以做到完美,因此各种潜在影响因素的作用可能也并不明确,需要在各种可能的影响因素中进行筛选和探索。而相应可能用到的统计方法也比较繁杂。从简单的统计描述,到复杂的广义线性模型都可能用到,而影响因素的筛选则成为很多分析项目的重点任务之一
1.6.3 偏智能化、自动化分析的数据挖掘应用方法论
1. 完全以商业应用的需求为导向,传统方法论需要方法体系/逻辑正确,数据挖掘由于所处理问题的数据量大 、时间要求严格,只需要结果正确,分析方法的理论正确性并不重要,而算法细节也可以是灰箱甚至黑箱
2. 分析的流程出现了很大的变化,不再是线性的7 大步骤,而转换成了周而复始的循环结构,且非常强调前期的商业理解,以及后期的模型发布/应用
3. 由于数据往往来源于业务系统,因此数据采集过程是全自动进行的,完全先于整个研究项目存在。但这也意味着这些数据根本就不是为数据分析准备的,从而难以做到理想化。
4. 由于业务系统的数据是动态增加的,因此难以通过人工收集的方式补全数据,只能“看菜下饭”,否则整个项目将永无止境
5. 在分析方法上,由于极端强调商业应用,因此分析方法的选择其实并不重要,往往采取多种方法并行 、从中择优的分析思路