导图社区 SPSS常用商业数据分析方法及案例
SPSS常用商业数据分析方法7种,包含聚类分析、相关分许、回归分析、主成分分析、因子分析、DEA分析等。
编辑于2021-12-24 15:53:46品牌策略,产品策略,营销策略等,霸王茶姬的品牌策略的核心在于其独特的品牌定位和形象塑造。通过对年轻消费群体的深入理解,霸王茶姬成功地将自己定位为时尚与健康的代表,通过鲜明的品牌形象和故事,吸引了大量忠实粉丝。其产品策略则强调不断的产品创新和质量保障,从选材到制作,每一个环节都力求完美,确保每一杯茶饮都能给消费者带来极致的味觉享受。而霸王茶姬的营销策略则充分利用了社交媒体的力量,通过线上线下的联动,创造了无数话题和热点,与消费者建立了深厚的情感连接。
大模型概念、发展历程与产品及行业应用;企业大模型的落地方案和智能体的企业应用,以及企业级大模型服务和应用案例。
蜜雪冰城凭借“极致性价比 供应链垂直整合 轻资产加盟”模式,实现全球门店规模领先,供应链壁垒深厚,下沉市场与海外扩张双轮驱动,未来增长空间广阔,投资价值显著。
社区模板帮助中心,点此进入>>
品牌策略,产品策略,营销策略等,霸王茶姬的品牌策略的核心在于其独特的品牌定位和形象塑造。通过对年轻消费群体的深入理解,霸王茶姬成功地将自己定位为时尚与健康的代表,通过鲜明的品牌形象和故事,吸引了大量忠实粉丝。其产品策略则强调不断的产品创新和质量保障,从选材到制作,每一个环节都力求完美,确保每一杯茶饮都能给消费者带来极致的味觉享受。而霸王茶姬的营销策略则充分利用了社交媒体的力量,通过线上线下的联动,创造了无数话题和热点,与消费者建立了深厚的情感连接。
大模型概念、发展历程与产品及行业应用;企业大模型的落地方案和智能体的企业应用,以及企业级大模型服务和应用案例。
蜜雪冰城凭借“极致性价比 供应链垂直整合 轻资产加盟”模式,实现全球门店规模领先,供应链壁垒深厚,下沉市场与海外扩张双轮驱动,未来增长空间广阔,投资价值显著。
SPSS常用商业数据分析方法及案例
1.数据预处理
描述:收集数据后,需进行数据预处理才可进入模型分析阶段,预处理部分包括筛出极端值、处理缺失值,简单操作、数据标准化等
拆分文件
输入:选择【数据】-【拆分文件】-勾选【比较组】,【按分组变量排序文件】
输出:SPUT FILELAYERED BY (变量名) ,【即为操作完成】
合并文件
输入:选择【数据】-【合并文件】-置入外部.sav文件-【添加个案(样本)】【添加变量(指标)】
数据描述
数据标准化
目的是让原始数据统一量纲,也就是统一衡量标准/单位,从而体现为显现一个以均值为0,标准差为1正态分布的数据。尤其是商业调研数据,不同个体对同一事物的判断标准不同,尽管结果一样但单位不一致,例如销售数据结果都是10件商品,但可以是1天销售量,也可以是1秒销售量,所以需要先做【数据标准化】才可以进一步分析。
【zscore标准化】,也叫【0-1标准化】
输入:选择【分析】-【描述】-选择变量-勾选【将标准化得分另存为变量】
输出:【数据标准化处理】表单中的E(x)=0,标准差=1
描述性统计:连续变量统计【均值、标准差】,离散变量统计【频数】【百分比】
信度分析
说明:用来判断此份数据通过分析得到的结论是否可靠,关键看【克隆巴赫系数】,0.8以上即为可靠,越接近1越好
输入:【分析】-【质量】-【可靠性分析】选题目-statistics-勾选【项/平均值/相关性】
输出:《可靠性统计》表单-克隆巴赫系数(越接近于1,信度越好,一般(0.8以上就合格),说明题目设计的比较科学)
效度分析
说明:用来判断此份数据是不是可靠,表示是否测到了想测的内容,关键看【KMO】,0.8以上即为可靠,越接近1越好
输入:【分析】-【降维】-【因子分析】勾选全部变量
输出:1.《相关系数矩阵》表单【显著性(单尾)】接近0,表示显著相关;2.《KMO和巴赫利特检验》表单【KMO】>0.8说明效果合格,越接近1越好;3.《总方差解释》用来看有几个因子,共解释XX%;4.《成分矩阵》表单用来判断那些题目对应哪个因子,在哪个主成分上得分更高,就属于哪个主成分。
聚类分析
聚类分析用于将样本进行分类处理,通常是以定量数据作为分类标准;用户可自行设置聚类数量,如果不进行设置,系统会提供默认建议;通常情况下,建议用户设置聚类数量介于3~6个之间。
案例1:根据网购满意度情况判定,当前市场上共有几类人群?比如满意度差,一般,满意度高三类人群
案例2:RFM Clustering用户细分模型
RFM模型用于分析客户价值,它需要提供三项数据,分别是最近一次消费 (Recency),消费频率 (Frequency),和消费金额 (Monetary)。最近一次消费指研究时间点减去用户最近一次消费的时间,得到的gap时间值,单位上是天或月或周或年均可,以实际业务情况为准。消费频率是研究数据范畴内用户的消费次数,消费金额指研究数据范畴内用户的消费总计金额。RFM的原理在于将RFM这三项数据进行分类,首先是分成1~5分计分方式,然后接着将1~5分计分方式按平均值大小分成两类群体(高价值和低价值群体)。最后RFM分别为两类群体即2*2*2=8种组合,8种组合对应着8类价值人群,最终结合此8类价值人群提供有针对性的营销策略。
第1步是将数据转换成1~5分计分方式(转化后分值越高代表价值越高),SPSSAU默认是按20%/40%/60%/80%分位数将数据计为1~5分。第2步是将1~5分值,按分别对应的平均值进行划分,划分为0和1,数字0代表低价值群体,数字1代表高价值群体。最后将RFM的组别建立组合,共计2*2*2=8种组合,即8种用户类型,
差异检验
T检验
独立样本T检验
理论:t 检验时研究X对Y的差异性,其中X为定类数据,Y为定量数据。t 检验时分析时,首先分析p 值,如果此值小于0.05,说明呈现出差异性;具体差异再对比平均值即可。如果p 值大于0.05则说明没有差异性产生。t 值属于中间过程值,想要计算p 值,一定要先计算t 值,
案例:不同群体对同一指标的差异
使用t 检验去研究性别分别与“淘宝客服服务态度”,“淘宝商家服务质量”这两项的差异关系,结果显示,不同性别群体样本对于“淘宝客服服务态度”,“淘宝商家服务质量”均呈现出显著性差异(p <0.05)。具体对比可知:不同性别人群对于“淘宝客服服务态度”呈现出0.01水平的显著性差异差异态度(t =-6.86,p =0.00 <0.01),具体通过平均值对比差异可知:相对男性群体,女性群体对于 “淘宝客服服务态度”的认可态度会越高。不同性别人群对于““淘宝商家服务质量”” 呈现出0.01水平的显著性差异(t =-6.13,p =0.00 <0.01),具体通过平均值对比差异可知:相对男性群体,女性群体对于,他们对于““淘宝商家服务质量””的认可态度会越高。
单样本T检验
单样本T检验是比较某个题项的平均得分是否与某数字(例子是与3进行对比)有着明显差异,如果呈现出显著性差异,即说明明显该题项平均打分明显不等于3.
方差分析
说明:根据X的不同,方差分析可进行细分。X个数为1个时,称之为单因素方差;X为2个时为双因素方差;X为3个时则称作三因素方差,依次下去。当X超过1个时,统称为多因素方差。
卡方检验
概念:用于分析定类数据与定类数据之间的关系。例如研究人员想知道两组学生对于手机品牌的偏好差异,则应该使用卡方分析。卡方是通过分析不同类别数据的相对选对频数和占比情况,进而进行差异判断,单选题或多选题均可以使用卡方分析进行对比差异分析。
案例:研究化妆情况(全妆,淡妆,不化妆)与外出情况(出,不出)之间的差异性,调查100个样本。
相关分析
概念
相关分析使用相关系数表示分析项之间的关系;首先判断是否有关系(有*号则表示有关系,否则表示无关系);接着判断关系为正相关或者负相关(相关系数大于0为正相关,反之为负相关);最后判断关系紧密程度(通常相关系数大于0.4则表示关系紧密);
分类:1.【按程度】分为:完全相关、(完全)不相关、不完全相关;2.【按方向】分为:正相关、负相关;3.【按形式】分为:线性相关、非线性相关
重点:p 值(也称显著性值或Sig值),对于相关分析,一般规范的表格格式是:p 值使用*号表示(标识在相关系数的右上角),p < 0.01使用2个*号表示;p < 0.05使用1个*号表示
案例
案例1:客户满意度
例如想研究“客服服务态度”,“商家服务质量”分别与“商家满意度”,“客户忠诚度”之间的关系情况,此句话中明显的可以看出“客服服务态度”,“商家服务质量”这两项为X ;而“商家满意度”,“客户忠诚度”这两项为 Y
结果分析:商家满意度”分别与“客服服务态度”,“商家服务质量”之间均呈现出显著性(p <0.01),并且相关系数值均高于0.7,说明“商家满意度”分别与“客服服务态度”,“商家服务质量”之间均有着非常紧密的正向相关关系。类似的,“忠诚度”分别与“客服服务态度”,“商家服务质量”之间也会有着非常紧密的正相关关系,相关系数值分别是0.673和0.606。
案例2:营销组合矩阵
用于确定市场归因,计算每个市场营销渠道的预计影响,试图衡量不可估量的营销渠道(如电视、广播和报纸)的影响。
相关矩阵表明,电视和销售额之间存在很强的相关性 (0.78),广播和销售额之间存在中等相关性 (0.58),而报纸和销售额之间存在弱相关性 (0.23)。
时间序列
线性回归[连续变量适用]
概念:首先要F 检验,如果F 值右上角有*号,说明回归分析通过F 检验,即说明这个回归分析有意义可以做。然后通常需要看以下几个指标:R ²这个值在0~1之间,越大越好,它代表回归方程模型拟合的好坏,如果为0.5,说明有50%的点的都掉在回归方程上面,这个值没有好坏之分,一般只是希望越大越好。同时VIF值代表多重共线性,所有的VIF值均需要小于10,相对严格的标准是小于5。接着分析具体X对Y的影响关系,首先判断有没有呈现出显著性,即p 值是否小于0.05,如果P <0.05则说明有影响关系,反之则说明没有影响关系。在说明已经有影响关系的前提下,具体是正向或是负向影响关系,则是通过“非标准化系数”或者“标准化系数”进行判断,大于0则说明是正向影响,反之则说明为负向影响。
案例:客户忠诚度影响因素及公式
背景:想研究“客服服务态度”,“商家服务质量”分别与“商家满意度”,“忠诚度”之间的关系情况,此句话中明显的可以看出“客服服务态度”,“商家服务质量”这两项为 X;而“商家满意度”,“忠诚度”这两项为 Y。
结果分析:模型通过F 检验(p <0.01),意味着研究模型具有意义,“客服服务态度”,“商家服务质量”这两项中至少一项,会对“忠诚度”产生影响关系。模型 R ²值为0.509,意味着“客服服务态度”,“商家服务质量”这两项可以解释“忠诚度”的50.9%变化原因。以及模型公式为:忠诚度=0.723 + 0.505*客服服务态度 + 0.312*商家服务质量。另外,针对模型的多重共线性进行检验发现,模型中VIF值全部均小于5,意味着不存在着共线性问题,模型较好。具体分析可知:“客服服务态度”的回归系数值为0.505,并且呈现出0.01水平的显著性(p <0.01),意味着“客服服务态度”会对“忠诚度”产生显著的正向影响关系。以及“商家服务质量”的回归系数值为0.312,并且呈现出0.01水平的显著性( p <0.01),意味着“商家服务质量”会对“忠诚度”产生显著的正向影响关系。总结分析可知:“客服服务态度”,“商家服务质量”这两项全部均会对忠诚度产生显著的正向影响关系。
ARIMA
移动平均自回归模型,是最常见的时间序列预测分析方法。利用历史数据可以预测前来的情况。
案例
当前已经有阿里“双十一”历年(2009~2019年)的销售数据,现希望通过历史数据预测2020年阿里“双十一”的销售额情况
上表格展示本次模型构建结果,包括模型参数、Q统计量和信息准则共三项。本次模型构建时,SPSSAU自动构建出模型为:AR(3),其模型公式为:y(t)=5008.364+1.168*y(t-1)+0.623*y(t-2)-0.816*y(t-3)。除此之外,SPSSAU还输出Q统计量值,AIRMA模型构建后一般要求模型残差为白噪声,即残差不存在自相关性,可通过Q统计量检验进行白噪声检验(原假设:残差是白噪声);比如Q6用于检验残差前6阶自相关系数是否满足白噪声,通常其对应p值大于0.1则说明满足白噪声检验(反之则说明不是白噪声),常见情况下可直接针对Q6进行分析即可;从Q统计量结果看,Q6的p值为0.987大于0.1,则在0.1的显著性水平下不能拒绝原假设,模型的残差是白噪声,模型基本满足要求。
DEA分析
理论:数据包络分析DEA是一种多指标投入和产出评价的研究方法,其应用数学规划模型计算比较决策单元(DMU)之间的相对效率,对评价对象做出评价。比如有10个学校(即10个决策单元DMU,Decision Making Units),每个学校有投入指标(比如学生人均投入资金),也有产出指标(比如学生平均成绩,学生奥数比赛比例等),有的学校投入多,有的学校投入少,但是投入多或少,均会有对应的产出,那么具体那个学校的投入产出更加优秀呢,诸如此类投入产出的优劣问题,则可使用数据包络DEA模型进行分析。最常见的DEA模型为CCR和BCC,此两种模型的区别在于是否假定‘规模报酬可变’,其对比如下:
案例:判断(某段时间/年)企业的投入产出比更有效
当前希望对天津市的城市可持续发展情况进行研究,共收集1990~1999共计10年的相关指标数据。具体说明如表格:
有效性分析是指决策单元DMU的总体有效性情况,本案例使用BCC模型进行分析。从上表可以看出:1997,1998和1999这三年的数据均为‘DEA强有效’,即相对于其它年份(DMU)来讲,此3年的投入产出达到相对最有效率。
因子分析
理论:因子分析(探索性因子分析)用于探索分析项(定量数据)应该分成几个因子(变量),比如20个量表题项应该分成几个方面较为合适;用户可自行设置因子个数,如果不设置,系统会以特征根值大于1作为判定标准设定因子个数。因子分析通常有三个步骤;第一步是判断是否适合进行因子分析;第二步是因子与题项对应关系判断;第三步是因子命名。因此分析往往是预处理,后续要根据研究目的进一步分析,如回归、聚类等等
说明:因子分析分为:探索性因子分析(EFA)、验证性因子分析(CFA)。EFA是找出潜在因子(变量个数)和降维;CFA是验证对应关系
探索型:【分析】-【降维】-【因子分析】-选变量,主成份分析-【抽取】特征值>1,可抽取为公共因子
案例:通过因子分析,得到少量因子反应N个题目
输入
KMO>0.6,Bartlett检验对应P值小于0.05,说明适合做因子分析;当最终确定提取的因子与题目对应后,可对提取的因子命名
验证型:【分析】-【降维】-【因子分析】-描述,statistic(单变量描述,原始分析结果)相关性矩阵(系数,显著性水平)-抽取,勾选(主成份,相关性矩阵,未旋转的因子解,碎石图,特征值>1)
主成分分析
理论:主成分分析用于对数据信息进行浓缩,比如总共有20个指标值,是否可以将此20项浓缩成4个概括性指标。除此之外,主成分分析可用于权重计算和综合竞争力研究。主成分(pca)分析通常有三个步骤;第一步是判断是否适合进行主成分(pca)分析;第二步是主成分与分析项对应关系;第三步是主成分命名.
案例1:权重计算
权重计算是主成分的一类应用场景,其原理在于使用方差解释率进行权重计算,方差解释率是指概括性指标(即主成分),对应提取的信息量。如下表详细讲述:
上表格显示:共10个分析项进行分析,最终提取得到三个主成分【主成分数量可自行设置】,此3个主成分方差解释率分别是58.563%,9.988%,6.558%,累积方差解释率为75.109%。即说明三个主成分,分别提取出共10项的信息量分别是58.563%,9.988%和6.558%,累积三个主成分表达10个分析项共计75.109%的信息量。通常情况下,权重加和均为100%,但这里为75.109%,此时即需要进行加权处理,即默认理解三个主成分完全表达10个分析项。加权处理方法为:方差解释率 除 累积方差解释率。本例子,三个主成分对应的加权后方差解释率即权重依次为:58.563/75.109=77.97%;9.988/75.109=13.30%;6.558/75.109=8.73%。即如果是计算权重,三个主成分的权重分别是77.97%,13.30%和8.73%。
案例2:计算综合得分
主成分分析还有一类非常重要的应用场景即计算综合得分,利用综合得分去对比综合竞争力情况,综合得分值越高,此时综合竞争力越强。此类应用常见于经济、管理类研究,比如上市公司的竞争实力对比。综合得分是利用“成分得分系数矩阵”,以及方差解释率进行进一步计算而得到。
指标相关性:经营管理
数据预测:战略策略预期
效果评估:ROI复盘、策略优化
群体差异:客户运营
找出N个核心因子并命名,再进行后续分析
计算竞争力综合得分
客户分类