导图社区 数据分析思维工具-回归分析
相关分析,帮助我们可以找到影响产品销售的相关因素,确定各因素的相关关系。在实际工作中,这可能还不够,可能需要我们作出更加精确的判断和预测。比如,在特定的渠道、价格等因素之下,下个月、下个度度、下一年的销售额预计是多少? 要解决这类涉及预测和控制的问题,就需要学习回归分析。
编辑于2022-05-17 17:57:26
数据分析思维工具-回归分析
来源:圈外数据学院L1
案例:如何通过身高推算衣服的尺码
我们先收集很多人的肩宽和身高两个数据:
通过绘制散点图,求出公式,二者公式为:y=0.514x-31.415
有了这个公式,就可以将不同的身高,对应到不同的肩宽上面,从而形成一张对照量表。比如身高170cm的人,肩宽差不多是56cm,身高178cm的人,肩宽差不多是60cm,商家再按照肩宽去找相应的尺码,就可以引导用户购买了。
如果结合体重,准确度会更高。
这其实就是非常典型的线性回归分析的应用。
回归分析的定义
1、它涉及到两个及以上变量之间的关系。
2、这组关系可以用一个明确的方程来表示。线性回归分析的重点,就是通过工具计算出方程,找出方程才能根据一个变量进行另一个变量的测算。
3、回归方程可以用来对其中一个变量(因变量)进行预测。
和相关分析的区别
相关分析中两组变量的地位是平等的,是看相互之间的关系。而回归分析,是看一个变量调整后,如何根据精确的量化关系,来计算出另一个变量。
我们要计算的变量叫做因变量,而我们用来计算和推测的变量,叫做自变量。
相关分析和回归分析的差别:自变量与因变量
回归分析的作用
回归分析可以帮助我们做预测
回归分析可以帮助我们做决策
回归分析的种类
线性回归
一元线性回归
多元线性回归
非线性回归
一元线性回归
我们接触一元线性回归分析时,常常是需要通过操纵一个变量的数字,去估算和预测另一个变量的数字。比如打国费可以通过路程来估算。
案例:用回归分析,解决问题:平均菜价上涨10元,人均消费上涨多少?
第一步:确定自变量和因变量:价格是自变量x,而人均消费金额是因变量y.
第二步:绘制散点图:散点图能够快速判断自变量和应变量之间是否包含线性关系。
看起来, 两级数据具备线性相关,添加趋势线拟合后如下图。
第三步:求方程。任何线性相关的两组数据,都可以用方程表示出来。一元线性回归的标准形式,就是y=ax+b。
Excel求解一元线性回归方程的方法:在添加趋势线的同时,进入趋势线选项,选择勾选“显示公式”和“显示R平方值”,就可以自动显示了。
第四步,验证方程是否准确: 在相关分析中,我们曾使用相关系数R来检验两组变量的相关程度;在回归分析中,我们也需要观测R方的数值,来检验我们的回归方程是否足够准确。R方最大是1,越接近1,说明这组方程越准确。 在Excel中,绘制好了散点图,可以直接勾选显示R方,如图所示,这个方程的R方是0.9982,接近1,说明y=2.4688x+1.1807这个方程,能够反应菜品均价和人均消费金额之间的关系。 那回到我们的问题,菜品均价提升10元,对人均消费金额影响是多少?带入方程,就可以得出结果,约等于26元。
一元线性回归,在这种变量确定的问题中,能够快速确认变量关系,从而进行简单的预测和控制。 但现实工作生活中,很多问题的相关因素往往不止一个,同样一个y,可能受到很多x的影响。 如何解决包含多个变量的问题:需要掌握多元线性回归
一元和多元的差别:一个自变量对一个因变量就是一元,多个自变量对自变量对一个因变量,就是多元。同理,多元线性回归分析的方程,也可以参考一元线性回归的方程,进行扩充。
多元线性回归
多元线性回归方程:y=a1*1+a2*2+......aN*N+b 每个自变量影响程度不同,体现在方程里就是系数大小不同, 每个系数也可以标号,b1,b2,b3,以此类推。
用案例,在实际应用中学习多元线性回归: 假设我们在市中心经营一家冷饮店。天气预报显示下周会出现寒流,气温下降,周平均温度不过25摄氏度,我们担心会对冷饮店的生意有影响,准备下周保持55折的折扣力度。需要估算出,在气温25度、折扣力度55折的情况下,我们每日的业绩大概是多少。
第一步:用Excel整理和拉取数据
第二步,相关分析检验与筛选 得到数据后,首先进行基本的相关分析,确定每个自变量与因变量是否相关,如果相关,就纳入回归分析的方程,如果不相关,就删除。
计算结果如下: 气温和业绩的相关系数R1=0.8715 折扣力度和业绩的相关系数R2=-0.8122 喇叭吆喝和业绩的相关系数R3=-0.2249 可以发现,有没有吆喝跟业绩相关性不大,所以删除这组数据,只把气温*1和折扣力度*2纳入多元回归方程里。
第三步,列出初始方程:y=a1*1+a2*2+b 使用Excel求解多元线性回归方程,用LINEST函数就可以。 步骤如下:在数据分析一栏中选择”回归“
将每日业绩值输入Y值,气温和折扣力度输入X值,置信度默认90%,点击确定
最后我们可以得到这组多元回归的系数,分别为109.4687*1和-1626.8343*2和3272.2850,得到最终的回归方程为y=109.4687*1-1626.8343*2+3272.2850
但是,现实生活不是数学,随机因素影响着数据的稳定性。因此,在得出回归方程之后,我们还必须经过工具验证,来确认方程是否可信。这最后一步,就是显著性检验。
第四步,显著性检验: 需要验证方程的显著性系数F。F小于0.05,说明这组方程足够显著,可以使用。 在前面Excel求解方程式的过程中,已经有这个系数了,如图:
F=0.001167,远远小于0.05,可以证明这个方程是十分显著的
最后一步,就可以结合具体问题,开始预测了。 比如天气报下周开始降温,周平均温度只有25度,下周折扣力度为5.5折,通过方程,计算可知:下周日业绩为5114元。