导图社区 线性回归分析
线性回归的理论性的知识框架,及建模的步骤和使用。
编辑于2020-04-15 14:27:53线性回归分析在SPSS中的操作步骤
0、SPSS的数据变量
分类体(1、取值在24个以内;2、变量是否有小数位。)
名义
没有高低、大小、顺序之分
有序
连续
标度
1、在转换中实现:异常值、缺失值、共线性、变换(标准化)、编码(变量下取值问题,如分箱化处理)、拟合判断(欠拟合在小数据中出现和过拟合在大数据中出现)、x的选择
缺失值
小数据就用缺失值分析。
大数据就用多重插补。
异常值
小数据中用套索住,删除掉。
2、定义:
R²要努力提高到0.35以上才有意义,0.5中等,0.7就已经很好。
调整后的R²是看X的个数大于6.
X的个数大概在[3,9],大于6就可能出现冗余。
3、画图
散点图
直方图(专业)
双击散点图
画参考线(x和y轴的平均值,画参考线)
画椭圆,包括95%的散点图。而椭圆的中心点是置信点,置信点是两个平均值的交点。而这个可以回答:协方差回答大小与方向。
R可由椭圆的胖瘦决定。
点击回归按钮,作出回归线。
条形图(通俗)
相关系数
回归趋势
异常值
4、相关系数r
公式(特别重要),大概有20多种相关系数
Pesrson(皮尔逊)相关系数
适用于两列连续变量的情况
Spearman(斯皮尔曼)等级相关系数
按秩次大小计算的线性相关分析,适用的范围很广。
适用于那些不满足正态分布的资料、总体分布未知的资料和等级资料。
Kendall等级相关系数
适用于两列有序或两个秩变量分类资料
小数据一般在0.1到0.9之间,大数据在0.1到0.7之间。
r与R²的范围是一致的。
5、回归
当其他条件处于积极的状态,当适应能力(变量)每变化一个标准差,就会带来绩效(因变量)0.296个标准差。
R²的改变在5%以内的,模型没有发生变化;改变5%以上,模型发生显著变化;改变10%以上,模型发生很大变化;改变20%以上,模型发生巨大变化。
6、ε残差分析
随机性分析
直方图
固定性分析
散点图
判断残差里是否有遗漏的x值。
残差与预测值可能是线性的,平方的等情况
正态分布在影响其的因素平衡下会出现;指数分布在影响其的因素由主次之分,头部效应:如统计软件的第一名是SAS。
残差图
在0上下随机摇摆。
没有任何形状。
摆动的幅度是在-3与3之间。
变换法:对数变换
最简单的缓解法
两步最小化和成法
稳健算法
主要的方法
根据残差图:去除异常值:套索圈出异常值。在小数据中出现的异常值,可以直接去掉。
7、应用
结构问题(归因问题)
主次归因
统计学在小数据中做分析,解决主次归因问题,主要求β。
SPSS软件
规则归因
机器学习主要解决是很复杂的非线性结构化问题,如面部识别、逃犯追踪、自然语言编码等
Python软件
预测问题
老样本预测
数据挖掘主要解决老样本预测问题,对老样本进行再次预测。
SAS软件
新样本预测
计量主要做时间序列分析,预测未来值
Eview软件