研究一个连续性因变量和多个自变量之间的线性关系的统计学方法。
基本目的:用一个以上的自变量X1,X2,…,Xp的数值估计反应变量Y的平均水平。
β0为常数项,也称截距; βj为自变量Xj的偏回归系数(partial regression coefficient),表示当方程中其他自变量保持不变时,自变量变化一个单位,反映变量Y的平均值变化的单位数;
e则是除去p个自变量对Y影响后的随机误差,也称残差
其中,Y为Xi(X1 ,X2 ,... Xp)时反应变量Y的总体平均值的估计值; b0和b1,b2,… bp为偏回归系数的估计值。
P个自变量都有各有计量单位,所以不能直接用普通偏回归系数的数值大小来比较方程中各个自变量对反应变量的影响大小。
标准化偏相关系数:用标准化的数据进行回归模型拟合,得到标准化回归系数。标准化偏回归系数(没有单位)较大的自变量在数值上对反应变量Y的影响较大。
回归参数估计
基本原理:利用收集到的因变量和自变量的一组数据,建立一个因变量关于自变量的线性函数模型,使得这个模型的理论值和观察值之间的离差平方之和尽可能地小。