导图社区 计量经济学导论(伍德里奇Woodrid):汇总第一篇:横截面数据的回归分析
这是一篇关于汇总第一篇:横截面数据的回归分析的思维导图,主要内容包括:第九章:模型设定和数据问题的深入探讨,第八章:异方差性,第七章:含有定性信息的多元回归分析:虚拟变量,第五章:多元回归分析:OLS的渐进性(大样本),第四章:多元回归分析:推断,第三章:多元回归分析:估计,第二章:简单回归模型,第一章:计量经济学的性质与经济数据,第六章:多元回归分析:深入专题。
编辑于2024-09-27 16:05:12这是一篇关于第五章:多元回归分析:OLS的渐进性(大样本)的思维导图,主要内容包括:拉格朗日乘数统计量(Lagrange Multiplier, LM),渐近有效性,渐进正态和大样本推断,一致性(consistency)。
这是一篇关于第四章:多元回归分析:推断的思维导图,主要内容包括:检验对多个总体参数的假设:F检验,检验对单个总体参数的假设:t检验,OLS估计量的抽样分布。
这是一篇关于第七章:含有定性信息的多元回归分析:虚拟变量的思维导图,主要内容包括:政策分析和项目评价(自选择问题),二值因变量:线性概率模型LPM,虚拟变量的交互作用,使用多类别虚拟变量,只有一个虚拟变量的情况,对定性信息的描述。
社区模板帮助中心,点此进入>>
这是一篇关于第五章:多元回归分析:OLS的渐进性(大样本)的思维导图,主要内容包括:拉格朗日乘数统计量(Lagrange Multiplier, LM),渐近有效性,渐进正态和大样本推断,一致性(consistency)。
这是一篇关于第四章:多元回归分析:推断的思维导图,主要内容包括:检验对多个总体参数的假设:F检验,检验对单个总体参数的假设:t检验,OLS估计量的抽样分布。
这是一篇关于第七章:含有定性信息的多元回归分析:虚拟变量的思维导图,主要内容包括:政策分析和项目评价(自选择问题),二值因变量:线性概率模型LPM,虚拟变量的交互作用,使用多类别虚拟变量,只有一个虚拟变量的情况,对定性信息的描述。
汇总第一篇:横截面数据的回归分析
第七章:含有定性信息的多元回归分析:虚拟变量
对定性信息的描述
通常以二值信息的形式出现
二值变量
binary variable
0-1变量
zero-one variable
虚拟变量/哑变量
dummy variable
只有一个虚拟变量的情况
虚拟变量反映了两个特征分组,虚拟变量的系数反映了两个特征分组之间因变量的差异
虚拟变量陷阱
如果把两类都作为虚拟变量放入,则会产生多重共线性,也被称为虚拟变量陷阱
产生多重共线性的原因在于,两类虚拟变量和解释变量矩阵第一列的1会存在多重共线性,通过1和其中一个虚拟变量即可表示另一类虚拟变量,进而导致矩阵非满秩而不可逆,系数不可识别
去掉其中一个虚拟变量
推荐
去掉截距项
有重大缺陷
一般会考虑设置一个基组,该基组不设置虚拟变量表示,通过设置其他类别虚拟变量来与基组对比(系数解释也是参照基组)
使用多类别虚拟变量
基本操作
在多类别中选择一个基组,对其他类别设置虚拟变量,系数表示其他各类与基组之间的差别
含有序数信息
不能设置1、2、3、4
还应设置多个虚拟变量
虚拟变量的交互作用
虚拟变量之间的交互
通过两个虚拟变量的交互,可以直接实现之前四类三个虚拟变量的效果;多个虚拟变量交互类似
虚拟变量和非虚拟变量之间的交互
相当于默认存在一个斜率差异:即不同的类别组会有不同的斜率
检验不同组之间回归函数上的差别
F联合检验
原模型(约束模型)不含有类别变量,分组后模型增加类别变量及其与其他各个变量交互项(无约束模型),构造F统计量进行联合检验
邹至庄检验(邹至庄统计量)
对两组样本分别回归得到各自的SSR1和SSR2(相当于无约束模型),再将两组混合(约束模型)回归得到SSRp,构造F统计量
二值因变量:线性概率模型
基本思想
因变量是一个二值变量,我们通常把因变量的概率设为y,进行回归
系数β反映了在其他因素不变的情况下,xj的变化导致成功概率的变化
缺陷及方法
缺陷:得到的拟合值y尖有可能<0或者>1,不符合概率公理
解决方法:找到一个分界点(比如0.5),y的拟合值大于临界值取1,否则取0 拟合优度:拟合值和实际值相符数量占全部数量的比重
政策分析和项目评价(自选择问题)
自选择问题
概念和表现
解释变量不是随机的,而是选择的结果,这个选择过程对研究主效应会存在偏差
个人自己选择加入某种行为或者项目,他的参与并不是随机决定的,可以理解为,有第三个因素决定了个体是否参与,在这样的情况下要单纯的研究该项目对他人的影响就失去意义(一般根据是否参与分为对照组和实验组,对照组和实验组的生成并不是随机的,而是有其他因素影响,此时要探讨政策的意义就没什么价值)
修正办法
PSM-DID
需要跟样本选择偏误区分开来
样本选择偏误是指研究中选择的样本并非完全随机
可见,自选择问题主要是模型设定上的问题,而样本选择偏误是样本的问题
第八章:异方差性
异方差性对OLS造成的影响
不影响OLS的无偏性、一致性、拟合优度
使得估计量方差有偏
使t、F和LM检验失效
OLS不再是BLUE,也并非渐近有效了
OLS估计后的异方差-稳健推断(异方差稳健的标准误)
假设包含了异方差,此时OLS标准误必然是偏误的,但是如果我们可以得到一个异方差稳健的标准误,那么我们依然可以使用各种统计量,毕竟异方差并不影响OLS的一致性和无偏性
用y对xOLS回归后得到的残差,构造系数的异方差稳健标准误
统计量
异方差-稳健的t统计量
异方差-稳健的F统计量(wald统计量)
异方差-稳健的LM统计量
用异方差稳健的标准误代替OLS标准误
对异方差的检验
布罗施-帕甘异方差检验(BP test)
原假设:同方差
原理:看残差是否与解释变量相关
步骤
1.对原模型进行回归,得到残差,求得残差的平方
2.将残差平方作为因变量,解释变量不变,回归得到R方
3.计算F统计量或者LM统计量,判断显著性
残差平方对x回归
怀特异方差检验(White test)
同方差假定可以弱化
误差平方μ方与所有自变量、自变量的平方和所有自变量的交叉乘积都不相关
原理:看残差是否与自变量、自变量的平方和自变量的交叉乘积相关
其中拟合值即包含了所有自变量,拟合值的平方即包含了所有自变量的平方和自变量的交叉乘积
步骤
1.对原模型进行OLS回归得到拟合值和残差,求得拟合值平方和残差平方
2.将残差平方作为因变量,拟合值和拟合值的平方作为自变量,构造模型回归得到R方
3.构造F或LM统计量并进行检验
残差平方对拟合值和拟合值平方的回归
加权最小二乘估计(WLS)
如果检验出了异方差性,可以考虑采用异方差-稳健的标准误,也可以考虑采用WLS
对异方差形式的不同假定需要不同的方法 异方差形式:σ方*h(x)
h(x)已知:WLS
将个体模型中所有项除以h(xi)的平方根
通过以上操作得到的新模型符合同方差假定
之所以叫做加权,实质是给每个残差平方和赋予一个权数1/hi,残差平方和越大,被赋予的权重就越小,这样就实现了一种平衡
h(x)未知:FGLS
思想
实际上,异方差函数的形式h(x)通常是未知的,此时我们可以考虑模型化h(x),得到h(x)的估计值h尖,进而利用这个h尖进行WLS。
步骤
1.对原模型进行OLS回归得到残差
2.将残差取平方并取自然对数
3.将残差平方的自然对数作为因变量对原先的解释变量进行回归得到拟合值
也可以是对拟合值、拟合值的平方进行回归得到的拟合值
4.令h尖=exp(拟合值)
5.以1/h尖为权数,用WLS进行估计原方程
如果假定的异方差函数是错误的
不会导致WLS估计量偏误或者不一致
但是即使是在大样本下,WLS标准误和检验统计量都不再可靠
难以保证此时WLS比OLS有效
再议线性概率模型LPM
当y为二值变量时,除非所有斜率参数为0,否则必有异方差
对于LPM,使用异方差-稳健的标准误并非有效
考虑采用WLS
1.用OLS估计得到拟合值y尖
2.判断所有y尖是否属于[0,1],如果不是,则需要进行一定的调整,然后才能进入下一步
3.令hi尖=y尖*(1-y尖)
对于概率而言,概率方差=发生的概率*不发生的概率
4.以1/hi尖为权数,用WLS估计原方程
第九章:模型设定和数据问题的深入探讨
函数形式误设
遗漏显著自变量的高次项或者对数
联合排除性约束F检验
在模型中添加显著变量的平方项并进行F检验
有可能是其他形式,但是二次项和对数一般就足够了
缺陷
添加解释变量平方项会使用掉大量自由度
不能得到被忽略的某些特定非线性关系
一般检验:回归设定误差检验(RESET)
原理
利用扩大方程来检验原模型是否漏掉重要的线性关系
步骤
1.构建扩大方程,y为被解释变量,拟合值、 拟合值的平方、拟合值的三次方作为解释变量
2.利用F或者LM检验判断拟合值二次方和 三次方系数是否联合显著,显著则表明存在模型误设问题
对非嵌套模型的检验(即有两个模型, 他们是非嵌套的,但是因变量相同)
方法一
构造一个综合模型(把两个模型的解释变量放在一起),然后利用F或LM检验看任意一个模型的自变量是否联合显著。
方法二:戴维森-麦金农检验
步骤
1.由模型a经过OLS回归得到拟合值,并放入模型b中
2.判断新的b模型中a模型拟合值的系数是否显著,如果显著则拒绝b模型
也可以用同样的道理对模型a进行检验
缺陷
不一定会出现一个明显更好的模型,可能两个都拒绝也可能都不拒绝
DM检验拒绝了一个模型并不意味着另一个模型正确
如果因变量不同,则很难比较
对无法观测解释变量使用代理变量
代理变量
某种与我们在分析中试图控制的无法观测变量相关的东西
x*=c0+c3x+v
x*为我们需要的变量,x为代理变量
假设要求
要求原模型的误差μ与所有解释变量不相关,且与代理变量不想管
要求变量与代理变量模型中的误差v与其他解释变量和代理变量不想管
对符合假设要求的代理变量,一般可以得到我们所需要系数的无偏估计量, 如果不符合假定,则会导致偏误
有时可以使用二值变量作为代理变量,也可以使用之后因变量作为代理变量(解释导致因变量现期差异的历史因素或惯性影响)
随机斜率模型
之前一般假定总体中的个体具有相同的斜率系数,或者总体中不同组内具有相同的斜率系数(虚拟变量与交互项),接下来考虑随着单位不同变量偏效应也不同的情况
模型:yi=ai+bi*xi
我们不能对每个i都求系数,但是我们可以求平均,即平均偏效应(APE)
要求ai和bi都均值独立于xi才能得到无偏估计
存在异方差问题,可以考虑异方差稳健的标准误或者WLS
测量误差
概念
在一个回归模型中使用经济变量不精确的度量,就称为“测量误差”
与代理变量的区别
在代理变量中,被遗漏的偏效应很少成为关注核心,通常是控制变量
在测量误差中,被误测的自变量是主要焦点之一,也就是核心自变量
类型
被解释变量中的测量误差
被解释变量的测量误差并不是很严重
e0=y*-y
其中e0即表示测量误差
y=b0+b1x1+u+e0
只要测量误差的均值为0,仍然可以得到一直估计,只不过误差方差会更大
解释变量的测量误差
解释变量的测量误差非常严重
测量误差e1=x1-x1*,x1*为需要的,x1是实际测量的
两种假定
假定测量误差e1与x1不相关
在这种情况下可以得到一致估计量,但是会提高误差方差
经典变量误差(CEV):假定测量误差e1与x1*不相关,则必然与x1相关
会得到有偏且不一致的估计量
数据缺失、非随机样本和异常观测
数据缺失
如果某一个观测缺失了某个变量的数据,则不能再用于多元回归分析
如果是随机缺失的,则只会减小样本容量,不会产生统计影响
完全随机确实MCAR
将有缺失的变量剔除,引入两个新的虚拟变量,其中一个观测到了取1,另一个没观测到取1,然后用y对这些解释变量回归(不含截距项)
非随机样本
外生样本选择
样本可在自变量基础上加以选择,除了较小的样本容量以外算不上大问题
内生样本选择
样本选择以y为基础,样本的因变量值必须高于或者低于某个值,则会产生偏误
异常观测
OLS最小化残差平方和,而对于异常值,他们的残差非常大,占的比重也非常大,所以会影响OLS估计,一旦删除,OLS估计会发生很大变化
学生化残差
将原普通最小二乘残差除以其标准差估计值而得
也可以定义一个虚拟变量,是异常值取1,否则取0,然后通过虚拟变量系数来看两者之间相差多大
一般对数形式对于异常观测没有那么敏感
最小绝对离差估计(LAD)
相比于OLS最小化残差平方和,LAD是最小化残差绝对值和
LAD的设计是为了估计y的条件中位数
缺点
没有闭式表达式可以用,不能写出表达式,计算困难
关于LAD估计量的统计推断只有在大样本下才合理
并非总能一致地估计条件均值函数,毕竟他是为了估计条件中位数而设定的
优点
LAD估计条件中值,在经过单调变换后很容易得到偏效应和预测,且可穿越递增函数
第六章:多元回归分析:深入专题
标准化
在标准化的情况下,可以得知xj提高n倍标准误,y会提高n*bj倍标准差
在标准化的情况下,系数βj尖可以用来相互比较(没有标准化则不可以)
标准化后不包含截距项
标准化不会影响统计量的显著性
函数形式
对数形式
优势
合理表示百分比变化
对系数解释颇具吸引力,且可以忽略其度量单位
当y>0时,取对数更符合CLM假定
可以缩小变量的取值范围,对异常值也不是那么敏感
何时采用?
大正整数优先考虑
以年为单位的通常不用
比例或者百分比看情况
如果y包含相对较少的0时,可以考虑y+1再取对数
一般考虑Tobit模型和Poisson分布
二次式
一般用来反映边际递增或者边际递减效应
使用之前可以考虑是否存在着一种边际效应
一定要注意系数的解释,一次项的系数并不代表该变量的影响,还需考虑二次项
交互项
交互效应,x对y的影响程度受到变量z大小的影响
平均偏效应(Average Partial Effect, APE)
以上三种形式的非线性方程标志是偏效应取决于一个或多个自变量的取值
普及的总结度量是平均偏效应
在计算偏效应并代入估计所得到的参数之后,对样本中每一个单元的偏效应取平均
拟合优度和回归元选择
调整拟合优度
将拟合优度的分子分母都除以他们的自由度,再相除
拟合优度会随着自变量增加而增加,但是调整拟合优度由于考虑到了自由度,所以不一定会随着自变量增加而增加。
通常报告时用的是调整拟合优度,计算F统计量还是用拟合优度
非嵌套模型之间的选择
非嵌套模型是指两个模型没有哪一个是另一个的特殊情况
约束模型是无约束模型的特殊情形,因而属于嵌套模型
我们一般采用调整拟合优度对非嵌套模型进行选择
回归元的数量
回归元数量过少往往会有遗漏变量的问题
增加回归元可以帮助我们降低误差方差
为了防止多重共线性等,我们一般找与y相关但是与x不相关的这种变量,但是很有难度。
但是回归元并不是越多越好
“控制其他条件不变”一旦我们把解释变量影响被解释变量的渠道机制控制了,那么该回归就毫无意义。
预测和残差分析
利用模型进行预测
点估计
拟合值
区间估计
拟合值+-临界值*标准误
标准误如何求
令各个解释变量减去具体值,再用y对这些新的解释变量进行回归,得到的截距项的标准误就是我们要用的标准误。
残差分析(Residual Analysis)
考察个别观测的残差,即看个体的因变量实际值是高于还是低于拟合值(低估or高估)有帮助
第五章:多元回归分析:OLS的渐进性(大样本)
一致性(consistency)
在大样本下,随着样本容量的增加,估计量越来越接近总体参数。 当样本容量趋于无穷时,估计量分布在总体参数附近
OLS的一致性
在假定MLR.1-MLR.4下,OLS估计量都是对应总体参数的一致估计 plim(βj尖)=βj
渐进正态和大样本推断
抽样分布的正态性不会影响BLUE结论,但是会影响对应统计量是否服从t和F分布
OLS的渐近正态性
在大样本容量下,OLS估计量是近似正态分布的
在渐近正态分布下,我们能得到渐近t统计量和渐近F统计量
渐近有效性
OLS的渐近有效性
系数估计量具有最小渐近方差
拉格朗日乘数统计量(Lagrange Multiplier, LM)
对约束模型进行回归,得到残差μ波浪
将因变量y对施加限制后的自变量集进行回归,并保存残差μ波浪
排除剩下能解释的部分
将μ波浪对所有自变量进行回归,并得到R方,记作Rμ方
用不能解释的部分对所有变量进行回归,求出限制条件对μ的解释力
LM统计量=n*Rμ方
LM统计量服从卡方分布
第四章:多元回归分析:推断
OLS估计量的抽样分布
MLR.6 正态性:总体误差μ服从均值为0,方差为σ方的正态分布
MLR.1-MLR.6被称为经典线性模型假定
MLR.1-MLR.6下的模型被称为经典线性模型(CLM)
在CLM假定下,以自变量的样本值为条件,系数估计量服从正态分布
检验对单个总体参数的假设:t检验
在用σhat取代σ后,即用se代替sd后,在CLM假定下,系数估计量服从t分布
H0:总体参数βj=0
计算p值
检验对多个总体参数的假设:F检验
无约束模型和约束模型
无约束模型是原模型
约束模型是添加了多个系数为0条件后的模型
约束模型的参数总比无约束模型的参数少
F统计量的构建和P值计算
残差形式
R方形式
第三章:多元回归分析:估计
多元回归的优势
明确控制其他影响因素,更适合于其他条件不变情况下的分析
可以引入相当一般化的函数关系,有较好的灵活性
普通最小二乘法
估计原理和方法与简单回归一致
估计的系数是一种偏效应,即在其他变量不变的情况下,该变量变化对因变量的影响(度量了在排除其他变量的影响后,该变量对因变量y的影响)。
弗里施-沃定理
多元回归的高斯-马尔可夫假定
MLR.1 线性于参数
MLR.2 随机抽样
MLR.3 不存在完全共线性
否则会使得估计量方差特别大,失去意义
MLR.4 零条件均值
MLR.5 同方差性
高斯-马尔可夫定理:在MLR.1-MLR.5下,截距和系数估计量是BLUE
OLS估计量的性质
系数估计量
无偏性
在高斯-马尔可夫假定MLR.1-MLR.4下,系数估计量具有无偏性
最小方差性
σ方/SSTj(1-Rj方);Rj方是该解释变量作为因变量,其他解释变量作为自变量的方程的拟合优度
残差方差估计量
无偏性
多重共线性
多重共线性的实质,是自变量矩阵(第一列为全为1)存在列相关,进而导致不满秩,不满秩则不可逆,在这种情况下系数β不可识别(因为β尖的分母为逆矩阵)
由系数估计量的方差公式可以得知,Xj和其他解释变量的相关性越大,Rj方越大,进而会导致方差越大;这意味着如果存在多重共线性,系数估计量的方差会很大,结果往往是不显著的。
统计量:方差膨胀因子(variance inflation factor)
=1/(1-Rj方)
一般把10作为临界值
第二章:简单回归模型
最小二乘法
原理和目标:回归模型分为可被x解释部分和不可被x解释部分(残差项),最小二乘法的原理就是找到对应的系数β,使得不能解释的部分(残差平方和)最小。
方法:将残差平方和用x和y表示出来,并对系数β求偏导,令偏导=0,即可得到我们需要求的β。
OLS统计量的性质
SST:总平方和,(样本值-样本均值)的平方和
SSE:解释平方和,(拟合值-样本均值)的平方和
SSR:残差平方和,(样本值-拟合值)的平方和
拟合优度:R方=SSE/SST=1-SSR/SST
OLS估计量的性质
系数估计量
最小方差性(Best)
线性性(Linear)
无偏性(Unbiased)
BLUE(Best Linear Unbiased Estimator)
残差方差估计量
无偏性
对数形式
对一个变量取对数,往往就代表了该变量的增长率,近似比例变化
简单回归的高斯-马尔可夫假定
SLR.1 线性于参数
SLR.2 随机抽样
SLR.3 解释变量的样本有波动
SLR.4 零条件均值
“外生性”
SLR.5 同方差性
第一章:计量经济学的性质与经济数据
经济数据的结构
横截面数据:随机抽样
时间序列数据:不同时间的观测值
混合横截面数据:结合横截面和时间序列数据 每一时点都进行一次随机抽样
面板数据:由每个横截面单位的一个时间序列组成
实验数据
实验数据:实验环境中获得
非实验数据:观测数据,被动收集获得