导图社区 计量经济学
这是一篇关于计量经济学的思维导图,包含一元线性回归、 多元回归模型、异方差 (条件异方差)、自相关、多重共线性、 极端数据等。
编辑于2024-01-09 22:20:31这是一篇关于计量经济学的思维导图,包含一元线性回归、 多元回归模型、异方差 (条件异方差)、自相关、多重共线性、 极端数据等。
备考cpa财务管理-财务比率分析,内容有 短期偿债能力比率、长期偿债能力比率、营运能力比率、盈利能力比率、市价比率、杜邦分析体系。
英语六级作文模板(还没写完),如 economy/society/technology With the rapid development of----- As the constant advancement of----- In the fast pace world of----- As the ever increasing pace of----- With the continuous progress of-----,
社区模板帮助中心,点此进入>>
这是一篇关于计量经济学的思维导图,包含一元线性回归、 多元回归模型、异方差 (条件异方差)、自相关、多重共线性、 极端数据等。
备考cpa财务管理-财务比率分析,内容有 短期偿债能力比率、长期偿债能力比率、营运能力比率、盈利能力比率、市价比率、杜邦分析体系。
英语六级作文模板(还没写完),如 economy/society/technology With the rapid development of----- As the constant advancement of----- In the fast pace world of----- As the ever increasing pace of----- With the continuous progress of-----,
计量经济学
一元线性回归
一元线性回归模型
yi=a+bxi+ei (i=1,...,n)
OLS
希望在(x,y)平面找到一条直线,使得直线离所有点距离最近。这个距离叫做残差ei=y-a-bxi
OLS残差与解释变量及拟合值的正交性是OLS的重要特征
OLS的正交性
TSS(离差平方和)=ESS(拟合值:可解释部分)+RSS(残差平方和:不可解释部分)
拟合优度R^2
R^2=ESS/TSS=1-RSS/TSS
衡量样本回归线对数据的拟合优良程度(如果可解释部分所占部分越大,样本回归线的拟合程度越好)
0《R^2《1,R^2越高,则样本回归线对数据的拟合程度越好。如果R^2=1,则解释变量x可以完全解释y的变量
无常数项回归
OLS仍然满足正交性,但不宜使用R^2来度量拟合优度,要用非中心R^2
state命令
一元回归
regress y x
无常数项回归
regress y x,noconstant
e类命令
(估计命令)比如:regress
想看所有的e类命令运行结果 ereturn list
r类命令
其他 比如:summarize
想看所有的r类命令运行结果 return list
变异系数=标准差/平均值 display r(sd)/r(mean)
想看所有命令
list
多元回归模型
古典线性回归模型
线性假定
每个解释变量对yi的边际效应为常数,回归函数是参数的线性函数。
严格外生性
扰动项ei与所有个体的解释变量都不相关
不存在严格多重共线性
矩阵X满列秩,即不存在某个解释变量为另一解释变量的倍数,或可由其他解释变量线性表示出。
球形扰动项
即扰动项满足“同方差”、“无自相关”
正态分布
矫正拟合优度(可能为负值)
矫正的R^2 < R^2
OLS的小样本性质
线性性
无偏性
球形扰动项
满足同方差、无自相关
好处是可以证明OLS估计量是最有效率的估计量,即方差最小
高斯马尔可夫定理
最小二乘法是最佳线性无偏估计:即在所有线性的无偏估计中,最小二乘法的方差最小(核心是球形扰动项)
对扰动项方差的无偏估计
stata命令
回归
regress y x1 x2
无常数项回归
regress y x1 x2 x3,noc
只对南方样本进行回归
regress y x1 x2 x3 if rns
只对北方样本进行回归
regress y x1 x2 x3 if ~rns
对s>12的子样本进行回归
regress y x1 x2 x3 if s>12
回到最初的全样本
quietly reg y x1 x2 x3
计算拟合值
predict lny1(将拟合值记为lny1)
计算残差
predict e,residual (将残差记作e)
将lny 拟合值和残差同时列表
list lny lny1 e
将产出对数及其拟合值画一起
line lny lny1 year,lpattern(solid dash)
如果要显示回归系数的协方差矩阵
vac(回归之后输入)
检验假设
test
F检验
F值越大越倾向于拒绝原假设
T检验
p值越小越倾向于拒绝原假设 0.05 0.1 0.5
大样本OLS
假定
无需假设严格外生性和正态性
线性假定
(K+1)维随机过程为监禁独立的平稳过程,故适用于大数定律和中心极限定理
前定解释变量
秩条件(满秩,故不存在严格多重共线性)
异方差(条件异方差)
含义
是违背球形扰动项假设的一种情形,即条件方差依赖于i,而不是常数e^2。
 OLS回归线在x较小时可以较精确的估计,而x较大时,南野准确估计。
 OLS回归线在x较小时可以较精确的估计,而x较大时,南野准确估计。
例子
消费函数,穷人的消费大多是必需品,很少变动,而富人的消费支出更难猜测。
企业的投资、销售收入与利润:大企业的活动可能以亿元为单位,小企业的活动以万元为单位,若把大中小型企业放在一起回归,可能存在异方差。
后果
OLS估计量依然是无偏、一致且渐进正态
使用普通标准误的t检验、F检验失效
高斯马尔可夫定理不再是BULE(最佳线性无偏估计)
检验
画残差图
看残差与拟合值的散点图 rvfplot
看残差与解释变量的散点图 rvfplot 解释变量
这两个图对比,如果走势一致,扰动项的方差随观测值而变,表明可能存在异方差
BP检验
原假设:同方差
estat hettest,iid rhs(对所有解释变量进行BP检验)
estat hettest,iid (使用拟合值进行BP检验)
estat hettest lnq,iid (使用变量lnq进行BP检验)
若p值都很小,就强烈拒绝同方差原假设,即存在异方差问题
怀特检验
estat imtest,white
若p值很小(0.01/0.05/0.1懂吧),则拒绝同方差原假设,即存在异方差。
性质
优点
可以检验任何形式的异方差
缺点
解释变量越多,则解释变量的二次项越多,损失较多样本容量。
处理
OLS+稳健标准误(万金油)
reg y x1 x2 x3,r
最简单、最通用、更稳健,适用于一般情形
加权最小二乘法(WLS)
reg y x1 x2 x3[aw=1/var] (var是方差估计值)
有效率,但前提时知道每个个体的方差
给予方差较小的观测值较大的权重,先变为同方差,然后进行OLS估计
可行加权最小二乘法(特效药)
看不懂,但是应该比WLS更好,解决方法一般在1和3之间选。
在大样本下比OLS更有效率,,缺点时必须估计条件方差函数
自相关
含义
违反球形扰动项的一种情形,也叫序列相关,是一个信号于其自身在不同时间点的互相关。
性质
OLS估计量仍然是无偏、一致且渐近正态的
普通标准误的t检验、F检验失效
高斯马尔可夫定理不再成立,即OLS不再BLUE。
例子
时间序列数据中的自相关:
相邻两年的GDP增长率、通货膨胀率。意外事件或新政策的效应需要随时间逐步释放出来。最优资本存量需要通过若干年的投资才能逐渐达到。
横截面数据中的自相关:
相邻的省份、国家之间的经济活动相互影响。相邻地区的农业产量受到类似天气变化的影响。同一社区内的房屋价格存在相关性。
对数据的人为处理:
比如数据中包含移动平均值、内插值或季节调整
设定误差
检验
画图
计算残差(记为e1)及其滞后项 predict e1,r
将残差与残差滞后画成散点图 twoway scatter e1 l.e1 || lfit e1 l.e1
残差自相关图 ac e1
BG检验
estat bgodfrey,lags(p) nomiss0
laps(p)表示滞后阶数,nomiss0表示不加0的BG检验
看p值,原假设都是无自相关
Q检验
wntestq e1,lags(p)
corrgram e1,laps(p)
也是看p值,
DW检验
estat dwatson
DW=d=2(1-r^) 当d=2时,无自相关,当d=0时,正自相关 ;当d=4时,负自相关。(我也搞不懂这个,例题DW=1.02,是存在正自相关。可能是看算出来的ρ的正负号?)
处理
使用OLS+异方差自相关稳健的标准误(HAC稳健标准误) newey y x1 x2 x3,lag(p)
准差分法 prais y x1 x2 x3,corc (corc表示使用co估计法,如果没有corc 默认使用pw估计法)
广义最小二乘法(GLS)
修改模型设定
多重共线性
严格多重共线性:如果在解释变量中,有某一解释变量可由其他解释变量线性表出,则存在“严格多重共线性”
含义
在回归分析中,如果两个或两个以上的自变量之间存在相关关系,则存在多重共线性。
性质
OLS仍是BLUE,高斯马尔可夫定理仍然成立
整个回归方程的R^2较大,F检验显著,但单个系数的t检验不显著(R^2越高,解释变量与其他解释变量的多重共线性越严重,方差越大)
方差膨胀因子VIF越大,则多重共线性越严重,判断是否存在多重共线性,VIF的最大值应该不大于10
检验
回归之后 estat vif
若VIF小于10,则不存在多重共线性
处理
(1)如果不关心具体的回归系数,而只关心整个方程预测被解释变量的能力,通常不必理会多重共线性。(2)如果关心具体的回归系数,但多重共线性并不影响所关心变量的显著性,则可不理会。 (3)若影响到变量的显著性,应设法处理:增大样本容量、删除导致严重共线性的变量、将变量标准化、对面模型设定进行修改。(最常见的方法就是无为而治)
极端数据
定义
如果样本数据中的少数观测值离大多数观测值很远,他们可能对回归系数产生很大影响。这些数据称为“极端观测值”或“高影响力数据”
检验
对于一元回归可以画散点图来看是否存在极端观测值。
或者计算观测值的影响力(lev) (1) predict lev , leverage (2)然后 sum lev (3)计算lev的最大值对其平均值的倍数 dis r(max)/r(mean)
若 lev的最大值/其平均值 得到的值很大 ,则存在高影响力的极端观测值
处理极端数据
首先,仔细检查是否因数据输入有误而导致极端观测值
其次对出现极端观测值的个体进行背景调查,考察是否由与研究课题无关的特殊现象所致,必要时可以删掉极端数据。
最后,稳健的做法是同时汇报“全样本”,与删除极端数据后的"子样本"的回归结果,让读者自己判断。
虚拟变量
虚拟变量陷阱
定义
如果使用定性数据或分类数据,通常需要引入虚拟变量,即取值为0或1的变量。
优点
与邹检验相比,(1)只需生成虚拟变量即可检验,十分简便。(2)邹检验是在球形扰动项的假设下得到的,并不适用于异方差或自相关的情形。在异方差和自相关的情况下,可以使用虚拟变量法,只需在估计方程时使用稳健的HAC标准误。(3)如果存在结构变动,邹检验不提供究竟是截距项还是斜率变动的信息,但是虚拟变量法提供。
缺失数据
处理
线性插值 ipolate y x ,gen (newvar) 将变量y对变量x进行线性插值,并将插值结果记为新变量newvar。
内生性
含义
解释变量与扰动项相关
来源
遗漏变量误差、联立方程偏差(双向因果关系)、测量误差偏差
检验内生性问题
豪斯曼检验
reg y x1 x2
estimates store ols (存储OLS的结果,记为ols)
ivregress 2sls y x1(x2=z1 z2) (假设x2为内生变量,z1、z2为IV)
estimates store iv (储存2sls的结果,记为iv)
hausman iv ols , constant sigmamore (根据储存结果进行豪斯曼检验)
原假设:所有的解释变量都是外生变量,还是看P值,若p值很小,则拒绝原假设,那么就是存在内生变量啦。
解决内生性问题
工具变量法(即通过二阶段最小二乘法)
弱工具变量问题
如果工具变量和内生变量无关,则无法定义工具变量。如果工具变量与内生变量的相关性很弱,会导致估计量的方差变得很大,成为“弱工具变量问题”。 如果工具变量与内生解释变量仅微弱的相关,这种工具变量称为“弱工具变量”。
如果工具变量和内生变量无关,则无法定义工具变量。如果工具变量与内生变量的相关性很弱,会导致估计量的方差变得很大,成为“弱工具变量问题”。 如果工具变量与内生解释变量仅微弱的相关,这种工具变量称为“弱工具变量”。
reg y x2 x3,r
第一阶段回归: ( 引入工具变量x1 ) reg y x1 x2 x3,r
第二阶段回归: ivregress 2sls y x2 x3 (x1=z1 z2) , r first (假设z1 z2与x1外生,并与x1成正比) 若z1 z2 的p值都很小,则表示z1 z2可以很好的解释x1,即工具变量和内生解释变量相关
检验是否弱工具变量问题 estat firststage (F值大于10,则拒绝“存在弱工具变量”的原假设。)
过度识别检验 estate overid (看p值,若p值很小,则拒绝“所有变量都是外生的”原假设,则存在内生变量,即与扰动项相关)
第一阶段 用内生解释变量对工具变量回归 第二阶段 用被解释变量对第一段回归的拟合值进行回归
面板数据
含义
在一段时间内跟踪同一组个体
优点
可以解决遗漏变量问题
提供更多个体动态行为信息
样本容量较大
缺点
成本较大,不易获得