导图社区 计量经济学导论(伍德里奇)第七章:含有定性信息的多元回归分析:虚拟变量
这是一篇关于第七章:含有定性信息的多元回归分析:虚拟变量的思维导图,主要内容包括:政策分析和项目评价(自选择问题),二值因变量:线性概率模型LPM,虚拟变量的交互作用,使用多类别虚拟变量,只有一个虚拟变量的情况,对定性信息的描述。
这是一篇关于第五章:多元回归分析:OLS的渐进性(大样本)的思维导图,主要内容包括:拉格朗日乘数统计量(Lagrange Multiplier, LM),渐近有效性,渐进正态和大样本推断,一致性(consistency)。
这是一篇关于第四章:多元回归分析:推断的思维导图,主要内容包括:检验对多个总体参数的假设:F检验,检验对单个总体参数的假设:t检验,OLS估计量的抽样分布。
社区模板帮助中心,点此进入>>
英语词性
法理
刑法总则
【华政插班生】文学常识-先秦
【华政插班生】文学常识-秦汉
文学常识:魏晋南北朝
【华政插班生】文学常识-隋唐五代
民法分论
日语高考動詞の活用
第14章DNA的生物合成读书笔记
第七章:含有定性信息的多元回归分析:虚拟变量
对定性信息的描述
通常以二值信息的形式出现
二值变量
binary variable
0-1变量
zero-one variable
虚拟变量/哑变量
dummy variable
只有一个虚拟变量的情况
虚拟变量反映了两个特征分组,虚拟变量的系数反映了两个特征分组之间因变量的差异
虚拟变量陷阱
如果把两类都作为虚拟变量放入,则会产生多重共线性,也被称为虚拟变量陷阱
产生多重共线性的原因在于,两类虚拟变量和解释变量矩阵第一列的1会存在多重共线性,通过1和其中一个虚拟变量即可表示另一类虚拟变量,进而导致矩阵非满秩而不可逆,系数不可识别
去掉其中一个虚拟变量
推荐
去掉截距项
有重大缺陷
一般会考虑设置一个基组,该基组不设置虚拟变量表示,通过设置其他类别虚拟变量来与基组对比(系数解释也是参照基组)
使用多类别虚拟变量
基本操作
在多类别中选择一个基组,对其他类别设置虚拟变量,系数表示其他各类与基组之间的差别
含有序数信息
不能设置1、2、3、4
还应设置多个虚拟变量
虚拟变量的交互作用
虚拟变量之间的交互
通过两个虚拟变量的交互,可以直接实现之前四类三个虚拟变量的效果;多个虚拟变量交互类似
虚拟变量和非虚拟变量之间的交互
相当于默认存在一个斜率差异:即不同的类别组会有不同的斜率
检验不同组之间回归函数上的差别
F联合检验
原模型(约束模型)不含有类别变量,分组后模型增加类别变量及其与其他各个变量交互项(无约束模型),构造F统计量进行联合检验
邹至庄检验(邹至庄统计量)
对两组样本分别回归得到各自的SSR1和SSR2(相当于无约束模型),再将两组混合(约束模型)回归得到SSRp,构造F统计量
二值因变量:线性概率模型LPM
基本思想
因变量是一个二值变量,我们通常把因变量的概率设为y,进行回归
系数β反映了在其他因素不变的情况下,xj的变化导致成功概率的变化
缺陷及方法
缺陷:得到的拟合值y尖有可能<0或者>1,不符合概率公理
解决方法:找到一个分界点(比如0.5),y的拟合值大于临界值取1,否则取0 拟合优度:拟合值和实际值相符数量占全部数量的比重
缺陷:几乎必定存在异方差
政策分析和项目评价(自选择问题)
自选择问题
概念和表现
解释变量不是随机的,而是选择的结果,这个选择过程对研究主效应会存在偏差
个人自己选择加入某种行为或者项目,他的参与并不是随机决定的,可以理解为,有第三个因素决定了个体是否参与,在这样的情况下要单纯的研究该项目对他人的影响就失去意义(一般根据是否参与分为对照组和实验组,对照组和实验组的生成并不是随机的,而是有其他因素影响,此时要探讨政策的意义就没什么价值)
修正办法
PSM-DID
需要跟样本选择偏误区分开来
样本选择偏误是指研究中选择的样本并非完全随机
可见,自选择问题主要是模型设定上的问题,而样本选择偏误是样本的问题