导图社区 计量经济学第二章 一元线性回归模型
此思维导图对应大学教材《经济计量学(第二版)》——李占风,胡淑兰著,内容为第二章与一元线性回归模型相关的内容
编辑于2023-08-21 11:13:07 河南金融工程学第三章—远期和期货思维导图,概括了衍生品定价原理、远期和期货价格的确定、远期和期货的应用等详细知识点。
投资组合理论是指投资者将资金分散投资于多个不同的证券(如股票、债券等),以期望通过组合的方式降低整体风险并获取稳定收益的理论。通过数学方法量化了风险和收益的关系,为投资者提供了有效的投资组合构建策略。
互换与互换市场,互换(SWAP,也称掉期),是指两个或两个以上当事人按照约定条件,在约定的时间内交换一系列现金流的合约。在合约中,双方约定现金流的互换时间及现金流数量的计算方法。互换交易的本质是一种远期合约,建立在平等基础上,以交换双方互利为目的。
社区模板帮助中心,点此进入>>
金融工程学第三章—远期和期货思维导图,概括了衍生品定价原理、远期和期货价格的确定、远期和期货的应用等详细知识点。
投资组合理论是指投资者将资金分散投资于多个不同的证券(如股票、债券等),以期望通过组合的方式降低整体风险并获取稳定收益的理论。通过数学方法量化了风险和收益的关系,为投资者提供了有效的投资组合构建策略。
互换与互换市场,互换(SWAP,也称掉期),是指两个或两个以上当事人按照约定条件,在约定的时间内交换一系列现金流的合约。在合约中,双方约定现金流的互换时间及现金流数量的计算方法。互换交易的本质是一种远期合约,建立在平等基础上,以交换双方互利为目的。
计量经济学第二章 一元线性回归模型
回归分析和回归函数
相关分析与回归分析
经济变量间的相互关系
确定的函数关系
不确定性的统计关系(u为随机变量)
没有关系
相关关系
类型: 简单相关、多重相关和偏相关; 线性相关和非线性相关; 正相关、负相关和不相关
描述
最直观:散点图(坐标图)
度量——相关系数
总体和样本
总体线性相关系数
样本线性相关系数
注意事项: 1.X和Y都是相互对称的随机变量 2.线性相关系数只能反映变量之间的线性相关程度,不能说明非线性关系 3.样本的相关系数只是总体的相关系数的估计值,由于抽样波动,是一个随机变量 4.相关系数只能反映线性相关程度,不能确定因果关系,不能说明相关关系具体接近哪条直线
回归分析
意义 古典:高尔顿遗传学 现代:研究被解释变量对解释变量的依赖关系;目的:由给定的解释变量估计被解释变量的总体均值
概念
Y的条件分布:当解释变量X取某固定值时(条件),Y 的不同取值形成一定的分布,即Y的条件分布。
Y的条件期望
回归线:对每个X的Y的条件期望的点的轨迹
回归函数:把Y的条件期望表示为X的某种函数
总体回归函数和样本回归函数
总体回归函数(PRF)
概念 前提:已知Y和X的每个观测值,并可以计算出总体因变量Y的条件均值,并将其表示为解释变量X的某种函数
表现形式
条件均值表现形式
个别值表现形式
理解
实际经济研究中,总体回归函数通常未知,只能根据经济理论和实践经验设定。 “计量”的目的:寻找PRE
Y与X的关系可以是线性or非线性的
线性的两种解释: 1.对变量X而言是线性的(Y的条件均值是X的线性函数) 2.对参数β来说是线性的(Y的条件均值是β的线性函数)
线性的判断
线性回归模型中,主要指就“参数”而言是线性的 原因:模型主要是对参数的估计
随机扰动项u
概念:各个Yi与条件均值的偏差ui,代表排除在模型外的所有因素对Y的影响
性质:期望为0,有一定分布的随机变量
重要性:随机扰动项的性质决定着计量经济方法的选择
引入原因
● 未知影响因素的代表 ● 无法取得数据的已知影响因素的代表 ● 众多细小影响因素的综合代表 ● 模型的设定误差 ● 变量的观测误差 ● 变量内在随机性
样本回归函数(SRF)
样本回归线:取得一定的Y的样本观测值的条件均值的轨迹; 样本回归函数:
特点
不唯一:样本回归线随抽样波动而变化
样本回归函数的函数形式应与设定的总体回归函数的函数形式一致
样本回归线不是总体回归线,至多只是未知总体回归线的近似表现
表现形式
剩余项or残差项 ei=Y的实际观测值-样本条件均值
理解
样本回归函数和总体回归函数的关系
分析样本回归函数的目的
用SRF估计PRF,但样本对总体总是存在代表性误差
解决的问题: 怎样使SRF的参数尽可能接近总体回归函数的参数; 最常用的是最小二乘法
回归模型参数的估计
一元线性回归的基本假定
做基本假定的原因: 1.回归分析的目的不仅是得到参数的估计值,更要知道估计值接近真实值的程度, 对真实值做出推断;就需要对模型中数据的产生方式做出假定,即对ui和Xi作出假设 2.只有在这些假定条件满足时,普通最小二乘估计量才是最优的,否则将不再适用
内容
对随机扰动项u的假定
1.零均值;条件期望为0 2.同方差假定;给定Xi时,ui的条件方差为常数σ^2 3.无自相关假定;随机扰动项ui的各次观测值互不相关 4.ui和Xi不相关 5.对随机扰动项分布的正态性假定(ui服从均值为0,方差为σ^2的正态分布)
对模型设定和变量的假定
6.正确设定模型;模型无偏误 7.解释变量X是随机的 8.对于多元回归模型,解释变量之间无完全的多重共线性
Y分布的性质
ui的分布性质决定了Yi的分布性质
1.零均值假定(貌似不是0呢) 2.同方差假定 3.无自相关假定 4.正态性假定
普通最小二乘法(OLS)
基本思想 理想的估计方法:应使Yi与Yi的估计值的差,即剩余项(残差项ei)越小越好; 又ei可正可负,所以可以取ei的平方和最小
正规方程组和估计量 (解方程求得β1、β2的估计量)
OLS回归线的性质
1.回归线通过样本均值点; 2.估计值Yi的均值等于实际观测值Yi的均值; 3.剩余项ei的均值为零 4.解释变量Xi和剩余项ei不相关 5.因变量估计值Yi和剩余项ei不相关
参数估计量的统计性质
参数估计量的评价标准
无偏性
前提:重复抽样中估计方法固定、样本数不变、经重复抽样的观测值,可得一系列参数估计值
参数估计量的分布称为其抽样分布
有效性
前提:样本相同、用不同的方法估计参数, 可以找到若干个不同的无偏估计量 目标:努力寻求其抽样分布具有最小方差的无偏估计量——最小方差准则,或称最佳性准则
有效估计量(最佳无偏估计量):既是无偏的同时又具有最小方差
渐进性质(大样本性质)
思想:当样本较小时,很难找到最佳无偏估计,需要考虑样本扩大后的性质;分析样本扩大后,性质是否改变
一致性
当样本容量n趋于无穷大时,β的估计量依概率收敛于总体参数的真实值
渐进无偏性:样本容量无穷大时,均值系列趋于总体真值。
渐近有效性:样本容量无穷大时,它在所有的一致估计量中具有最小的渐近方差。
OLS估计量的统计性质
1.β的估计量由Xi和Yi唯一表示
2.β的估计量是随机变量
3.OLS估计量是点估计量
最小二乘估计量的性质
高斯—马尔可夫定理:在给定经典线性回归模型的假定下,最小二乘估计量是最佳线性无偏估计量。(best linear unbiased estimator, BLUE)
1.它是线性的,即它是回归模型中的被解释变量Y 的线性函数。 2.它是无偏的,即它的均值或期望值等于其真值 。 3.它在所有这样的线性无偏估计量中具有最小方差。具有最小方差的无偏估计量叫做有效估计量。
线性性
β2的估计量是Yi的一个线性函数,是以ki为权重的加权平均数,同理β1的估计量也是线性估计量
无偏性
两个参数的估计量的平均值等于总体真实值; 每次不同的样本可能得到不同的参数估计值,但是平均起来等于真实值
方差最小
(1)最小二乘估计的方差与标准误
普通最小二乘估计量β1和β2的方差代表了估计参数的估计精度
影响因素: 1.随机误差项的方差σ2 2.Xi的总变异
前提假设为:同方差和无序列相关
标准误
(2)σ2的最小二乘估计量
影响参数估计量的方差的因素除σ2外都是已知的。而通常误差项的方差σ2是未知的,只能通过观测数据去估计σ2
区分误差(总体回归模型)和残差(样本回归模型)
估计σ2
而ui不可观测,故用ei代替,但是得到的估计量是有偏的
σ2的无偏估计量
回归的标准误:是对影响Y的不可测因素的标准误的估计量
β1、2的标准误
可以证明,在满足经典假定条件下,普通最小二乘估计量是所有线性无偏估计量中方差最小的。
拟合优度的度量
概念
拟合优度:样本回归线对样本观测数据拟合的优劣程度; 建立在对总变差分解的基础上
总变差的分解
Y的观测值、估计值和平均值的关系
两边平方加总
总变差
(TSS):应变量Y的观测值与其平均值的离差平方和(总平方和)
解释了的变差
(ESS):应变量Y的估计值与其平均值的离差平方和(解释平方和)
剩余平方和
(RSS):应变量观测值与估计值之差的平方和(残差平方和)
可决(判定)系数
解释平方和(ESS)在总平方和(TSS)中所占的比重称为可决系数,用R^2表示
作用:可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。
特点
●可决系数取值范围0~1; ●随抽样波动,样本可决系数是随抽样而变动的随机变量; ●可决系数是非负的统计量;
可决系数和相关系数的关系
联系
一元线性回归方程中
区别
注意事项
● 可决系数只是说明列入模型的所有解释变量对因变量的联合影响程度,不说明模型中每个解释变量的影响程度(在多元中) ● 建模的主要目的如果是分析经济结构,不是只追求高的可决系数,而是要得到总体回归系数可信的估计量,可决系数高并不表示每个回归系数都可信任 ● 如果建模的目的只是为了预测因变量值,不是为了正确估计回归系数,一般应需要有较高的可决系数
回归系数的区间估计和假设检验
区间估计的原因:OLS只得到点估计,不一定为真实参数,要找到真是参数的可能范围,并说明其可靠性
假设检验的原因:OLS估计只是样本估计的结果,是否可靠有待统计检验
OLS估计量的分布性质
基本思想: βj的估计量是随机变量,必须确定其分布性质才能进行区间估计和假设检验; ui服从正态分布→Yi服从正态分布→βj的估计量服从正态分布(因此只需确定其均值和方差)
β估计量的期望和方差
对随机扰动项σ2的估计
σ2的无偏估计量(n-2为自由度,即可自由变化的样本观测值个数)
将β的估计量作标准化变换
σ2已知时
σ2未知时
样本为大容量时,用估计的参数标准误做标准化变换,所得的Z统计量仍可视为标准正态变量
样本为小容量时,应该用σ2的估计量代替σ2。 所得的t统计量不再服从正态分布,而是服从t分布
回归系数的区间估计
置信区间:围绕点估计量构造一个区间; 置信系数(置信水平):1-α 显著性水平:α 置信上限&置信下限
正确理解
1.每个区间是一个随机区间,它随着样本的不同而不同; 2.对于多次抽样,平均地说,这些区间有100%(1-α)包含真实参数β2; 3.置信区间并非是说β2落入该界限内的概率是1-α,β2是确定的,没有概率一说;式子的意义为:用随机样本估计参数构造的区间包含β2的概率为1-α
回归系数区间估计的方法
一般情况下,总体方差未知,用无偏估计代替。 统计量不再服从正态分布(样本容量较小),用t分布建立置信区间
选定α→查t分布表(注意显著性水平为α/2,自由度为n-2)临界值
即
回归系数的假设检验
基本思想:判断某一特定观测或发现是否与某一声称的假设相符。如果相符就不拒绝这一假设,如不相符就拒绝这一假设。 如果观测结果在一定统计原则下不矛盾,就不拒绝原假设 如果相互矛盾,就拒绝原假设
基本概念
原假设(虚拟假设)H0,一般设为
备择假设H1,一般为
t值:一个统计量,服从t 分布
t的置信区间
置信区间为原假设的接受域;置信区间外的区域称为原假设的拒绝域
随着β的估计值远离要检验的β,t的绝对值将越来越大,原假设的可信程度降低
t统计量的绝对值大于临界值时,拒绝原假设。 临界值来自于t分布表,数值大小取决于自由度和α(愿意接受Ⅰ类错误的概率)
t检验
使用t分布对回归系数进行假设检验
统计量的值落在拒绝域内,称统计量在统计上是显著的,同时拒绝原假设 统计量的值落在接受域内,称统计量在统计上是不显著的,同时不拒绝原假设
回归系数的检验方法
在经典回归分析中,回归系数显著性的判断一般采用t检验; 如果X对Y的线性影响是显著的,则β2≠0;若X对Y的影响不显著,则β2=0
t检验决策规则
1.设定假设
2.计算原假设条件下的t统计量
3.在给定显著性水平α的条件下,查表得临界值
4.判断
t检验的相关问题
1.显著性水平α 显著性水平即第Ⅰ类错误的概率(拒真概率),α越小,临界值越大,犯Ⅰ类错误的概率越小
2.实际显著水平P值 在原假设条件下计算出检验统计量(t统计量)后,可查表得到更极端的概率,称为P值,即为实际的显著性水平
用P值判断显著性水平: P值小于α,则在显著性水平α下拒绝原假设H0,认为X对Y有显著影响; P值大于α,则不拒绝原假设 规则:当P<α时,P值越小,越能拒绝原假设
3.“2倍t”和“5%P值”简算法
一般地,在5%显著性水平下,当样本容量较大时(n≥30),只要t的绝对值大于2.0,就将回归系数判定为显著。(多元回归时可以使用)
原理:5%显著性水平下,如果n≥30(自由度≥28), 此时的临界值四舍五入都等于2.0 样本较小时不可使用;还要关注α是否为5%