导图社区 第十一章直线相关与回归
卫生统计学:SS总:为Y的离均差平方和,表示未考虑X与Y的回归关系时的总变异。SS回:在Y的总变异中可以用X解释的那部分,SS回越大,说明回归效果越好。SS残:剩余变异表示考虑回归之后真正的随机误差。在散点图中,各实测点离回归直线越近, SS残也就越小,说明直线回归的估计误差越小,回归的作用越明显。
这是一篇关于初中化学辅导思维导图,参考老师课程讲解的笔记;在期末复习的时候非常好用~
职业卫生与职业医学绪论思维导图,职业卫生学以前称劳动卫生学,曾是一门独立的预防医学分支学科,是以职业人群为主要研究对象,主要研究劳动条件对职业人群健康的影响,主要任务是识别、评价、预测、控制和研究不良劳动条件,为保护职业从事者健康、提高作业能力、改善劳动条件所应采取的措施提供科学依据。
常用的相对数指标及意义,定性资料的统计描述包含、率、构成比、相对比、相对危险度 相对数之比、比数比、率的标准化知识。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
直线相关与回归
两变量相关性分析
相关关系
非确定关系
当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关(correlation)。两个变量有共变现象,称为有相关关系。
相关关系不一定是因果关系
线性相关
将两变量置于直角坐标轴上,把其中一变量取作X, 另一个取作Y,据此在直角坐标系(X,Y ) 中标出对应的点来,这样的图形称作散点图。
相关的种类
正相关、负相关、零相关、非线性相关
关联强度指标
相关系数:Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与 相关方向(以符号r表示样本相关系数,符号ρ表示其总体相关系数)
r无量纲,且-1<r<1; r>0为正相关,r<0为负相关; ︱r︱越接近于1,说明相关性越好;︱r︱越接近于0,说明相关性越差.
相关系数的假设检验
目的:检验r是否来自总体相关系数ρ=0的总体,推断两变量的相关关系是否成立。
方法
查表法:自由度为n-2.
采用t检验
相关分析中注意的问题
进行相关分析前应先绘制散点图,当散点图有线性趋势时,再进行相关分析。 线性相关要求两个变量都是随机变量,而且仅适用于二元正态分布资料。 慎用相关。 相关关系是一种共变关系,不一定是因果关系。 分层资料盲目合并易出假象。
秩相关
适用条件
不符合双变量正态分布
总体分布型未知,一段或者两段是不确定数值的资料
原始资料用等级表示
指标
Spearman秩相关系数Rs,又称为等级相关系数
秩相关系数的统计推断
n>50时t检验
n<等于50时查表
分类变量的关联性分析
对定性变量之间的联系通用的方法是根据两个定性变量交叉分类基数所得的频数资料(列联表)作关联性分析,即关于两种属性独立性的卡方检验,然后计算关联系数。
列联系数介于0和1之间,其总体列系数的假设检验等价于关于两独立属性的卡方检验。
2×2配对资料的关联性分析
R×C表分类资料的关联性分析
简单回归分析
线性回归
概述:Y为因变量,反应变量;X为自变量,解释变量。直线回归的形式:
线性、独立、正态、等方差(LINE)
回归关系
散点图
线性回归模型:α 为回归直线的截距参数,为回归直线的斜率参数,又称为回归系数。 样本回归方程:是与X相对应的Y的总体均数的估计值;a与b分别为模型中参数α和β的估计值。截距b 的统计学意义是:X 每增加(减小)一个单位,Y 平均改变的单位数。
回归参数的估计
最小二乘法原则(least squares method),即各实测点至直线的纵向距离的平方和最小。
回归直线的适用范围一般以自变量的取值范围为限,谨慎外延。
回归直线的有关性质 1.直线通过均点 2.直线上方各点到直线的纵向距离之和= 直线下方各点到直线的纵向距离之和 即: 3.各点到该回归线纵向距离平方和较到其它任何直线者为小。(有且仅有一条)
统计描述
总体回归系数β的统计推断
方差分析
变异的分解,即对应变量Y的离均差平方和做分解
SS总:为Y的离均差平方和,表示未考虑X与Y的回归关系时的总变异。SS回:在Y的总变异中可以用X解释的那部分,SS回越大,说明回归效果越好。SS残:剩余变异表示考虑回归之后真正的随机误差。在散点图中,各实测点离回归直线越近, SS残也就越小,说明直线回归的估计误差越小,回归的作用越明显。
t检验
Sb为样本回归系数b的标准误; SY·X为回归残差的标准误(standard error of residual)。
F=t2,即直线回归中对回归系数的检验与检验等价,类似于两样本均数比较可以作检验亦可作方差分析。
对同一资料作总体回归相关系数的假设检验和作总体回归系数的假设检验可得: 所以,可用相关系数的假设检验来回答回归系数的假设检验的问题。
总体回归系数的β置信区间
决定系数
回归平方和与总平方和之比称为确定系数或决定系数(coefficient of determination) ,记为R2
R2取值在0到1之间,且无单位。用以反映线性回归模型能在多大程度上解释反应变量Y的变异性。对于Ⅱ型回归,可以证明,决定系数等于相关系数的平方,即R2 = r2。
R2=0.930,说明40-60岁健康妇女的体重信息大约可以解释自身基础代谢信息量的93%,还有剩余的7%的信息则通过体重以外的其他因素来解释。
线性回归的应用
统计预测
Y的总体均数的区间估计 给定X=Xp时,Yp的总体均数的点估计为:可以证明,其标准误为: 则其(1-α)置信区间为
个体Y值的预测区间 总体中,当Xp为某一固定值是,个体Y值围绕着对应于Xp的 波动, 个体Y值的标准差为: 个体Y值的预测区间(参考值范围)为:
预测带
用同样的方法,可计算出对应于所有X值的Y的预测区间,以相应的X为横坐标, Y为纵坐标,将预测区间的上下限分别连起来形成的两条弧形曲线的区域称为Y值的预测带(prediction band)。
置信带
用同样的方式,可计算出对应于所有X值的Y的总体均数的置信区间,以相应的X为横坐标, Y为纵坐标,将置信区间的上下限分别连起来形成的两条弧形曲线的区域称为回归直线的置信带(confidence band)。
均数 点处置信带宽度最小,越远离该均数点,置信带宽度越大。
(1-α)置信带的意义是:在满足线性回归的假设条件下,可以认为真实的回归直线落在两条弧形曲线所形成的区带内,其置信度为1-α
统计控制
统计控制(statistical control)是利用回归方程进行逆估计,即若要求因变量Y在一定数值范围内变化,可以通过控制自变量X的取值来实现。
残差分析
观测值Yi与回归模型拟合值之差
残差分析(residual analysis)旨在通过残差分布深入了解实际资料是否符合回归模型假设,识别异常点等
以反应变量取值Y为横坐标,以标准化残差为纵坐标,构成的散点图就是标准化残差图
非线性回归
直线相关