导图社区 人卫第8版《卫生统计学》——第二章《数据关联的探索》
本思维导图为人卫第8版《卫生统计学》第二章《数据关联的探索》的内容,本章的学习重点主要用:1、”最小二乘法“的思想,该问题涉及第十一章直线相关与回归的推断中回归系数的方差分析,本章只需简单理解2、”回归方程的解释及残差、残差图“,学习时结合第十一章综合学习3、”Pearson里列联系数“在本章只需简单知悉两分类变量的关联性一般采用Pearson列联系数即刻,具体计算方法和公式,学完卡方检验和直线相关与回归再来熟悉
编辑于2022-08-04 17:49:35 广东社区模板帮助中心,点此进入>>
第二章 数据关联的探索
散点图的解释与用途
定性,散点图的直观感受关联性的强弱有时并不可靠,受坐标轴的设置的影响
定义:利用平面坐标显示两个定量变量之间的关系,散点图中的点与数据中观测单位一一对应
评价散点图
观察其总体趋势和明显偏离该趋势的观测单位
eg.线性趋势
为明确这种关系,可以拟合一条直线来反映这种趋势(在回归现象中会介绍)
通过散点图的总体趋势来呈现关联的形式、方向和密切程度
正向关联
负向关联
一般而言,两变量之间关系的强度是通过散点图中数据点靠近直线趋势的程度来反映
相关系数的计算及解释
定量的数值指标刻画关联性的强度与指标
相关:如果x和y具有某种共同的变化趋势,则称两个变量存在相关
最常见:直线相关
直线相关系数
两个定量变量
Pearson直线相关系数(r)
构建
方向:(xi-x-)(yi-y-)的符号来反映正/负相关关系
强度
两变量距离其中心位置越远,则乘积越大,表示强度越大
计算时需要消除量纲的影响,采用除以s(标准差)的形式去除
为了刻画整体趋势,进行求和并平均【÷(n-1)】
解释
用于衡量两个定量变量之间线性关系的方向和密切程度
方向
r为正表明正相关,r为负表明负相关
强度
取值在[-1,1]
r越接近0线性关系弱
r越接近1或-1,关系的密切程度增高
只有散点图中所有点恰好落在一条直线上时,才会出现极端值1或-1
注意
两变量均为定量变量
只衡量两个变量之间线性关系的方向和密切程度,而不能描述其他情形的关系,如曲线
r本身没有单位,只是一个数值
与均数一样,受离群点的影响,当出现离群点时,应慎用相关
给出相关系数时,还应给出两个变量的均数和标准差
秩相关系数
有一个变量为等级变量或 无法用均数和标准差描述其分布时
Spearman秩相关系数(rs)
等级相关系数
构建
等级变量中仍然有顺序信息,保留其大小次序的信息,仍利用直线相关系数的计算公式进行运算,只是计算基于原始数据的次序信息、
秩、秩次:将数据从小到大进行统一排序,排序的结果成为秩
x,y均要计算秩次吗?
相持:排序时,出现数据相等从而造成秩次相同的现象,此时则计算平均秩次为其秩次
含义
与直线相关系数完全相同,主要用来描述存在等级变量或者无法用均数和标准差描述其分布特征时两个变量间关联的程度与方向
相关分析都没有区分反应变量与解释变量,但其不排斥将两个变量认定为反应变量与解释变量,可根据专业知识和常识判断
最小二乘法思想
一些概念
反应变量(结局变量):研究结局的测量
解释变量:解释或者引起反应变量改变的变量
取决于对问题本身的认知以及研究目的
回归直线:描述反应变量y如何随解释变量x改变而改变的直线,常用于预测一个给定x值条件下的y值大小
回归方程:刻画回归曲线的方程。拟合的回归方程能简洁地描述反应变量y对解释变量x的数量依存关系,这种数值化概括时对散点图的定量补充
最小二乘法
目的:得到一条回归线使拟合直线与数据点的差距的平方和最小,即尽可能靠近所有点的直线
b1=r*(sy/sx),b0=(y-)-b1(x-)
b1是有量纲的值
最小二乘法是最常用的拟合回归直线的方法
注意
相关系数与斜率有密切关系,斜率表示回归直线上x每改变1个标准差,对应的y就会改变r个标准差。
最小二乘法是以b1=r*(sy/sx)为斜率通过((x-),(y-))的直线,我们可以基于最基本的描述统计量(x-)、sx、(y-)、sy、r来计算回归方程
在回归中解释变量和反应变量的区分是十分重要的
因为在运用最小二乘法思想求回归系数时,我们只关注y方向上的点到直线的纵向距离
回归方程的解释及残差、残差图
斜率与截距
斜率b1是y随解释变量x改变的改变量,是定量描述两变量间关系的重要数值指标
当改变变量的单位时相关系数不会改变,但最小二乘法回归直线方程会随之改变
最小二乘法回归直线的斜率和结局与测量值的单位有关,不能仅凭它们的大小判断其影响大小
回归系数也是有单位的值,他的单位时y/x
回归直线概括了整体趋势,给出的预测值也是对整体趋势的一个预测,并不一定完全准确
残差
定义:变量的观测值与基于回归直线的预测值之间的差异,即残差=观测值-预测值
误差:是观测值与真实值的偏离
残差:是观测值与拟合值的偏离
残差图
定义:是残差相对于解释变量或反应变量预测值的散点图
可以帮助我们评价回归直线与散点的接近程度
如果回归直线能够完全拟合数据,则残差应为0
直线与散点的接近程度较好的残差图应呈现为一条无规律且集中于0 的水平带
残差不均匀分布于0水平线附近,说明回归直线拟合效果不好,即不适合拟合该数据
回归直线拟合效果评价
定性?直观感受
相关与回归的关系
相关系数用于刻画两个定量变量间的直线关系的方向和强度,不需要区分反应变量与解释变量
在进行回归分析之前,首先确定两个变量之间存在一定的相关性(无相关,不回归)
当研究更关注两个变量之间的依存关系时,此时两个变量不再对等,有了反应变量和解释变量之分
举例:肥胖和心理健康关系的研究
相关:用于了解肥胖与心理健康之间的关联情况
回归:用于根据现有肥胖数据预测心理健康水平,解释肥胖对心理健康的影响
决定系数与相关
决定系数:在反应变量y的总变异中,r^2表示用y和x的最小二乘法回归关系所能解释的比例
作用
其大小能还能衡量相关关系的强度
可以反映回归拟合的实际效果
定量
计算:r^2=预测值的方差/观测值的方差(可用回归方程计算出预测值,然后再计算预测值的方差)
解释:在反应变量的变异中,有r^2的变异可以用y与x的直线关系来解释
Pearson列联系数
两变量均为分类变量
概念
联合分布:两个分类变量的所有单元格的构成比组成了这两个分类变量的联合分布
边缘分布:交叉表中单个变量的分布
条件分布:在设定一个变量取值的条件下,计算另一个变量取值的分布,所得到的分布就是条件分布
交叉表(列联表)的制作
一般将解释变量作为列变量,反应变量作为行变量
计算:r=根号(卡方/(卡方+n))
取值范围:[0,1)
右边是开区间!
分类变量相关分析的陷阱
潜在影响变量
辛普森悖论
补充
数据关联的含义
是否存在关联
什么关联方向
关联强度有多大
用相关及其对应的数值指标去定量反映和刻画两者的关系
一个变量对另一个变量的影响程度
采用回归刻画两个变量之间的数量依存关系
是否受其他因素的影响
下结论须谨慎
逻辑
含义:两组或多组数据之间存在的某种联系
举例
两个变量:学习成绩、学习努力程度
第一阶段:两者是否有关联,什么关联方向,关联强度有多大。(相关系数:正负、大小)
第二阶段:学习努力能在多大程度上提高学习成绩(回归:反应变量与解释变量,直线回归方程)
第三阶段:其他因素的干扰,如学校教学质量,老师教学风格(关联与因果:不同关联模式)
相关与回归的陷阱
离群点与强影响点
离群点:是指处于其他观测值总体趋势以外的观测值。离群点需区分方向,可能存在x方向的离群点或y方向的离群点。x方向的离群点未必在y方向上有很大的回归残差
与斜率大小有关
因为最小二乘法回归只关注y方向上点到直线的纵向距离,变量x和y在回归中的作用不同
因为我们预测的是y,所以我们更关心y方向上的残差
强影响点:是指会对统计计算造成较大影响的观测值,如果将其剔除,会使计算结果明显变化
影响拟合直线的斜率
若想评价一个可疑观察点对回归直线的影响,可在包含该可疑观察点和去除此可疑观察点,这两种情况下做回归分析
评价
在x方向上的离群点更容易对回归直线造成影响
在y方向上的离群点对直线的影响大小取决于其他数据点在构建直线关系时的影响强弱
是否为强影响点,仍需要从统计计算结果来看
观测值范围
影响相关关系的强度
eg选取某小学同一年级的学生/选取某小学一到六年级的学生,建立回归方程预测年龄与身高,哪个更可靠?
外推预测受到限制
外推:利用现有的解释变量x值获得的回归直线,来预测哪些超出现有的解释变量x值范围的反应变量y值的情况
不能保证超出数据范围的数值,变量间是否具有同样的线性关系
变量的取值范围变异太小会影响到两个变量的关联(主要是x 的变异范围)
非线性关联
数据转换:对于非线性关联的数据,可以采用数据转换将非线性数据转换后得到线性关联,从而使回归方程的关系更趋近线性,以便利用线性回归的方法进行分析
对数转换分析
应用于变量值均为正,但变异呈指数级变化的数据
注意在解释结果时,应在转化后的数据尺度下进行
可以直接拟合曲线
潜在影响变量
变量间的关联性在不同情形下表现可能不一致,如笼统分析时发现存在关联或无关联,此时以第三个变量进行分层分析时,再分析原来两个变量的关系,可能会出现另一种情形,即原有的关联会在某些层内发生变化甚至方向相反
有时我们面临的第三个变量可能不是一个分类变量,而是一个定量变量,此时我们可以采用将定量变量转化为分类变量,如高中低等情况。
平均数的相关
基于大量个体平均值的相关强度通常要高于基于相同变量的个体数据之间的相关强度
如绘制区县级的某年龄段儿童平均身高与年龄(以月份为单位)之间的关系,会看到二者呈正相关,且r接近于1。但年龄相同的儿童的身高存在很大的差异,儿童个体身高于年龄的关系图会显得更加分散,而且相关系数也会更小。
观测单位:平均值vs个体值
注意:根据实际问题即研究目的明确变量和观测单位十分重要
关联与因果
常见的关联模式
因果
最好的也是最有说服力的方法就是实验
共变
观察到的变量x和变脸y的关联实际上是由另一个影响变量z引起的,即使这两个变量没有直接的因果关系,共同的影响变量z也会让变量x和变量y存在一定的共变关系
eg.由于夏季高温,造成乙脑发病率与冷饮销量同时上升从而呈较强的正向关联
混杂
本章逻辑
第一章(数据分布)
单个变量的描述
定量变量
初步描述:频数分布表、直方图
定量描述:集中位置、变异程度、箱式图
分类变量
三类统计图
第二章(数据关联
两个或多个变量的描述
定量变量
初步描述:散点图
定量描述
相关系数
定量变量:直线相关系数
等级变量:秩相关系数
相关与回归的陷阱
回归直线
分类变量
Pearson列联系数
条件分布
描述两分类变量的关联情况
分类变量相关分析的陷阱