导图社区 数据关联的探索
这是一篇关于数据关联的探索的思维导图,包括数据的关联、散点图、回归现象、相关与回归的陷阱、分类变量的相关、关联与因果等内容。
这是一篇关于初中化学辅导思维导图,参考老师课程讲解的笔记;在期末复习的时候非常好用~
职业卫生与职业医学绪论思维导图,职业卫生学以前称劳动卫生学,曾是一门独立的预防医学分支学科,是以职业人群为主要研究对象,主要研究劳动条件对职业人群健康的影响,主要任务是识别、评价、预测、控制和研究不良劳动条件,为保护职业从事者健康、提高作业能力、改善劳动条件所应采取的措施提供科学依据。
常用的相对数指标及意义,定性资料的统计描述包含、率、构成比、相对比、相对危险度 相对数之比、比数比、率的标准化知识。
社区模板帮助中心,点此进入>>
英语词性
法理
刑法总则
【华政插班生】文学常识-先秦
【华政插班生】文学常识-秦汉
文学常识:魏晋南北朝
【华政插班生】文学常识-隋唐五代
民法分论
日语高考動詞の活用
第14章DNA的生物合成读书笔记
数据关联的探索
数据的关联
需要定量的描述和刻画两个变量的关联。
(1)两变量是否真的存在关联。 (2)两变量的关联方向和关联强度。 (3)两变量间的数量依存关系。 (4)两变量的关联关系中是否受到其他因素的影响和干扰。
散点图
制作:利用平面坐标显示两个定量变量之间的关系,其中一个变量对应横轴,另一个变量对应纵轴,根据每个观测单位的两个变量值可确定该点的坐标。
评价散点图(1)观察图的总体趋势和明显偏离该趋势的观测单位。 (2)通过散点图的总体趋势来呈现关联的形式、方向和密切程度。
散点图解释 (1)散点呈现??趋势。 (2)两变量同时增大或减小,即呈正相关。
应用
相关
正确描述不同类型数据的相关关系
直线相关系数
含义:直线相关系数用于衡量两个变量之间线性关系的方向和密切程度,通常记作r
公式:
强度与方向:r在(-1,1)之间,越接近0说明相关性越弱,r>1正相关,r<1负相关
注意事项
直线相关要求两个变量均为定量变量
r的计算去掉了量纲的影响,本身没有单位,只是一个数值
直线相关只能衡量两个变量线性关系的方向和密切程度,而不能描述其他情形的关系,如曲线关系。
相关系数受离群点的影响,当散点图中出现离群点时慎用
相关无需特别区分反应变量和解释变量
秩相关系数
应用条件
两变量其中有一个变量为等级变量或者无法用均数和标准差描述其分布特征,如两端存在不确定值或者不满足单峰对称分布。
计算过程
从小到大编秩(相持时取平均值)
分别计算均数和标准差
最后将秩次带入直线相关系数的计算公式。
注意
异常点敏感
不能随意合并
回归现象
回归直线的拟合
关注两个变量之间的数量依存关系时,两变量角色不再对等,便有了反应变量与解释变量的区分。
x:解释变量未解释或者引起反应变量改变的变量,y:反应变量是对研究结局的测量
F.Galton
基本概念
描述fan'ying'bi反应变量y如何随解释变量x改变而改变的直线称为回归直线(regression line)
回归方程:
Ŷ为X值处Y的估计值,a为回归直线在y轴上的截距,b为斜率,表示当x每改变一个单位y的改变量
总体回归系数为β
求解回归方程方法:最小二乘法
思想:找到一条尽可能靠近所有点的直线,即使拟合直线与数据点的纵向差距的平方和最小
回归方程的建立、解释与评价
回归方程的解释和残差
解释
a为回归直线在y轴上的截距,b为斜率,表示当x每改变一个单位y的改变量
残差与残差图
残差=观测值-预测值,反映的是变量的观测值与基于回归直线的预测值之间的差异。
残差图是相对与解释变量的散点图,以0水平线作为参照,直线与散点的接近程度越好的残差图呈现一条无规律且集中于0的水平带
1)最小二乘法回归直线的斜率和截距取决于测量值的单位,不能仅凭它们的大小判断其影响大小。
2)用回归直线进行预测时,需注意回归直线概括了整体趋势,给出的预测值也是对整体趋势的一个预测,并不一定完全准确。
决定系数与相关
决定系数:相关系数的平方
意义:在反应变量y的总变异中,r2表示用y和x的最小二乘法回归关系所能解释的比例,可以反应回归拟合的实际效果。
相关与回归的陷阱
离群点与强影响点
离群点是指处于其他观测值总体趋势以外的观测值
强影响点是指会对统计计算造成较大影响的观测值,如果将其剔除,会式计算结果明显变化
判断
离群值需要区分方向。因此离群点不一定是强影响点
想评价一个可以观察点对回归直线的影响,可在包含该可疑观察点和去除此可疑点这两种情况下做回归分析
观测值范围
变量的取值范围变异太小将影响相关关系的强度,导致建立的关联性不稳定
外推:即利用现有的解释变量x值获得的回归直线,来预测那些超出现有解释变量x值范围的反应变量y值,需要谨慎。
非线性关联
有些时候通过散点图,我们发现两变量间存在某种趋势,但是这种趋势不是线性的。这时可以采用数据转换将非线性数据转换后得到线性关联
潜在影响变量
探索两变量间的关联性时,单独分析发现存在关联或无关联,但以变量的某种属性进行分层分析即引入第三变量分层时,再分析原来两个变量的关系,原有的关联会在某些层内发生某些变化甚至方向相反,这个第三变量就是潜在影响变量。
平均数的相关
基于大量个体平均值的相关强度通常要高于基于相同变量的个体数据之间的相关强度。
分类变量的相关
交叉表的制作
条件分布与关联
条件分布 在设定一个变量取值的条件下,计算另一个变量取值的分布,所得到的分布就是条件分布(conditional distribution)。
关联
Pearson 列联系数
两分类变量的关联性
分类变量相关分析的陷阱
要注意潜在的影响变量,单独分析两变量和按潜在影响变量分层后再分析两变量,原有的关联会在某些层内发生变化,有时甚至方向发生反转,例如辛普森悖论(Simpson’s paradox)
关联与因果
关联中因果、共变与混杂
虚线双箭头表示存在关联,实线箭头表示有因果关系。A:动物实验中黄曲霉毒素可诱发小鼠肝癌,B乙脑发病率与冷饮销量,C吸烟与肺癌关联
因果的确定
因果确定最直接有效的方法是实验,但是人群研究涉及伦理,实验往往不可行。
运用统计分析方法说明因果关联存在争议,但在满足某些条件时,仍可提示因果关系,如吸烟与肺癌关联的经典例子