导图社区 统计学思想脑图
这是一篇关于统计学思想的思维导图,内容包括反事实因果推理、超参数化模型和正则化、多层模型、泛型计算算法、鲁棒推理、自适应决策分析、思想的关联与交互等。
编辑于2021-07-20 21:19:37过去50年 最重要的 统计思想
反事实因果推理
从反事实或可能得到的结果的层面上对因果问题进行建模,这相较于之前没有明确区分描述性推理和因果推理的标准方法是一个巨大的飞跃
统计学
在统计学领域中,出现了一系列有关匹配和其它调整并衡量实验组和对照组之间差别的方法;
计算机科学
在计算机科学领域中,涌现出有关多维因果归隐模型的研究工作。
计量经济学
在计量经济学领域中,人们主要关注对线性模型的因果估计的可解释性;
心理测量
心理学家已经意识到交互和各种处理效应的重要性;
流行病学
在流行病学领域中,人们主要关注基于观测数据的推理;
围绕着因果推理
对观测推理的因果解释
认识到关联关系并不意味着因果关系
核心的思想在于,在某些假设情况下, 我们可以识别出因果关系,而且我们 可以严谨地声明这些假设,并且通过 设计和分析以各种方式解决它们
基于bootstrapping (自助抽样法)和 基于模拟的推理
计算资源的增加也使得其它重采样和基于模拟的方法流行了起来。 在置换检验中,我们通过随机打乱排列真实值(target)来打破预测值和真实值之间的依赖关系,从而生成重采样数据集。参数化的bootstrap、先验和后验预测检查、基于模拟的校正都是根据模型创建了复制数据集,而不是直接从数据中重采样。在分析复杂模型和算法时,根据已知的数据生成机制采样的做法往往被用于创建模拟实验,用于补充或替代数学理论。
刀切法
交叉验证
其思想是将估计值视为数据的一个近似的充分统计量,并将自助分布视为对数据的采样分布的近似
推崇将预测和重新抽样作为基本原则, 可以推导出诸如偏差校正和收缩等统计学操作
充足的计算资源也起到了帮助作用,使得对许多重采样得到的数据集进行反复的推理变得十分容易
超参数化模型和正则化
马尔科夫随机场
样条函数
高斯过程
分类和回归决策树
神经网络
小波收缩
Lasso 和 Horseshoe 等 最小二乘的替代方法
支持向量机及相关理论
所有模型都会随着样本规模的增加而扩大,其参数往往也不能被直接解释
在贝叶斯方法中,我们可以首先在函数空间中考虑先验,然后间接推导出相应的模型参数的先验
非负矩阵分解
非线性降维
生成对抗网络
自编码器
可以寻找结构和分解结果的无监督学习方法
调优
自适应
组合来自多个拟合结果的推理
stacking 集成
贝叶斯模型平均
boosting 集成
梯度提升
随机森林
多层模型
多层模型的参数因组而异,它使模型可以适应于聚类抽样、纵向研究、时间序列横断面数据、元分析以及其它结构化的环境。在回归问题中,一个多层模型可以被看做特定参数化的协方差结构,或者是一个参数数量随数据比例增加的概率分布。
聚类抽样
纵向研究
时间序列横断面数据
元分析
其它结构化的环境
多层模型可以被看做一种贝叶斯模型,它们包含未知潜在特征或变化参数的概率分布。反过来,贝叶斯模型也有一种多层结构,包含给定参数的数据和超参数的参数的分布。
我们更倾向于将多层模型看做将不同的信息源进行组合的框架,而不是一个特定的统计模型或计算过程。因此,每当我们想要根据数据的子集进行推理(小面积估计)或将数据泛化到新问题(元分析)上的时候,就可以使用这种模型。类似地,贝叶斯推理的可贵之处在于,它不仅仅是一种将先验信息和数据组合起来的方法,也是一种解释推理和决策的不确定性的方法。
泛型计算算法(generic computation algorithms)
Metropolis 算法
混合或 Hamiltonian 蒙特卡洛算法
相同优化算法
小二乘
最大似然估计
当似然的解析形式很难求解或计算开销非常大时, 被称为近似贝叶斯计算的方法(通过生成式模型 仿真、而不是对似然函数进行估计得到后验推理) 是十分有效的
统计模型 条件独立结构
EM 算法
Gibbs 采样
粒子滤波
变分推断
期望传播
通用的自动推理算法使我们可以将模型的研发解耦开来, 这样一来变更模型并不需要对算法实现进行改变
高维正则化
多层建模
自助抽样法
自适应决策分析
计算科学的最新进展使我们可以将高斯过程和神经网络这些高度参数化的模型用作自适应决策分析中的函数的先验,还可以在仿真环境中进行大规模的强化学习,例如:创造能够控制机器人、生成文本、以及参与围棋等游戏
效用最大化
错误率控制
错误发现率分析
经验贝叶斯分析
贝叶斯决策理论
决策理论还受到了有关人类决策中的启发与偏见的心理学研究的影响。
重要的研究成果
贝叶斯优化
强化学习
鲁棒推理
即使在假设错误的前提条件下,我们也可以使用模型
研究者需要显式地解释传统统计模型中没有考虑的误差来源
对鲁棒性的关注与高度参数化的模型相关,这是现代统计学的特点, 对模型评估有更普遍的影响
探索性数据分析
「探索性模型分析」有时被用来获取数据分析过程的实验特性。研究人员们也一直进行着将可视化囊括在模型构建和数据分析过程中的研究工作。
跳出概率模型,重点关注数据的图形可视化
更加关注发现而非检验固定假设的统计建模
计算的进步使从业者们能够快速构建大型的复杂模型, 其中在理解数据、拟合的模型、预测结果之间的关系时, 统计图是十分有用的。
相同点与不同点
思想能产生方法与工作流程
1||| 反事实机制将因果推理置于统计或预测的框架中, 其中,因果估量(causal estimands)可以根据 统计模型中未观察到的数据精确定义和表达,并 与调查抽样和缺失数据推算的思想联系起来
2||| Boostrap 打开了隐式非参数建模(implicit nonparametric modeling)的大门
3||| 过参数化的模型和正则化基于从数据中估计模型参数的能力, 将限制模型大小的现有做法形式化和泛化,这与交叉验证和信息标准有关
4||| 多层模型将从数据估计先验分布的“经验贝叶斯”技术形式化, 使这种方法在类别更广泛的问题中使用时具备更高的计算与推理稳定性
5||| 泛型计算算法使实践者能够快速拟合用于因果推理、多层次分析、强化学习和其他许多领域的高级模型,使核心思想在统计学和机器学习中产生更广泛的影响
6||| 自适应决策分析将最佳控制的工程问题与统计学习领域联系在一起,远远超出了经典的实验设计
7||| 鲁棒推理将对推理稳定性的直觉形式化,在表达这些问题时可以对不同程序进行正式评估和建模,以处理对异常值和模型错误说明的潜在担忧。此外,鲁棒推理的思想也为非参数估计提供了信息
8||| 探索性数据分析使图形技术和发现成为统计实践的主流,因为这些工具正好可以用于更好地理解和诊断正在与数据进行拟合的概率模型的新型复杂类别
计算上的进步
元算法(利用现有模型和推理步骤的工作流)在统计学中被广泛使用,比如最小二乘法,矩估计(the method of moments),最大似然,等等。
1||| 一些思想(boostrapping,超参数化模型和机器学习元分析) 直接利用了计算速度,这在计算机出现之前难以想象
2||| 除了计算能力以外,计算资源的分散也很重要: 台式计算机能让统计学家和计算机科学家尝试新方法, 然后由从业人员使用这些新方法
3||| 探索性数据分析最初是从纸笔图形开始, 但随着计算机图形学的发展, 探索性数据分析已经历彻底改变
4||| 过去,贝叶斯推理仅限于可以通过分析解决的简单模型。 随着计算能力的提高,变分和马尔可夫链模拟方法使得 模型构建和推理算法开发的分离成为可能,概率编程也 因此允许不同领域的专家能够专注于模型构建并自动完成推理。
5||| 自适应决策分析,贝叶斯优化和在线学习应用于计算和数据密集型问题
6||| 鲁棒的统计学不一定需要大量计算,但它的使用在一定程度上由计算驱动,与封闭式估计(如最小二乘法)有所区别
7||| 减少多元推理的合理性不仅可以通过统计效率来证明,还可以从计算层面证明:激发了一种新的渐近理论
8||| 反事实因果推理的关键思想与理论相关,而不是计算相关。但是,近年来,因果推理在使用计算密集的非参数方法后已有了发展,促进了统计学、经济学和机器学习中因果和预测模型的统一
在过去 50 年里所开发的许多机器学习元算法都有一个特征,就是它们会以某种方式拆分数据或模型
元算法和迭代计算在统计学中之所以重要,主要是有两个原因
除了最初开发的元算法示例以外,通过多个来源整合信息,或通过整合弱分类器(weak learner)来创建强分类器的通用想法可以得到广泛应用;
自适应算法在在线学习中发挥了很好的作用,最终被认为代表了现代统计观点:数据和计算分开,信息交换和计算架构是元模型或推理过程的一部分
大数据
“数据科学”流行的原因之一就是因为,在此类问题中, 数据处理和高效计算是与用于拟合数据的统计方法一样重要的
统计分析最重要的方面不是对数据进行的操作,而是你所使用的数据是什么
共同特征
1||| 反事实框架允许使用用于对受控实验建模的相同结构从观测数据中进行因果推断
2||| Bootstrapping 可用于纠正偏差,与在分析计算无法进行的复杂调查、实验设计和其他数据结构上进行方差估计
3||| 正则化允许用户在模型中加入更多预测变量,而不必担心过度拟合
4||| 多层模型使用部分汇集来合并来源不同的信息,从而更广泛应用元分析的原理
5||| 泛型计算算法允许用户拟合更大的模型,这对将可用数据连接到重要的基本问题来说可能是有必要的
6||| 自适应决策分析利用在数值分析中开发的随机优化方法
7||| 鲁棒推理可以更常规地使用具有异常值、相关性和其他可能阻碍常规统计建模的数据
8||| 探索性数据分析为复杂数据集的可视化打开了大门,并推动了整洁数据分析(tidy data analysis)的发展,以及统计分析、计算和通信的集成
在过去的50 年里,统计编程环境也有了很大的发展,最著名的是S语言、R语言,还有以 BUGS 开头命名的通用推理引擎及其后继者。近日,数值分析、自动推理和统计计算的思想开始以可复制的研究环境(如Jupyter notebook)和概率编程环境(如Stan,Tensorflow和Pyro)的形式混合在一起。因此,我们至少可以预计推理和计算方法的部分统一,例如使用自动微分进行优化、采样和灵敏度分析
基因阵列
流图像
文本数据
在线控制问题
思想的关联与交互
一些明显不同的统计领域背后存在某些共同主题的相关性
1||| 探索性方法(如残差图和 hanging rootograms )可以从特定的模型分类(分别是累计回归和泊松分布)中获得,但是,它们的价值在很大程度上是在于其可解释性,即无需参考启发它们的模型
2||| 可以单独将一种方法(如最小二乘法)看作对数据的运算,然后研究表现好的数据生成过程的类别,再使用这种理论分析的结果来提出更鲁棒的程序,能够拓展无论是基于故障点(breakdown point),极小化极大风险或其他方式定义的适用范围。相反,纯粹的计算方法(例如蒙特卡洛积分估算)可以被有效解释为统计推理问题的解决方案。
3||| 另一个联系是,因果推理的潜在结果框架对人群中的每个单元都有不同的处理效应,因此自然而然就采用了一种元分析方法将效应多样化,并使用在实验或观察性研究分析中使用多层次回归进行建模
4||| 研究 bootstrap 可以为我们提供一种新观点:将经验贝叶斯(多层次)推理看作非透视方法。在该方法中,正态分布或其他参数模型用于部分汇集,但最终估计值不局限于任何参数形式。对小波(wavelets)和其他丰富参数化模型进行正则化的研究与在鲁棒背景下开发的稳定推理程序之间存在意想不到的联系
5||| 正则化的过参数化模型使用机器学习元算法进行了优化,反过来又可以得出对 contamination 具有鲁棒性的推论。这些连接可以用其他方式表示,鲁棒回归模型对应混合分布,混合分布可以视为多层次模型,还可以使用贝叶斯推理进行拟合。深度学习模型与一种多层次逻辑回归相关,也与复现核心的 Hilbert 空间(在样条中使用,支持向量机)相关
6||| 高度参数化的机器学习方法可以构建为贝叶斯分层模型,其中将惩罚函数正则化与超先验相一致,无监督学习模型也可以被构建为具有未知组员的混合模型。在许多情况下,是否使用贝叶斯生成框架是取决于计算,这也是双向进行:贝叶斯计算方法可以帮助掌握推理和预测中的不确定性,高效优化算法也可以用于近似基于模型的推理
许多被广泛讨论的思想都涉及到丰富的参数化,并伴随一些用于正则化的统计或计算工具。因此,它们可以被认为是经筛选思想的更广泛实现:随着可用数据的增加,模型会变得更大
鲁棒统计学
侧重于偏离特定模型假设
探索性数据分析
传统上被认为对模型根本不感兴趣
理论促进应用,反之亦然
如果一个新思想起源于一个应用领域,那么要说服理论家相信它的价值可能会遇到很大挑战。相反,批评新方法在理论上是有用的,但在实践中没有用,倒是很容易。
不同于纯数学,不存在纯粹的统计
一些统计思想是深刻而优美的,并且与数学一样,这些思想也具有基本的联系。例如,回归和均值之间的联系,最小二乘和部分池化之间的联系,但它们仍与特定主题相关。就像摘下的苹果一样,脱离其营养来源后,理论统计研究趋于枯竭。数学也是如此,但是纯数学中的思想似乎可以存在更长的时间,并且能以孤立的研究存在,而统计学思想则无法如此
人们可以将理论视为计算的捷径
建模的需求不可避免地随着计算能力的增长而增加,因此我们需要分析压缩和逼近的价值。此外,理论可以帮助我们理解统计方法的工作原理,而数学逻辑可以启发新的模型和数据分析方法
方法
反事实
引导程序
堆叠
增强
lasso
多层模型
和统计领域其他进展的关联
模型、方法、应用程序和计算都结合在一起
风险回归
广义线性模型
空间自回归
结构方程模型
潜在分类
高斯过程
深度学习
讨论不同概念发展之间的联系,并不意味着关于适当使用和解释统计方法的争论仍然存在
错误发现率(false discovery rate)与多层模型之间存在双重性,但是基于这些不同原理的过程可以给出不同的结果。通常使用贝叶斯方法来拟合多层模型,并且在后验分布中,没有任何东西会一直收敛到零
相反,错误发现率方法通常使用p值阈值,目的是识别少量统计上显著的非零结果。再例如,在因果推理中,人们越来越关注密集参数化的机器学习预测,然后进行后分层(poststratification)以获得特定的因果估计,但是在更开放的环境中,需要发现非零因果关系。同样,根据目标是密集预测还是稀疏预测,使用了不同的方法。
具有里程碑意义的论文
1||| Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and the slow progress of soft psychology
Meehl概述了在原假设重要性检验的标准用法中提出科学主张的哲学缺陷
2||| Why most published research findings are false
Ioannidis认为,医学上大多数已发表的研究都在使得结论不受其统计数据的支持
3||| False-positive psychology: Undisclosed flexibility in data collection and analysis allow presenting anything as significant
Simmons,Nelson和Simonsohn解释了“研究人员的自由度”如何使研究人员即使从纯噪声数据中也能常规获得统计意义
4||| Scientists rise up against statistical significance
但也有人建议可以使用多层模型解决不可复现研究的某些问题,将估计值部分归零以更好地反映研究中的效应总量,例如van Zwet,Schwab和Senn发表的“The statistical properties of RCTs and a proposal for shrinkage”。 可再现性和稳定性问题也直接涉及到引导程序和可靠的统计数据,参见Yu. B.发表的“Stability.”。
未来几十年的重要统计思想会是什么
回顾
质量控制
潜在变量建模
抽样理论
实验设计
经典
贝叶斯决策分析
置信区间
假设检验
最大似然
方差分析
客观贝叶斯推理
概率分布分类
均值回归
数据现象学建模
展望
人们无法预见所有未来的科学发展,但可能对当前的趋势将如何持续有比较可靠的见解
最安全的选择是, 在现有方法组合上持续取得进展
对潜在输出的丰富模型进行因果推理,并使用正则化估计;结构化数据的复杂模型,例如随时间演变的网络,对多层模型的可靠推断;对超参数化模型的探索性数据分析;用于不同计算问题的子集(subsetting)和机器学习元算法等等。此外,作者期望在结构化数据的实验设计和采样方面取得进展
另一个成熟的发展领域是模型理解, 有时也称为可解释机器学习
矛盾之处在于,理解复杂模型的最佳方法通常是使用简单模型对其进行近似。 但问题是,在这过程中是什么在进行交流?一种可能有用的方法是计算对数据和 模型参数扰动的推断敏感性,将鲁棒性和正则化的思想与基于梯度的计算方法相结合,该方法在许多不同的统计算法中使用
随着统计方法变得越来越先进,理解数据、 模型和实体理论之间的联系将变得越来越重要