导图社区 《女士品茶》---统计学史
在这本书里,作者从20世纪在全球掀起的统计革命入手,为我们揭开了统计学背后的哲学思辨、各种统计方法的诞生和应用,以及整场统计革命的发展历程。这是关于统计学发展历程的一次全景式呈现
美国质量协会“六西格玛黑带”培训资料:第七章,介绍了常用项目团队管理工具,包括了成人学习 Adult Learning,沟通管理 Communication Management,会议管理 Meeting Management,RACI矩阵,冲突解决 Conflict Resolution,力场分析 Force-field Analysis,群体思维 Group Thinking等内容。同时附有课后习题和答案~
美国质量协会“六西格玛黑带”培训资料:第六章 质量成本和财务管理,介绍了财务敏感性分析,净现值,成本效益分析,投资回收期,资产收益率,投资收益率,质量经济学,质量成本的分类等内容。同时附有课后习题和答案。
美国质量协会“六西格玛黑带”培训资料:第五章,介绍了常用质量管理和计划工具,包括SIPOC 图,SMART原则,三点估算法(Three-point Estimation)(计划评审技术 PERT),甘特图 Gantt Chart,活动网络图 Activity Network Diagram,因果图 Cause-and-Effect Diagram,流程图 Flow Chart等内容。同时附有课后习题和答案~
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
《女士品茶》-统计学史
统计学的概念和底层逻辑
统计学
基于问题,收集、分析、解读数据的学科
理念变革:抛弃“决定论”接纳统计学
决定论
在20世纪的统计革命开始前,人们认识世界有个坚定的信念,叫决定论
当时的人们认为,一切自然现象的出现和存在,都是有原因的,并且遵循着一定的法则
在决定论的支配下,人们坚信在理论上,我们可以掌握一切知识和规律,并且未来的一切事情都是可以准确预测的。而统计学需要做的,就是尽可能精确地记录数据,数据越准确,预测才越精准。
决定论的地位被动摇
很早以前就有人发现,哪怕一模一样的实验条件,每次出来的实验结果都有细微的差别。在决定论的观念支配下,科学家们都认为这是各种外界因素的干扰导致的
高尔顿发现“回归现象”
整体来看,孩子的身高其实都有一个逐步向人类平均身高靠拢的现象,高尔顿将这种数据向总体平均值靠拢的现象称为“均值回归”
首次将这种思想以公式的形式完整表达出来的,是他的学生卡尔·皮尔逊
皮尔逊提出
随机性
1895年,皮尔逊第一次在科学史上明确地阐述了实验数值的随机性,而所有出现的观察值都可能符合某种规律性。科学的目的,就是找到几个指标来描述这种规律性
皮尔逊告诉大家,别为自己的实验误差纠结了,世界本来就是测不准的,每次的实验结果都是随机出现的,至于怎么出现有它自己的规律,科学研究的主要工作不在于研究具体数据,而在于发现这种规律性
皮尔逊的统计思想颠覆了人们认知世界的方式,决定论的观点逐渐被取代,人们开始认识到,万事万物不见得一定是因果关系,而是相互作用相互影响的相关关系,人们也逐渐接受了实验结果的随机性
概率分布
皮尔逊的思想不仅改变了人们认知世界的方式,同时也直接改变了科学研究的对象
之前,科学研究的对象否是看得见摸得着的东西,是每一次实验收集到的具体数据
此后,科学实验收集的是一大堆具有随机性的数据,而描述这些数据的数学函数成为了科学真正的研究对象,科学家不再关注某个具体的实验数据,而是某种实验数据出现的可能性,也就是概率
格赛特和费希尔
重新定义了一些统计学概念
费希尔,在一般性的统计方法和统计思想上,都做出了巨大贡献。他提出的实验设计方法、方差分析法、回归分析法很快成为了很多学科的研究基础,他出版的教材和论文也极大地推进了统计学在各领域的应用
总结
整个20世纪的统计革命虽然起源于皮尔逊的思想,但整个理论框架和研究方法体系缺失由费希尔搭建起来的
统计学就是基于问题,收集数据、分析数据、解读数据的学科,人们对统计学的接纳,同时也伴随着对“决定论”的抛弃
统计学的基本理论框架及其用途
总体 VS 样本
在统计学力,真实的世界或者我们想研究的事物,被称为“总体”,而从总体找到一部分具有代表性的个体,就是找“样本”
统计学就是帮助我们利用样本的信息来推测总体情况的工具,也就是从局部到整体,从已知到未知的过程
描述统计
对数据进行整理,简单直观地呈现出数据
针对已知样本,是当下
从几个角度来描述数据,告诉我们数据整体处于什么样的水平,数据内部分布是比较平均还是参差不齐,在某个具体的行业或领域内跟其他数据横向相比处于什么样的水平,或者从历史的角度纵向来看又处于怎样的水平
比如“用户画像”,本质上就是一种描述统计
数据团队在制作“用户画像”的过程中,首先会根据需要选取关键的指标或者维度;然后收集各个维度的数据或相关信息,比如收入水平、教育水平、产品使用高频率等,这就是一个计算平均值的过程;最后将这些信息整理,抽象出一个用户的信息全貌,给用户贴标签,这个过程就是把各个指标的平均值综合起来然后用文字描述出来
推论统计
利用样本信息推论总体,用已知去预测未知
针对未知的总体,是未来
只有两种思路
参数估计
直接从样本出发,利用样本计算出的数据来估计总体情况
点估计
区间估计
假设检验
从总体出发,先对总体情况提出一个假设,称之为“零假设”。然后通过实验收集数据,将收集到的数据跟这个零假设进行比较,看看之前的差异大不大,达到什么程度才能认为实验方法是有效的
按照不同的分析目的,统计方法可以分为描述统计和推论统计
描述统计主要是对数据进行整理,简单直观地呈现出数据
推论统计则是利用样本信息去推论总体的过程,用已知去预测未知
描述统计和推论统计是紧密联系的,可以说,描述统计是基础,推论统计是目的,客观准确的描述为准确的推论提供了依据
统计学的发展历程
19世纪:客观记录数据
统计所做的工作主要就是客观地记录数据,以便当权者快速了解信息
20 世纪初:简单粗暴的加减乘除运算
20世纪初欧洲的数学家们依然沉浸在纯数据的抽象世界里,认为统计学就是一种简单粗暴的加减乘除运算,毫无技术含量可言
20世纪30年代:因战争因素,高度发展
30年代,政治民意测试
30年代,希特勒的纳粹主义领大批优秀的数学家逃往美国。美国当时正经历大萧条,罗斯福刚上任,华盛顿政府迫切需要了解全国上下的情况到底有多糟糕。就这样,抽样调查应运而生。
在美国政府部门的推动下,民众开始接纳随机抽样调查,后来逐步应用到政治性民意测验领域
40年代,军事应用
为了战争需要,大量统计学家开始参与到作战研究中,利用统计学检验核武器装备、破解敌方密码,进行军事部署等,统计学发挥了重要作用,这让许多纯数学家真正重视起统计学
成为各学科数据的研究基础
战争结束后,这些数学家和统计学家回归到各自的领域,为科学的发展做出了重要贡献。统计成为各学科数据的研究基础,在经济学、社会学、心理学、流行病学、生物学等领域都有重要应用。
20世纪末:受到诸多挑战
统计方法的过度应用受到了批判
很多科研工作者严格按照假设检验的思想去求证,只关心显著性,却很少思考这些方法背后的思想内涵。这种过度应用其实受到了很多统计学家的批判
新学科及技术的出现,削弱了统计学的影响力
大数据技术迅猛崛起。当总体的数据都可以轻易获得的时候,我们还需要推论统计吗?
统计学的哲学内涵
人类构造的科学模型永远无法完整地描述现实
受战争的影响,统计学快速发展,扩展到了几乎所有科学领域
到了20世纪末,统计学虽然还占据着主导地位,但也受到了很多挑战