导图社区 刘嘉·统计学20讲
理性的反面不是感性,而是本能; 感性的反面不是理性,而是麻木。 本能的人不会成功,麻木的人不会幸福。 统计学是矫正“本能”的强大武器。而你成为驾驭统计学的高手,就是克服“麻木”的强大武器。
编辑于2023-03-15 17:22:15 湖南刘嘉·统计学20讲
表征数据
平均数:如何提取数据的集中趋势?
第一,平均数可以描述一组数据的集中趋势,不同的平均数,描述不同的集中趋势。
第二,算术平均数是数据在大小上的中心,中位数反映了数据在位置上的中心,众数反映了数据在数量上的中心,而几何平均数反映了数据变化幅度的中心。
第三,不止步于平均数的算法,而是理解每一个平均数背后的意义。能做到这一层,才能成为统计学高手
极端值:如何确定极端数据的影响?
第一,极端值会让数据大小的中心到位置的中心距离增加,让人很容易产生误解或者错误判断。
第二,极端值的变化会导致数据分布参数发生变化,提示我们有些东西改变了。
第三,极端值提示着,当前的数据中存在不同总体的可能性。
分布:如何描述数据的大致样貌?
第一,数据向我们传达的意义,就藏在它的分布特征里。
第二,没有所谓的整体分布,只有事物某一个维度的特征。
第三,统计学有一套规范的语言,用来描述数据的分布特征,其中最常用的是中心性、对称性和离散性。
模型:如何抽象数据的分布知识?
第一,模型是统计世界的标准件,基于模型已知的性质,我们可以得出有价值的推论,以及找到事物的变化规律。
第二,在具体选择模型的时候,我们要时刻牢记:现实世界没有绝对理想的模型,我们只有选择最近似的模型,努力切近问题本质。
“所有模型都是错的,但有些模型有用”。
统计学的工作就是,从部分数据出发,找到最让人满意和最有共识的模型,努力逼近现实世界。
现实世界没有理想型,只有最近似
对应到现实世界,均值能代表运动员成绩高低变化的情况,方差能说明运动员成绩是不是稳定。
找到模型的核心参数,找到事物的变化规律
基于模型已知的性质,我们可以得出一些有价值的推论。
统计学上的模型,是用数学工具抽象现实世界的事物,进而得出一个理想的数学描述。
统计图:如何通过图形发现数据的信息?
第一,统计图是探索性工具,而不是验证性工具。我们可以把相应的数据都用统计图呈现出来,用来从中寻找线索和证据。而不能心里已经有了结论,再通过图表来呈现和证明。
第二,统计图往往不够精确,不够全面。
第三,作图不规范、尺度不合适等操作问题,很容易影响我们的直觉,让我们产生错判。
比较数据
自我比较:怎么从数据自身的比较中萃取价值?
第一,在统计学中,比较就是数据研究的生命线。在做比较的时候,一定要有相同的维度、相同的基准、选择相同的比较类型。
第二,所谓自我比较,实际上就是比较起点的“我”和终点的“我”之间的变化。这个变化比较的,不是数字的变化,而是结构的变化,是起点和终点在结构上的差异。
个体定位:个体和群体怎么比?
第一,可比性 = 同维度 +可量化 + 意图关联。简单地说就是,只要在相同的维度下比、假设的比较条件也成立,同时比较的维度、比较的条件和比较的意图之间有关联,个体和群体就具备可比性,就可以比较。
第二,个体和群体比较的时候,有两个常见的坑。首先,实际群体数据并不完整;其次,很难定义要比较的群体数据。因此,下结论一定要慎重。
基准:怎么比较两个不同的数据?
第一,对于关公战秦琼这样的问题,除了选择合适的比较维度之外,还要确定合适的基准。只有在一个合适的基准下,比较的结果才有意义。
第二,选择基准时,有三个不同的方法:相对位置、标准他者和综合指标。
第三,没有形成共识,就没法选择完美的基准。而且,共识和基准是不断迭代和变化的,过去的基准和共识,现在未必适用。
共识:万物都可比较,统计学能帮上什么忙?
1.统计学寻找共识的框架分为五步:效度、信度、精度、可解释性,以及剔除干扰因素。
2.掌握了这个框架,就可以在比较事物的过程中,找到更能被接受的共识。
3.统计学在各个学科被广泛使用,也正是因为它能够帮助很多学科建立更好的共识。
相关性:如何理解统计相关的实质?
借助相关性统计,我们既可以减少数据采集的难度,也可以做出更好的决策。但是,统计相关和实质相关存在一条巨大的鸿沟,想要跨越是非常困难的。我们应该去寻找有意义的相关性,尽可能缩小统计相关和实质相关的距离。
数据推断
样本:如何抽取正确的样本?
样本具有和总体十分相似的特性。通过样本,我们能正确地推断出总体有哪些特性。
只有抽取到“正确”的样本,才能做出靠谱的估计。好的样本,既要小偏差,让射出的箭以靶心为中心点分散;又要小变异,箭的射中点很接近。
推断:如何通过样本对总体下结论
第一,统计推断的全理论推演过程是,通过抽样分布的均值和标准差,计算出总体参数所在的区间和这个区间准确性的概率。其中,区间是我们得出的结论,准确性概率是结论正确性的量化。
第二,统计推断的关键数字是置信度和置信区间。其中置信区间可以帮助我们做两大类统计推断,一类是推断总体平均值,一类是推断所占比例。
检验:怎么对统计推断进行检验?
1.先假设某种断言正确,但实际检验时,却发生了小概率事件,那我们就应该推翻这个断言,接受它的反面。这就是显著性检验的推理思路。
2.显著性检验的主要“弱点”是,只能检验零假设不成立的证据强度,而不能从根本上带我们看到总体情况是什么样的。只要我们用“小概率事件很难出现”来否定零假设,就一定会漏掉小概率事件出现的情况。
3.显著性检验的正确使用方法是,先建立假设,再设计研究来找寻想找的特定效应。追求程序正义,往往更能规避显著性检验的错误。
相关性检验:如何断言类别数据的相关性?
第一,想要检验两个事物之间的相关性,判断两件事相关不相关,我们就需要用到卡方检验。
第二,卡方检验的逻辑跟显著性检验一样。先假设没有相关性,然后观察实际的观测值和理论的期望值之间的偏差程度。如果偏差很小,就支持没有相关性的判断;如果偏差很大,就推翻没有相关性的断言,认为存在相关性。
第三,辛普森悖论是卡方检验最容易出现的问题之一。使用卡方检验时,不仅要检验聚合数据,也要对细分数据做相应的检验,以寻找可能出现的潜在变量。
回归预测:怎么利用整体规律对个体进行预测?
不管是科学还是非科学,都可以用统计学做预测。但是,统计学不为科学背书。
随机对照实验:怎么寻找因果关系的证据?
实验只是实验,实验在统计意义上设计得再好,这都不算,还需要现实世界的检验。
统计结论:何时相信,何时怀疑?
统计结论不可能是百分之百正确,很可能,数据仅仅是数据,巧合仅仅是巧合。统计学,最终还是要回到真实生活中。
大数据:给我们带来了怎样的变化?
1. 本质上,统计学是处理总体的特征,处理个体问题靠的是将个体转化成总体。
2.大数据本质提供了一种方式更好的帮助个体的总体化,让统计学工具能发挥作用。
3.这种帮助主要分为两个方向:用更多的相似数据填充,以及用相关数据进行填充。
4.大数据依旧有很多需要注意的坑:相关性是否有用且一直有用,相关性数据的收集会不会影响隐私等等。
追问
统计学的三大问题
总体是谁?
现实生活中,我们往往很难分辨总体。因为总体不仅不容易确定,还很难度量。
比如人类的智力水平。现在都广泛采用的智商测试量表,可以度量这个总体吗?
讲航天飞机的失事率,是一个讨论总体的好案例
数据从哪里来?
所有的抽样都会演变成为一场对抗偏差的持久战
最常见的偏差,就是不回应,或错误回应带来的偏差
我们想知道今年高考数学难不难,就对高考考生做抽样调查。实际情况很可能是,考的好的人都默默走开了,只有那些知道自己考的不好的人哇哇大哭,正好被我们抽样到了
调研婚姻生活这类比较敏感的个人问题的时候,回应者要么夸大其词,要么闪烁回避
结论到哪里去?
现实与结果之所以会不一致性,根本上讲,是因为统计结果和真实世界不一样。
结论能不能外推。
如果1990年到2000年,中国家庭拥有电视的数量增加了100倍,按照这个趋势预测,现在中国应该拥有几百亿上千亿台电视。
我们该怎么办?
第一, 统计学是一种提供线索的工具,不要做一次统计工作就下结论。
第二, 实际操作中,要严格依照统计流程,遵守统计规范。统计活动中,程序正义非常重要,它是我们获得正确结论的流程保障。
第三, 用好统计学,一定要结合具体领域的知识。越是具备精深的领域知识,就越能用好统计学,更好地解决你的问题。
建议
理性的反面不是感性,而是本能;
感性的反面不是理性,而是麻木。
本能的人不会成功,麻木的人不会幸福。
统计学是矫正“本能”的强大武器。而你成为驾驭统计学的高手,就是克服“麻木”的强大武器。