导图社区 得到:刘嘉 - 概率论22讲
脑图内容来自得到APP课程《刘嘉·概率论22讲》,学一门,让你抓住未来的学问。从局部随机性到整体确定性。希望对于大家理解概率论有所帮助。
编辑于2022-05-04 11:40:21刘嘉·概率论22讲
发刊词 | 学一门让你抓住未来的学问
为什么学?
了解当今的前沿科技,绕不开概率论
随机、概率,就是这个世界的常态,是这个世界的底色
决策需要借助概率来做出判断
解惑
学概率论拼的不是数学,而是语文能力
理解题意,才能解决问题
每个人都有概率意识,只是缺少系统化
这门课的目的,就是完成整理,把碎片拼接完成
其他
概率论的4大基石
随机
概率
独立性
概率计算
概率度量的3种方法
(概率论中最经典的)频率法——用频率度量概率
课程更关注通识,不关注公式
导论 | 全局:从局部随机性到整体确定性
概率论解决问题的思维框架
把局部的随机性转变为整体上的确定性,概率论解决随机问题的本质
概率论不是帮你预测下一秒会发生什么,而是为你刻画世界的整体确定性
某一次结果的随机,是低层次的事;而概率论,是高层次的、确定性的认知
“上帝”在掷骰子
随机:随机性不等于确定性
随机就是不可预测
随机性≠不确定性
随机性是这个事件可能出现的结果我都知道,只是不知道下一次会出现哪个结果(灰犀牛)
不确定性是我连可能出现结果的选项都不知道(黑天鹅)
概率论面对和处理的是随机性,而不是不确定性
随机事件结果选项可知的特性,是概率论发挥作用的基础
本质上,不确定性包含随机性,随机性是不确定性的一种类型
真随机、伪随机和效果随机
真随机是数学上的理想状态,逻辑上是绝对不可预测,最高层面的随机
现实中真随机几乎不存在,我们只是把结果随机当做真随机
现实中遇到的各种随机问题,基本都是效果随机
伪随机只是披着随机的外衣,它本身是有规律的。
随机是世界的决定性力量
保有威胁对手的力量,但不确定出手时间,就能让对手忌惮,露出缺点
概率:对世界可能性的度量
概率是随机事件发生可能性大小的定量描述
本质上,随机事件是概率论的一种表达方式
只有符合这种表达方式,才能度量它的概率
限定
设定一个条件
从可能性的视角出发
对某个发生结果的陈述
概率是随机事件在样本空间的比率
样本空间:一件事可能发生的所有结果,就是这件事的样本空间
“随机事件”和“样本空间”的关系,就是子集和全集的关系
子集和全集的比率,即随机事件占样本空间的比率,即随机事件发生的概率
概率的3个特性
概率永远在0-1之间,不可能是负数
样本空间里所有基本事件概率之和是1
某个随机事件不发生的概率,等于1减去这件事发生的概率
样本空间的完备性是一个幽灵
现实可能出现特殊情况
空缺
并列
从某种角度来说,我们对世界的认识,就是对样本空间完备性的认识
很多事情发生时,我们会吃惊,是因为发生的事情不在我们原有的“样本空间”之内,我们的样本空间是不完备的
很多人“处变不惊”、“有大将之风”,是因为他们的样本空间足够完备所有,所有发生的事情要么他已经经历,要么已在他的考虑范围之内,只是概率大小的问题
独立性:随机事件的相互关系
随机事件的2种类型
独立事件
不会受另一个随机事件的影响
非独立事件
会受另一个随机事件的影响
事件的独立性本质是一个数学概念
只有明白了随机事件之间的关系,判断它们是否具有独立性,才能正确分析和度量它的概率
很多看似独立的事件,其实都是互有联系、互相影响的。评估随机事件的概率时,对独立事件的设定需要格外谨慎
概率计算:定义问题比计算更重要
概率计算的3个法则
排列组合法则
适用于结果有限,且每种结果都是等可能性的情况
排列分先后秩序
单个随机概率的计算
加法法则
两个随机事件发生其一的概率,将两个随机事件各自发生的概率相加
多个随机概率的计算
不能同时发生;互斥
乘法法则
两个独立事件同时发生的概率,将两个随机事件各自发生的概率相乘就行
多个概率的计算
独立事件,彼此互不影响
大部分人不会做概率题,不是因为不会计算,而是因为没有看明白题目
准确地翻译现实问题,就是概率思维的核心
概率计算之所以复杂,是因为很难将现实问题准确的抽象成“对”的概率问题。
概率度量:建立整体确定性的3种方式
常用的度量概率的3种方法
定义法
通过自然世界的对称性来定义概率
定义法就是直接定义,直接认为某件事不同结果出现的可能性是相等的,没有任何一个结果比其他结果更有可能发生
频率法
用随机事件发生的频率来计算概率
只要数据量足够大,一个随机事件发生的频率就会无限接近它发生的概率
迭代法
用一种动态发展的、考虑个人差异的角度来度量概率
先利用手头少量的数据做推测,甚至是主观猜测一件事儿的概率,然后再通过收集来的新数据,不断调整对这件事概率的估算
最常用的方法就叫作“贝叶斯”
3种方法并不是经纬分明的,常常融合使用
频率法可以验证定义法的正确性
迭代法也可以用定义法或者频率法来获得最初的判断
频率法和迭代法,又可以同时使用,相互验证
偷看“上帝”的安排
频率法:概率是对发生频率的计算
释义
频率法就认为,在有足够多的数据的情况下,随机事件发生的频率会无限接近它真实的概率。
频率,就是某个随机事件在整体事件中出现的比例。一个随机事件出现的次数除以整体事件的次数,得到的值就是这个随机事件发生的频率。
频率法理解这个世界的底层逻辑是,一个随机事件的发生,是存在一个真实的、客观的概率的。
频率 VS 概率 VS 大数定律
只要重复的试验或者观测的数据足够多,随机事件发生的频率就会无限接近它的概率。这就是我们现在常说的“大数定律”。
概率论中的“黄金定理”
在有限次数下衡量概率的指标
精度误差
实验和理想值之间的差距
置信度
样本的刚好在精度误差范围之内的比率
作用
通过这两个限定,容忍一定错误的发生,我们在用频率度量概率时,可以大幅减少试验的次数或者采集的数据量。
大数定律:局部频率不是整体概率
大数定律的作用
让我们真正能用整体的确定性来对抗局部的随机性。
均值回归
如果一个数据和它的正常状态偏差很大,那么它向正常状态回归的概率就会变大。
大数定律不需要补偿,而是通过均值回归,通过产生大量的正常数据,削弱之前异常数据的影响
现实中的频率都是局部频率
当数据量很少的时候,一件事发生的频率可能和它的真实概率相差很大。
整体不需要对局部进行补偿
整体不需要通过补偿来对局部产生作用,大数定律并不通过补偿来实现。
数学期望:对随机事件长期价值的衡量
期望是对长期价值的数字化衡量
数学期望简称期望,计算方法很简单,就是对随机事件不同结果的概率加权求平均
重点:“长期”
数学期望之所以有效,因为大数定律在背后起作用
大数定律把局部的随机性变成了整体上的确定性,也就是概率
数学期望又把概率代表的长期价值变成了一个具体的数字,方便我们比较
计算数学期望必须把结果数值化
只有赋予每个结果一个具体的值,才能进行数学期望的计算
个体的数学期望并不一样
个体的主观考量,只影响数学期望的计算结果,而不妨碍数学期望起作用。
方差:围绕数学期望波动程度的衡量
数学期望相同,并不代表两件事的价值就一样
随机结果的波动程度,同样对一件事的价值,对我们的决策影响巨大
方差,反映的是随机结果围绕数学期望的波动范围
对于一个随机事件,数学期望因为描述的是长期价值,所以无法反映这种波动性,但方差可以。
通过一个数值定量了这种波动性,弥补了数学期望描述随机事件的不足。
方差的计算:结果的值与数学期望之差的平方的均值
标准差:方差的平方根
方差的本质是对风险的度量
一个随机事件的方差越大,可能的结果离期望值越远,就说明它的风险越大
如何对抗和利用方差
过增加本钱的方式对抗波动性
有了足够的本钱,也就有了把游戏继续下去,去搏数学期望的可能
通过人为设计主动扩大波动性
部分人不中奖,但一等奖、特等奖的奖金特别高,甚至高达500万
精彩留言
一个靠谱的人,一个情绪稳定的人,一个很多人眼中的好人,都是在行为、情绪、工作领域方差比较小的人
所以,这些人一般都是挺无趣的人……那怎么判断他们的靠谱是装出来的,还是真的如此呢?
一般看他们私下会不会有很多异性喜欢,会不会有很多朋友。如果有,可以怀疑他们有反差极大地一面。
收集“上帝”的骰子
概率分布:认识现实世界的数学模型
随机变量与概率分布
随机变量
把随机事件可能的结果抽象成一个数字,每个数字对应一个概率。这个随机变化的数字,就是随机变量。
概率分布
把随机变量所有的结果和它对应的概率全部统计出来后,就是概率分布。
用模型代表现实世界的规律
不同的数学公式(模型),代表一种独特的变化规律
真理只有一个,哲人用不同的语言表达——《吠陀经》
常见的3中概率分布模型的表示方法
分类
数学公式
列表
画图
优缺点
列表很直观,但来回查表比较繁琐
画图很形象,但看图时往往会有一些误差
公式很简洁,也很精确,但门槛比较高,很多人看不懂
用模型不断逼近世界的真相
一般情况下,面对一个无法解释的现象,专家会先假设它服从某个概率分布模型,然后再去验证假设。
概率分布就好比一个工具箱,一个个的概率分布模型就好比是工具箱里的工具。遇到问题,我们从工具箱里找工具解决。如果工具选错了,就得重新选择。
正态分布:最简单最重要的概率分布
正态分布是概率分布中最重要的分布
图示
正态分布的3个数学特性
均值就是期望
在正态分布中,平均值就代表随机事件的价值。
在正态分布里,平均值才具有这样的意义。如果不是正态分布,均值可能就没啥意义了。
极端值很少
极端值出现的概率很低
端值对均值的影响很小
正态分布是非常稳定的
标准差决定胖瘦
标准差就是方差的平方根,也能用来描述随机变量的波动情况
标准差越大,数据的波动越剧烈,钟形曲线就越矮胖
标准差越小,数据越集中,钟形曲线就越高瘦
不同的正态分布曲线的比较
只有均值不同,能比较好坏
只有标准差不同,能比较波动
标准差和均值都不同,能比较专业和业余
专业就是均值更高,标准差更小,业余恰恰相反
中心极限定理:正态分布是概率分布的神
为什么说正态分布是“神”
合法性:中心极限定理提供保证
正态分布是必然产生的
大量独立的随机变量相加,无论各个随机变量的分布是怎样的,它们相加的结果必定会趋向于正态分布。
中心极限定理 VS 正态分布
中心极限定理是因,正态分布是果
因为中心极限定理存在,所以正态分布才必然正确
正统性:正态分布是所有分布的参照系
在统计学中,当我们不知道某个随机事件服从什么分布的时候,最常见的方法就是假设它服从正态分布,然后再用数据验证。
态分布非常常见,所以假设一个随机事件服从正态分布,比假设其他分布的成功率更高。
正态分布能像神一样,给我们指明分析的方向
这个随机事件不服从正态分布,那它就一定不满足正态分布背后的中心极限定理。而不满足中心极限定理,我们就能知道——要么是它的影响因素不够多,要么是各种影响因素不相互独立,要么是某种影响因素的影响力太大等等……这时候,接下来的研究也就有了明确的方向。
主宰性:正态分布是世界的宿命
正态分布普遍存在
世界上为什么会有这么多正态分布?就是因为很多事情都是多个随机因素共同作用的结果。
所有分布最终都会变成正态分布
所有的分布,不是正态分布,就是在变成正态分布的路上。
正态分布是世界的宿命
正态分布就是所有已知均值和方差的分布中,信息熵最大的一种分布
按照正态分布的钟形曲线分布和演化,就是每个随机事件的必然宿命,好像冥冥中自有定数
幂律分布:给人带来希望的魔鬼
无标度:幂律分布的数学特征
二八法则,其实就是幂律分布最直观的表现。
在任何观测尺度下,幂律分布都呈现同样的分布特征
图示
幂律分布是个无法预测的魔鬼
幂律分布让平均数失去意义
幂律分布让原本不会发生的极端事件发生
幂律分布完全不可预测
eg:沙堆模型
可怕的魔鬼带来新希望
。幂律分布产生的原因,目前没有统一的答案。各种解释众说纷纭,谁也说服不了谁。
在从无序到有序这个熵减的过程中,幂律分布必然发生
幂律分布存在的地方,看似凶险,却恰恰是对抗熵增,对抗死寂,对抗死亡的角斗场,是我们的希望之光。
泊松分布:打开统计判断的大门
泊松分布的公式及意义
对长期理解不到位,是概率问题的结果经常反直觉的关键。
不是求解整体发生率,而是求发生次数的概率。
整体发生事件概率≠一定时间发生次数的概率,后者要用泊松分布
公式
图示
泊松分布的数学性质
泊松分布是正态分布的一种微观视角,是正态分布的另一种面具
泊松分布的间隔是无记忆性的
由于泊松分布间隔的无记忆性,所以一定存在一些短间隔和长间隔,而且它们很难一长一短、一长一短这样有规律的出现,而是会混杂着出现,否则就不叫随机了。
打开统计推断的大门
在泊松分布之前,概率和统计是两个不同的学科。
概率研究未发生的随机事件,统计描述已发生的现实。换句话说,那会儿只有描述统计,没有推断统计。
泊松分布开启了推断统计的大门,第一次把概率和统计连接在一起,不仅让统计学变得更有力量,也促进了其他科学的发展。
假设检验
基于概率反证法的统计推断
释义
假设检验
如果能证明一个结论发生的概率特别特别小,我们就可以推翻这个结论,接受和它相反的结论。这个推断的过程就叫“假设检验”。
先假设再检验,这就是假设检验的基本思路。
应用
假设检验一诞生就席卷了各个领域,几乎成为现代医学、心理学、经济学、社会学,乃至计算机科学等学科研究的底层方法之一。
基于概率反证法的统计推断
H0(零假设)和H1(备择假设)
P值
显著性水平
可以把显著性水平想象成一把刀,一刀剁下去,刀这边是“不能推翻H0”,刀那边是“推翻H0,接受H1”
概率分布是假设检验的基础
假设检验是基于概率的反证法,而要用概率的反证法,就要用到概率分布。
以概率分布为基础,得到靠谱、有价值的结论,正是概率分布的意义所在。
为什么会导致错误结论?
假设性检验的瑕疵
忽视小概率事件
用来假设检验的,却只是一些个别的样本。
既然假设检验要从个别推导全部,就一定会忽视一些极端的小概率的情况。这是它从娘胎里就带着的基因缺陷,没法改变。
导致系统性偏差
只要不断改变样本,就能不断改变P值,最终总能找到一个非常小的P值,也就能推翻原假设,得到一个自己想要的结论。
显著性水平设置不好导致错误
显著性水平的设置要跟问题联动
用错分布导致错误结论
想要把假设检验用好,还得选对分布才行。
用错了分布,结果必然是毫无意义的。
猜测“上帝”的底牌
条件概率:贝叶斯公式的基础
条件概率:如果一个随机事件的概率会因为某个条件而产生变化,那在这个条件发生的情况下,这个随机事件发生的概率就是条件概率。
条件不一样,概率就会发生变化
一切概率都是条件概率
结合具体情况,概率就有可能出现偏差。
有些条件可能不明显(隐藏条件),但忽略这些条件就可能得到错误的结果。
操纵条件,改变概率
运用条件概率识别骗局,避免被套路
条件概率只表示统计意义上的相关性,并不代表因果关系。
操纵条件改变概率,为自己赢取优势
eg:高频交易
贝叶斯推理:概率是对信心的度量
为什么需要贝叶斯定理
概率问题分两种
第一种,是我们知道“原因”,要去推测某个“现象”
另一类概率问题——看到了一些“现象”,要去推测背后的“原因”(“逆概率”问题)
需要用贝叶斯推理
基本逻辑
根据新信息不断调整对一个随机事件发生概率的判断
在贝叶斯的世界里,概率本质上是对信心的度量,是我们对某个结果相信程度的一种定量化的表达。
两大优势
起点不重要,迭代很重要
贝叶斯最后一定会无穷逼近于真理
信息越充分,结果越可靠
起点不重要,迭代很重要,就需要保持充分的开放和积累
信息越充分,结果越可靠,又要求随时调整、不断逼近真相
贝叶斯计算:定量解决逆概率问题
公式
P(A|B)= P(B|A)x P(A)/ P(B)
释义
现象B出现的情况下事件A发生的概率,等于事件A发生时现象B出现的概率,乘以事件A发生的概率,再除以现象B出现的概率。
意义
对于逆概率这种难搞的概率问题,我们从此有了简洁的计算公式。
从数学上,贝叶斯老先生并没有发明任何东西,他只是对条件概率公式做了简单变形。如果你相信条件概率公式,就得坚信贝叶斯公式也一定正确。
先验概率可以任性设置
先验概率设置需遵循的3点
相信历史数据
参考专家意见
平均设置概率
如果既找不到数据,又找不到专家,就可以平均划分概率,总不至于偏得离谱。
调整因子必须客观
P(B|A)和P(B)这两个数一定是客观的,必须找到具体的客观值,而不能拍脑袋随便设定
贝叶斯计算难度不是在计算本身,而是寻找调整因子的客观数据。
主观与客观:不同的概率学派在争什么?
贝叶斯和频率法的区别
频率法和贝叶斯最大的差异就是两个方法的假设不一样
频率法,更像是做题,必须有明确的、严格的前提约束,严格界定好所有的条件
贝叶斯没有什么限制条件,只是在这一次次获得新信息、重新计算的过程中迭代自己的判断。
共同解决现实问题
频率法和贝叶斯这两种方法都是基于严格的数学证明和推导,都是客观的,但在使用的过程中,都会或多或少的产生主观性。
在现在的数学领域,应用数学家基本是不太讨论这些问题的,而是两者都用,哪个好用用哪个。
频率法和贝叶斯就像概率论的两个儿子,虽然两个儿子性格不同,但它们常常合作解决现实问题。这就叫“兄弟同心,其利断金”。
结语 | 原则:怎样提高自己的概率思维
对抗直觉,能算就算
什么是反直觉?本质上就是直觉错判了一件事的概率
寻找条件,增大概率
想要成功,就要找到对自己成功影响最大的那个条件概率。
换句话说,想要成功,就是找到最大化概率的条件。
相信系统,长期主义
所谓坚持,所谓努力,其实就是寻找一个大概率的方向,然后相信系统,相信长期主义