导图社区 第四章基本概率理论
卫生统计学第四章基本概率理论,解释机会(概率)如何描述事件的不确定性,如何运用相关概念来认识客观事物及其规律的思维方法。计算机模拟随机抽样产生随机数的方法(对概率理论的具体实现).
编辑于2022-04-10 20:16:57第四章 基本概率理论
概率
机会与不确定性
机会(随机性):刻画事件的不确定性。(是一种对观察者主观不确定性的表达方式)
确定性/必然性:给定条件下某种现象的结果是必然的
随机现象:用可能性/比例加权的方式预测一组可能的结果。
随机事件:尚未发生的实验结果(由观察者决定,观察者无法确定现象的结果)
概率:机会、不确定性、随机、可能性
概率的定义与基本性质
随机现象:在个别实验中结果不能预测,但在大量重复试验后结果呈现出一定规律的现象
必然现象(确定性现象):服从特定的因果规律,从一定的条件出发,一定可以推出某一结果
随机事件(事件A、B、C):随机实验的不同结果。随机事件是随机现象中所有可能结果的一个子集
必然事件:实验中必定发生的事件
不可能:实验中不可能发生的事件
概率模型:随机现象用数学语言来描述
概率Pr:度量事件发生可能性大小的数量指标。随机现象中的概率可被定义为随机试验无限重复中某随机事件所占的比例。(样本量足够大时得到趋近于准确规律性的结论)
1. 任何概率取值为0到1
2. 所有可能的结局的概率加起来必须等于1
3. 如两个事件互斥(没有共同可能的结局,不可能同时发生),两个事件至少有一个发生的概率是两个事件单独发生的概率之和的(概率的加法原则)
4. 一个事件不会发生的概率等于1减去这个事件会发生的概率(一个事件发生或不发生的概率加起来总是1)
事件的概率运算
加法法则
事件A与事件B的和指A、B中任意一个事件的发生。(互斥事件)Pr(A或B)=Pr(A)+Pr(B)
条件概率
独立事件:事件A是否发生对事件B发生的概率没有影响,这样的两个事件称为相互独立事件
条件概率:Pr(A|B),知道另一个事件B发生的情况下,某一事件A发生的概率,“|”考虑到/在什么条件下
A发生没有提供B是否发生的额外信息:AB独立事件,Pr(B|A)=Pr(B)
乘法法则:假设Pr(B|A)是A发生时B发生的条件概率,事件A和事件B的积({A和B}A和B同时发生)的概率即两个事件同时发生的概率:Pr(A和B) =Pr(A)Pr(B|A)
Pr(A、B和C)=Pr(A)Pr(B|A)Pr(C|A和B)
条件概率与树状图
概率分布
随机变量X/Y
随机实验中产生的结果用数值表示的变量。x表示随机变量X的具体取值。
离散型随机变量
所有可能的取值可以罗列出来,其概率分布列出了所有取值及对应的概率(事件结果取值有限,几乎可以被全部列出,每个事件发生的概率可以通过无限重复次后得出)
概率πi
取值范围0-1
π1+π2+...=1
计算某个事件的概率,只需要将构成这个事件各个结果的概率相加
理论概率分布(直条图):重复无限多次实验时结果的理想化概率分布,完全对称
连续型随机变量
X取值无法一一列出
概率密度曲线:位于横轴上方用于描述概率分布的曲线,曲线下面积为1,对应概率为1,某事件在概率密度曲线下对应某一区间的面积即为该事件的概率。(直方图一种平滑的近似)
连续型随机变量:取值范围充满某一数值区间的变量,即连续型随机变量在忽略测量精度的条件下,可以取到该区间中的任意一个值,X的概率分布由概率密度曲线表示,某事件的概率可以通过概率密度曲线下对应的面积得到。
某一具体结果的概率都趋近于0,只有在一个区间内才有概率
随机变量的均数与方差
描述随机变量的概率分布:统计图表,统计指标(均数,标准差)随机实验无限次重复后得到的特征指标
随机变量的均数μ(X的期望值)
离散型随机变量的均数
每个可能的取值与其概率的乘积之和,就是所求的x的均数
概率πi为相应取值的权重:均数就是长期大量重复实验下随机变量的平均值
随机变量之和的均数计算法则
如果x和y是两个随机变量,随机变量x与y的和记为随机变量z,即z=x+y,则随机变量z的均数μz可表示为μx+y,那么随机变量xy之和的均数就等于x均数加上y的均数。μx+y=μx+μy
描述总体特征的参数,是随机变量所有可能取值的平均值。客观存在的固定数值,不会随着抽样样本不同发生变化。
随机变量的方差σx²
独立随机变量的标准差不具有相加性
离散型随机变量的方差
等于每个可能取值与均数差值的平方,与该值概率相乘之和
描述随机变量X的离散程度。
方差和标准差的两条法则
相关性
当随机变量之间相互不独立时,它们和的方差取决于它们之间的相关性和他们的各自的变异性
独立性
如果随机变量之间相互独立,关联性就不存在了(相关系数为0),它们的方差可以直接相加
相互独立随机变量方差的加法法则
X是随机变量,b是常数,Z=Xb,随机变量Z的方差为:
XY相互独立的随机变量,Z=X+Y,随机变量Z的方差为:
随机变量X的离均平方和的平均值。每个结果值与均数的差值的平方 乘以该值的概率后 再相加得到的平均值,即各结果值的概率就是该值的离均差平方的权重。
二项分布与Poisson分布
离散型分布
二项分布的概念
伯努利实验:只有两种可能结果的单次随机实验,结果可能为成功或失败(由研究者决定)
将一个“成功”概率为π的伯努利实验独立的重复n次,令X表示在这n次实验中成功出现的次数,X可能取的值是0.1.2...n,根据n次伯努利实验中成功总次数等于k的概率计算公式,得到X的概率分布为:
π∈[0,1]
随机变量X服从参数为n(人为设定,决定取值范围)和π(二项分布参数,决定概率分布)的二项分布,记作X~B(n,π)
二项分布的性质
X服从二项分布B(n,π)
1. X的均数μx=nπ
2. X的方差σx²=nπ(1-π)
3. X的标准差σx=√nπ(1-π)
二项分布的适用条件
1. 互斥性:每次随机实验只会发生两种对立的可能结果之一
2. 稳定性:在相同实验条件下,每次实验产生某种结果的概率固定不变(重复无限次数,频率趋向于概率)
3. 独立性:重复实验相互独立,每次实验产生何种结果不受其他各次实验的影响
Poisson分布
稀有事件发生次数的概率分析
服从参数为μ的Poisson分布,常数e=2.71828为自然对数的底,均数=方差=μ>0是唯一的参数。
二项分布在成功概率π很小,样本含量(实验次数)n趋向于无穷大时,近似于Poisson分布
正态分布(高斯分布)
连续型分布:概率密度曲线
标准正态分布
随机变量X服从均数为0,标准差为1的标准正态分布,记为X~N(0,1)。图形为标准正态曲线:高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟形曲线。
概率计算
标准正态分布的68-95-99.7法则
1. 约68%的可能性X分布在区间(-1,1)之内
2. 约95%的可能性X分布在区间(-2,2)之内
3. 约99.7%的可能性X分布在区间(-3,3)之内
一般正态分布
标准正态分布变量与一般正态分布变量
任何一个一般的正态分布变量都可以通过标准变换转化为标准正态变量,反之也行
右移μ,变宽σ(密度曲线下面积标准化为1)
随机变量X服从均数为μ,标准差为σ的正态分布,X~N(μ,σ²)
正态曲线特点
1. 曲线形状为单峰、钟形,以均数μ为对称轴,左右对称
2. x=μ时,正态分布概率密度函数取得最大值,两边逐渐减少
3. 曲线尾端不与横轴相交
4. 曲线由μ和σ两个参数决定,μ决定曲线峰值位置(越大越陡),σ决定曲线的形状(越大越扁平)
正态分布曲线下的面积(在某区间取值的概率)分布规律
1| 正态曲线与横轴间的面积恒等于1或100%
2| 以直线x=μ为对称轴,X>μ与X<μ范围内曲线下面积相等,各占50%
概率计算
任意正态分布变量的标准变换
随机变量X~N(μ,σ²),将变量X减去分布的均数再除以标准差(标准化转换)=标准正态随机变量Z,称为X的标准化变量/Z分数,具体取值为z分数(它与均数之间的差异是标准差的多少倍)。
一般正态分布的68-95-99.7法则
1. 约68%的观测值分布在距离均数1个标准差之间的范围,即(μ-σ,μ+σ)
2. 约95%的观测值分布在距离均数2个标准差之间的范围,即(μ-2σ,μ+2σ)
3. 约99.7%的观测值分布在距离均数3个标准差之间的范围,即(μ-3σ,μ+3σ)
“3σ准则”(三倍标准差准则)用于产品质量控制
上警戒限和下警戒限:x拔±2s
上控制限和下控制限:x拔±3s
正态分布的重要性(应用广泛)
1. 能很好描述一些实际数据的分布,如生物的许多特征、测量误差、考试得分
2. 很好的近似多随机事件的结果,如多次投掷硬币的结果
3. 正常人体的很多生物学指标服从正态分布,可以制定“医学参考值范围”
4. 根据68-95-99.7法则,可以制定相应的质量控制线和警戒线
5. 建立在正态分布基础上的很多统计推断过程也适用于其他近似对称分布
蒙特卡罗模拟
蒙特卡罗模拟的基本思想
常见分布的模拟抽样
正态分布随机数的模拟抽样
二项分布的模拟抽样
蒙特卡罗模拟的主要步骤和应用
解释机会(概率)如何描述事件的不确定性,如何运用相关概念来认识客观事物及其规律的思维方法。计算机模拟随机抽样产生随机数的方法(对概率理论的具体实现)