导图社区 人卫第8版《卫生统计学》——第四章《基本概率理论》
本思维导图为人卫第8版《卫生统计学》第四章《基本概率理论》的内容,本章的重点:1、二项分布、Poisson分布、正态分布的概念及其适用条件2、标准正态分布与一般正态分布的概念、关系、特点3、随机变量的均数,要做好随机变量的均数和样本均数的区别,在后续知识点应用时,要明确使用的是哪一个
编辑于2022-08-04 17:59:16 广东社区模板帮助中心,点此进入>>
第四章 基本概率理论
概率
机会与不确定性
随机性
用于刻画事件的不确定性
必然性/确定性
在给定条件下某种现象的结果是必然的
随机事件
1、常常指那些尚未发生的实验结果
2、指随机实验的不同结果
3、随机事件是随机现象中的一种或一组结果,随机事件是随机现象中所有可能结果的一个子集。
定义
概率
1、度量事件发生可能性大小的数量指标,称为概率
2、随机现象中的概率可被定义为随机实验无限重复中某随机事件所占的比例
事实基础
投掷一枚硬币或从一人群中进行一次随机抽样,其结果都无法提前预测,因为当你重复投掷硬币或抽取样本时结果会发生变化。尽管如此,大量的重复结果仍会呈现出一定的规律,这个规律仅在多次重复后才会清晰地出现
确定性现象/必然现象
服从特定的因果规律,从一定的条件出发,一定可以推出某一结果,这类现象称为确定性现象
随机现象
是指在个别实验中结果不能预测,但在大量重复实验后结果展现出一定规律的现象
必然事件
在实验中必定发生的事件
不可能
在实验中不可能发生的事件
基本性质
任何概率取值为0~1
一个事件的概率为0.5意味着在长期实验中这个事件发生占了总实验次数的一半
所有可能的结局的概率加起来必须等于1
如果两个事件互斥(没有共同可能的结局),两个事件至少一个发生的概率就是两个事件单独发生的概率之和,即概率的加法原则
一个事件不会发生的概率等于1减去这个事件发生的概率
事件的概率运算
加法法则
1、事件A与事件B之和是指事件A、B中任意一个事件发生,如果A和B互斥,那么Pr(A或B)=Pr(A)+Pr(B)
互斥事件不是独立事件,因为事件A发生的对事件B的发生有影响
2、如果多个互斥事件之和,则相同
条件概率
独立事件
1、事件A是否发生对事件B发生的概率没有影响,这样的两个事件称为互相独立事件
2、如果Pr(B|A)=Pr(B),则两个事件独立
条件概率
Pr(A|B)表示条件概率,它指在知道另一个事件B发生的情况下,某一事件A发生的概率
乘法法则
1、如果事件A和事件B同时发生,则称为两个事件的积,记作{A和B}
2、乘法法则
Pr(A和B)=Pr(A)Pr(B|A)
Pr(A、B和C)=Pr(A)Pr(B|A)Pr(C|A和B)
条件概率与树状图
概率分布
随机变量
随机实验中产生的结果用数值表示的变量叫做随机变量
离散型随机变量
离散型随机变量
概率分布
1、离散型随机变量X所有可能的取值可以一 一被罗列出来,其概率分布列出了所有取值及对应的概率
eg.X 的取值范围 : x1 x2 x3…… 概率: Π1 Π2 Π3……
其中概率Π必须满足以下两个条件:
(1)概率Π的取值范围为0~1
(2)Π1+Π2+……=1
计算某个事件的概率只需要将构成这个事件各个结果的概率相加即可
2、大多是情况下,随机变量取值个数都是有限的
3、在实验中,当使用简单随机抽样从一个总体中选择n个样本并用于询问答案是或否的问题时,可以考虑上述投掷硬币n次的模型
连续型随机变量
连续型随机变量
1、连续型随机变量X是取值范围充满某一数值曲线的变量,即连续型随机变量在忽略测量精度的条件下可以渠道该区间中的任意一个值
2、X的概率分布由概率密度曲线表示
3、某事件的概率可以通过概率密度曲线下对应的面积得到
4、连续型变量是一种数学上的抽象概念。在现实中,变量一般都有某种度量单位,只能在该单位下测量到一定的精度,如身高的测量,单位是厘米的话,精度一般为小数点后一位。故实际操作测量后得到的这类变量必然是离散的,但实际的情况是即使两个相等的值通常也只是近似相等,真实的情况是两者的差异受限于测量精度而无法体现
5、另一个使用连续型堆积变量的原因是其更容易进行统计处理
概率密度曲线
1、一种分配概率的方式——概率密度曲线下面积
2、定义:概率密度曲线是位于横轴上方用于描述概率分布的曲线,该曲线下面积为1,对应概率为1.某件事件在概率密度曲线下对应某一区间的面积即为该事件的概率
3、连续型概率分布中某一个具体结果的概率都趋近于0,只有在一个区间内才有概率
随机变量的均数和方差的加法法则
⚠️这里用于描述概率分布特征的统计量(如均数和方差),讲的是具有某种概率分布的随机试验无限次重复后得到的特征指标,如将赌博进行10万次以上,这10万次随机试验包括输赢两种结果,其中赢的比例为6/11,输的比例为5/11,因为试验次数足够多,所以可以把这一比例看成是相应的概率,然后通过均数这个数值型指标对此分布进行描述
随机变量的均数
与第一章的均数不同
1、第一章中均数是某样本所有观测值的平均值,是描述样本数据特征的一个统计量
2、这里的随机变量是指某个随机实验的数值型结果,如果将某个随机实验大量重复足够多次并且记录这个随机变量的结果值,那么可以把这个随机变量的均数看作是一个非常大的样本量的平均值,在这里我们可以把这些结果的相对频率看成它们的概率
3、如果把全部随机实验看成是相应的总体,那么这些随机变量的均值就是这个总体的一个参数(这里的参数是指描述总体分布的特征数值)
随机变量的均数与样本均数
1、概率是对长期大量重复某实验后某个事件发生频率的理想描述,概率分布的均数同样描述的是长期大量重复实验后的平均值
2、用μ来表示概率分布均值
3、我们经常会用到μx来表示随机变量X的均值
4、对于一个特定总体而言,样本观测值会随抽取样本的不同而变化,相应的样本均数也会因样本的不同而变化,但随机变量X的均数是一个描述总体特征的参数,它是随机变量所有可能取值的平均值。
5、如要了解某地区某一年龄段青少年的平均身高,假定随机抽取100名青少年,抽样过程中导致抽出的每个青少年的身高为一个随机变量,每次抽样的样本均数会随之改变,但随机变量的均数是概率分布特征的一个参数,是一个客观存在的固定数值,并不会随着抽样样本的不同而发生改变。此时随机变量X的均数就是某地区所有青少年的平均身高,描述该总体人群的平均身高水平
与总体参数的概念对应
6、一般地,随机变量X地均数是指随机变量所有可能值的平均,但不是一般意义下的平均,是要把每一个取值都按照它的概率加权之后的平均,每个可能取值的权重就是X取这个值的概率。
随机变量的均数也称作X的期望值
我们并不期望随机抽取一个观测值就能接近X的期望值,我们强调的是随机变量X的均数或这期望值是在长期大量重复某随机实验产生的所有结果值的平均
离散型随机变量的均数
=每个可能的取值与其概率乘积之和就是X的均数;将概率作为相应取值的权重说明了均数就是长期大量重复实验下随机变量的平均值这一含义
连续型随机变量均数
需要用到微积分等高等数学知识
随机变量之和的均数计算法则
加法法则
如果X和Y是两个随机变量,随机变量X和Y的和记为随机变量Z,即Z=X+Y,则随机变量Z的均数μz可表示为μ(x+y),那么随机变量X与Y之和的均数就等于X的均数加上Y的均数
注意不要求相互独立,该性质与均数的求解形式有关
随机变量的方差
定义:是每个结果值与均数的差值(即离均差)的平方乘以该值的概率后再相加得到的平均值
注意与样本的方差加以区分
随机变量的方差同样是一个客观的固定值,不会随着抽样样本的不同而改变,描述随机变量X的离散程度
离散型随机变量的方差
连续型随机变量的概率分布——正态分布
方差与标准差的两条法则
概念
相关性
当随机变量之间互相不独立时,他们和的方差取决于他们之间的相关性和它们各自的变异性
如果随机变量不相互独立,他们的方差不能直接相加
独立性
如果随机变量之间相互独立,这些变量值之间的此种关联性就不存在了,那么他们的方差就可以直接相加
如果随机变量之间互相独立时,他们可以直接相加
相互独立随机变量方差的加法法则
σ2(bX)=b2σ2(X)
X是随机变量,b是常数→随机变量X与常数b的乘积的方差就等于X的方差乘以常数b的平方
σ2(X+Y)=σ2(X)+σ2(Y)
如果X和Y是相互独立的两个随机变量→X和Y的方差就等于X的方差加上Y的方差
离散型分布
重点为概念及其适用条件
二项分布
背景——伯努利实验
2、二项分布描述的是n次伯努利试验中”成功“次数的分布,如果n次实验中有k次成功,(n-k)次失败,则其概率为,但是k次成功可以再n次试验的任何地方出现,因此X次成功分布再N次实验中共有个不同的方式
1、伯努利实验是只有两种可能结果的单次随机实验,其结果可能为“成功”或“失败“。
2、二项分布描述的是n次伯努利试验中”成功“次数的分布,如果n次实验中有k次成功,(n-k)次失败,则其概率为________,但是k次成功可以在n次试验的任何地方出现,因此X次成功分布在N次实验中共有_______个不同的方式
二项分布
定义
将一个”成功“概率为的伯努利实验独立地重复n次,令X表示出现在这n次实验中”成功“出现地次数,X可能取的值是0、1、2、……,n,根据n次伯努利实验中”成功“总次数等于k的概率计算公式,得到X的概率分布为: Pr(X=k)=,k=0、1、2、……,n
将一个”成功“概率为π的伯努利实验独立地重复n次,令X表示出现在这n次实验中”成功“出现地次数,X可能取的值是0、1、2、……,n,根据n次伯努利实验中”成功“总次数等于k的概率计算公式,得到X的概率分布为: Pr(X=k)=________, k=0、1、2、……,n
试验次数n时固定的
随机变量X服从参数为n和π的二项分布,记作X~B(n,π)
注意:本章所学的二项分布、柏松分布和正态分布都是描述总体的分布,后面学的t分布、F分布和卡方分布描述的是样本的分布
两个参数:n和π
性质
X的均数μx=nπ
X的方法σ2X=nπ(1-π)
X的标准差=根号方差
π为0.5的图形是对称的,方差最大为0.25n;π越偏离0.5,对称性越差
对于同一个π,n越大分布越趋于对称,当n → ∞,只要π不太靠近0或1(特别是nπ>5且n(1-π)>5时),二项分布接近于正态分布
适用条件
互斥性
每次随机实验只会发生两种对立的可能结果之一
来源于伯努利实验
稳定性
在相同实验条件下,每次实验产生某种结果(如成功)的概率固定不变
实际工作中,参数π往往未知,当某随机实验重复很多次时,某结果发生的频率可看作是它的概率
独立性
重复实验是相互独立的,即每次实验产生何种结果不受其他各次实验的影响
⚠️:通过检查二项分布的适用条件,可以区分什么情况下能用二项分布,什么情况下不能用二项分布
结合教材P95,例4-14进行理解
Poisson分布
常用于稀有事件的发生次数的概率分析
定义
若离散型随机变量X,其取值为0,1,2,……,相应的概率为: Pr(X=k)=,k=0,1,2,…… 则称此分布为服从参数为的Poisson 分布,式中e=2.71828为自然对数的底,是常数 是唯一参数,为Poisson分布的均数(>0)
相当于:二项分布在“成功”概率π很小,样本含量(试验次数)n趋向于无穷大时,近似于Poisson分布
若离散型随机变量X,其取值为0,1,2,……,相应的概率为:Pr(X=k)=_____, k=0,1,2,……则称此分布为服从参数为的Poisson 分布,式中e=2.71828为自然对数的底,是常数, μ是唯一参数,为Poisson分布的均数(μ>0)
性质
数学上可验证,Poisson分布的方差与均数相等,均为μ
是方差,不是标准差
可加性:X~P(μ1),Y~P(μ2),若X与Y独立,则X+Y~P(μ1+ μ2)
主要应用于精度问题,如水质检测中菌落总数的计数;另外柏松分布只有可加性,没有可乘性、可减性
图形分布规律:呈非对称分布,分布图的形态取决于μ,μ<5时为偏峰(只可能是正偏),μ愈小分布愈偏,随着μ的增大,分布趋于对称
μ>=20时Poisson分布近似于正态分布
常见实例
发射性物质单位时间内的发射次数
单位体积内粉尘的计数
每滴海水中浮游生物数量
某一区域内野生生物或昆虫数量
显微镜下细胞或微生物计数
自然灾害发生的次数
汽车站台的候客人数
机器出现的故障数
连续型分布
正态分布
也称高斯分布
标准正态分布
定义
标准正态分布的概率密度函数为,-∞<x<∞, 此时称随机变量X服从均数为0,标准差为1的标准正态分布,记为X~N(0,1) 其图形称为标准正态曲线 是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟形曲线
标准正态分布的概率密度函数为________,-∞<x<∞,
此时称随机变量X服从均数为0,标准差为1的标准正态分布,记为X~N(0,1)
其图形称为标准正态曲线
是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟形曲线
标准正态分布界值表
对于服从标准正态分布的随机变量,可根据附表1或统计软件求出任何一个取值区间的概率一找出对应百分位数的观测值
类似于第一章学习的样本百分位数,一个概率分布的k分位数是一个值,随机变量小于等于该值的概率为k
一般正态分布
定义
函数变换: →y向右平移μ个单位→→y的水平相对位置变宽σ倍→ 经此变换,可得到均数和标准差为任意值的正态分布,其概率密度函数为,-∞<x<∞ 我们就称随机变量X服从均数为μ,标准差为σ的正态分布,记为X~N(μ,)
正态分布是自然界最常见的一种分布,正态分布的特点是中间频数最多,两边频数渐少且对称
函数变换:y=f(x)→y向右平移μ个单位→ y=f(x-μ) → y的水平相对位置变宽σ倍→ y=f[(x-μ)/σ]
经此变换,可得到均数和标准差为任意值的正态分布,其概率密度函数为_________, -∞<x<∞ 我们就称随机变量X服从均数为μ,标准差为σ的正态分布,记为X~N(μ,σ2)
正态曲线:一条高峰位于中央,两边逐渐下降并左右完全对称,曲线两端永远不与横轴相交的钟形曲线
特点
1、曲线形状为单峰、钟形,以均数μ为对称轴,左右对称
2、x=μ时,正态分布概率密度函数f(x)取得最大值,两边逐渐减少,在μ(+-)σ处有拐点
3、曲线尾端不与横轴相交
4、曲线由μ和σ两个参数决定,μ决定曲线的峰值位置(位置参数),σ决定曲线的形状(离散度参数)
5、曲线下面积为1,横轴上某一区间和曲线所夹面积与总面积之比,相当于变量值落在该区间的概率(概率分布)
6、可加性:X~N (μ1,σ12),Y~N (μ2,σ22),若X与Y独立,则X+Y~N (μ1+ μ2,σ12+σ22)
方差和方差直接相加
判断是否为正态分布的情况
1、服从或近似服从正态分布的随机变量都有一个共同的特点,它们可以看成许多微小的,独立的随机因素的综合,而每种因素在正常情况下都不会发挥绝对主导作用。
2、对于任一随机变量是否服从正态分布,我们首先需要画出它的频数直方图或频率密度曲线,当呈现出正态分布趋势后才能加以运用
一般正态分布变量的概率计算
任意正态分布变量的标准变换: 设随机变量,则  这种将变量X先减去分布的均数再除以标准差完成的变换称为标准化变换,而经标准化变换后的变量Z就是服从标准正态分布N(0,1)的标砖正态随机变量,称为X的标准化变量或称为Z分数 通过试验或调查到具体数值后,Z分数的具体取值记作小写情形,即z分数 对z分数可以理解为它与均数之间的差值是标准差的多少倍 z分数不仅可以用来解决一般正态变量的概率计算问题,还可以用来比较不同正态分布中的观测值所对应的概率的大小
任意正态分布变量的标准变换,设随机变量X~N(μ,σ2),则Z=(x-μ)/σ ~N(0,1)
这种将变量X先减去分布的均数再除以标准差完成的变换称为标准化变换,而经标准化变换后的变量Z就是服从标准正态分布N(0,1)的标准正态随机变量,称为X的标准化变量或称为Z分数
通过试验或调查到具体数值后,Z分数的具体取值记作小写情形,即z分数
对z分数可以理解为它与均数之间的差值是标准差的多少倍
z分数不仅可以用来解决一般正态变量的概率计算问题,还可以用来比较不同正态分布中的观测值所对应的概率的大小
标准正态分布与一般正态分布的68-95-99.7法则对比
标准正态分布的68-95-99.7法则: 如果随机变量X~N(0,1),则有: 1、约68%的可能性X分布在区间(-1,1)之内 2、约95% 的可能性X分布在区间(-2,2)之间 3、约99.7%的可能性X分布在区间(-3,3)之内 一般正态分布的69-95-99.7法则 如果随机变量X~N(μ,σ^2),则有 1、约68%的观测值分布在距离均数的1个标准差之内的范围,即(μ-σ,μ+σ) 2、约95%的观测值分布在距离均数的2个标准差之内的范围,即(μ-2σ,μ+2σ) 2、约99.7%的观测值分布在距离均数的3个标准差之内的范围,即(μ-3σ,μ+3σ) “3σ法则”(三倍标准差准则),这个准则常用于产品质量控制中 通常以样本数据的作为实验观测值的上警戒限和下警戒限,以作为实验观测值的上控制限和下控制限
标准正态分布的68-95-99.7法则: 如果随机变量X~N(0,1),则有:
1、约68%的可能性X分布在区间(-1,1)之内
2、约95% 的可能性X分布在区间(-2,2)之间
3、约99.7%的可能性X分布在区间(-3,3)之内
一般正态分布的69-95-99.7法则: 如果随机变量X~N(μ,σ^2),则有
1、约68%的观测值分布在距离均数的1个标准差之内的范围,即(μ-σ,μ+σ)
2、约95%的观测值分布在距离均数的2个标准差之内的范围,即(μ-2σ,μ+2σ)
3、约99.7%的观测值分布在距离均数的3个标准差之内的范围,即(μ-3σ,μ+3σ)
“3σ法则”(三倍标准差准则)
这个准则常用于产品质量控制中,通常以样本数据的x(+-)2s作为实验观测值的上警戒限和下警戒限,以x(+-)3s作为实验观测值的上控制限和下控制限
标准正态分布与一般正态分布的、两者的关系、特点
任何一个一的正态变量都可以通过标准变换转化为标准正态变量,我们也可以通过简单的函数变换将标准正态分布转换为一般正态分布
正态分布的重要性
1、正态分布能够很好地描述一些实际数据的分布,比如生物的许多特性、测量误差、考试分数等
2、正态分布可以很好地近似许多随机事件的结果,如多次投掷硬币的结果
3、正常人体的很多生物学指标服从正态分布,可以利用正态分布制定这些指标的“医学参考值范围”
4、根据3σ法则,可以制定相应的质量控制线和警戒线
5、建立再正态分布基础上的很多统计推断过程也适用于其他近似对称分布
补充
蒙特卡罗模拟