导图社区 概率统计
一到七章,包含了概率论的基本概念、随机变量及其分布、多为随机变量及其分布、随机变量的数字特征等内容。
编辑于2021-08-23 21:03:35概率统计
概率论的基本概念
随机试验(E)
特点
相同条件下可重复进行
每次可能结果不止一个,且事先明确所有可能结果
试验前无法确认结果
样本空间(S)
E的所有可能结果的集合
样本点
S的每个元素
E的每个结果
事件(随机事件)
S的子集
基本事件
由一个样本点组成
必然事件
一定发生的
S
不可能事件
一定不发生
∅
事件关系及运算
包含
B包含A
A发生必导致B发生
A包含B且B包含A 即A=B
A与B相等
和事件
A∪B
A、B的至少一个发生就发生
积事件
A∩B
A、B同时发生时发生
差事件
A-B
A发生B不发生时发生
互斥(互不相容)
A∩B=∅
A、B不能同时发生
逆事件(对立事件)
A∪B=S且A∩B=∅
A、B每次有且仅有一个发生
频率
频数
n次试验中A发生的次数
频数与试验次数的比值
性质
0≤f≤1
fn(S)=1
A1,…,An两两互不相容,fn(A1∪…∪An)=fn(A1)+…+fn(An)
概率P(A)
定义
略(P7)
性质
非负性:P(A)≥0
规范性:P(S)=1
可列可加性:A1,A2,…两两互不相容,P(A1∪A2∪…)=P(A1)+P(A2)+…
P(∅)=0
有限可加性:A1,A2,…,An两两互不相容,P(A1∪A2∪…∪An)=P(A1)+P(A2)+…+P(An)
A包含于B时,P(B-A)=P(B)-P(A),P(B)≥P(A)
P(A)≤1
加法公式:P(A∪B)=P(A)+P(B)-P(AB)
概形
古典(等可能)
放回
不放回
超几何分布
条件概率
P(B|A)=P(AB)/P(A)
乘法公式
P(AB)=P(B|A)P(A)
全概率公式
划分
B1,B2,…,Bn为E的一组事件 BiBj= ∅ ,i≠j,i,j=1,2,…,n B1∪B2∪…∪Bn=S 称B1,B2,…,Bn为S的一个划分
A为E的事件,B1,B2,…,Bn为S的一个划分,P(Bi)>0, 则P(A)=P(A|B1)P(B1)+…+P(A|Bn)P(Bn)
贝叶斯公式
A为E的事件,B1,B2,…,Bn为S的一个划分,P(A)>0,P(Bi)>0,
独立性
A,B相互独立
P(AB)=P(A)P(B)
P(B|A)=P(B)
A与B的逆,A的逆与B,A的逆与B的逆均相互独立
A,B,C相互独立
P(AB)=P(A)P(B) P(AC)=P(A)P(C) P(BC)=P(B)P(C) P(ABC)=P(A)P(B)P(C)
n个事件相互独立
任意2,3,…,n个事件积事件的概率等于各事件概率之积
任意k(2≤k≤n)个事件也相互独立
将任意多个事件换成各自的对立事件仍相互独立
随机变量及其分布
随机变量
定义
P31
离散型随机变量
随机变量的值为有限个或可列无穷多个
概率
任意概率大于等于0
概率之和为1
分布律
P{X=xi}=pk,k=1,2,…
分布
(0-1)分布
二项分布
伯努利试验
E只有两个结果
n重
独立重复n次
X~B(n,p)
泊松分布
可查表
泊松定理
通常n大于20,p小于0.05就可使用
分布函数
F(x)=P{X≤x},-∞<x<+∞
P{x1<X≤x2}=F(x2)-F(x1)
性质
不减
0≤F(x)≤1
F(-∞)=0
F(+∞)=1
右连续
连续型随机变量
对F(x),存在非负可积函数f(x),对任意x有
概率密度(函数)
f(t)
性质
非负
对任意x1,x2(x1≤x2),P{x1<x≤x2}=F(x2)-F(x1)=
若f(x)在点x处连续,则有F'(x)=f(x)
分布
均匀分布
指数分布
正态分布
性质
关于x=μ对称
x=μ时取得最大值
在x=μ±σ处有拐点,以Ox轴为渐近线
标准正态分布
μ=0,σ=1
可查表
上α分位点
P{X>zα}=α
随机变量的函数的分布
离散型(分布律)
Y=f(X),Y的概率为Y的各个取值对应X的概率
连续型(概率密度)
多维随机变量及其分布
二维随机变量
可推广到n维
分布函数
F(x,y)=P{X≤x,Y≤y}
性质
不减
值域[0,1]
任意固定的y,F(-∞,y)=0
任意固定的x,F(x,-∞)=0
F(-∞,-∞)=0
F(∞,∞)=1
F(x,∞)和F(∞,y)属于边缘分布
关于x,y均为右连续
离散型
与一维类似
联合分布律
连续型
与一维类似
联合概率密度
性质
f(x,y)≥0
边缘分布
边缘分布函数
边缘分布律
边缘概率密度
条件分布
条件分布律
条件概率密度
条件分布函数
相互独立
可推广到n维
定义
二维正态分布
相关系数为0
(在第四章)
相关定理
函数的分布
Z=X+Y
X与Y相互独立时
称为卷积公式,记作
推广
有限个相互独立的正态随机变量的线性组合仍然服从正态分布
M=max{X,Y}
推广
N=min{X,Y}
推广
随机变量的数字特征
数学期望E(X)
又称期望,均值
离散型
连续型
函数(二元为例)
均要求等号右侧式子绝对收敛
离散型
连续型
性质
C为常数,E(C)=C
E(CX)=CE(X)
E(X+Y)=E(X)+E(Y)
X,Y相互独立时,E(XY)=E(X)E(Y)
方差D(X),Var(X)
标准差,均方差
计算式
性质
D(C)=0
D(CX)=C²D(X)
D(X+C)=D(X)
D(X+Y)=D(X)+D(Y)+2Cov(X,Y)
X,Y相互独立时
D(X+Y)=D(X)+D(Y)
D(X)=0的充要条件为P{X=E(X)}=1
标准化变量
切比雪夫不等式
协方差Cov(X,Y)
Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}
计算式
Cov(X,Y)=E(XY)-E(X)E(Y)
性质
Cov(X,Y)=Cov(Y,X)
Cov(X,X)=D(X)
Cov(aX+bY)=abCov(X,Y)
相关系数
性质
均方误差e
用来衡量a+bX近似表达Y的好坏程度
与独立的关系
相关不独立
独立不相关
当X,Y服从二维正态分布时二者等价
相关系数仅用于衡量二者的线性关系 独立则包括各种关系
矩
X的k阶(原点)矩
期望为一阶原点矩
X的k阶中心矩
方差为二阶中心矩
X和Y的k+l阶混合矩
X和Y的k+l阶混合中心矩
协方差为二阶混合中心矩
协方差矩阵
实际上是一个对称阵
n维正态分布
概率密度
性质
每个分量均为正态随机变量
X1,X2,...,Xn为正态随机变量且相互独立,则(X1,X2,...,Xn)为n维正态随机变量
(X1,...,Xn)服从n维正态分布的充要条件是X1,...,Xn的任意线性组合l1X1+...+lnXn服从一维正态分布(l1,...,ln不全为0)
(X1,...,Xn)服从n维正态分布,Y1,...,Yk为Xj的线性函数,则(Y1,...,Yk)也服从多维正态分布
(X1,...,Xn)服从n维正态分布,则X1,...,Xn相互独立与X1,...,Xn两两不相关是等价的
常见分布的期望及方差
X~B(n,p)
E(X)=np
D(X)=np(1-p)
X~π(λ)
E(X)=λ
D(X)=λ
X~U(a,b)
E(X)=(a+b)/2
D(X)=(b-a)²/12
X服从参数为θ的指数分布
E(X)=θ
D(X)=θ²
X~N(μ,σ²)
E(X)=μ
D(X)=σ²
大数定律及中心极限定律
大数定律
依概率收敛
性质
弱大数定理 (辛钦大数定理)
伯努利大数定理
中心极限定理
独立同分布
李雅普诺夫定理
棣莫弗-拉普拉斯定理
样本及抽样分布
基本概念
总体
试验的全部可能的观察值
有限总体
容量有限
无限总体
容量无限
个体
每一个观察值
容量
总体中包含的个体的个数
样本
X是具有分布函数F的随机变量,若X1,...,Xn为从分布函数F(或总体F、或总体X)得到的容量为n的简单随机样本,简称样本
样本值
其观察值x1,...,xn
又称为X的n个独立的观察值
直方图
步骤
根据最大值、最小值等分为k个区间,小区间长度称为组距,端点称为组限
n较大时k取10~20
n<50时k取5~6
尽量避免某些小区间频数为0
分点通常取比数据精度高一位
数出每个小区间内的数据的频数,算出频率
在图上自左向右作出以频率/组距为高的小矩形
箱线图
样本分位数
样本为n的样本观察值x1,...,xn,样本p分位数(0<p<1)记为xp
性质
至少np个观察值小于或等于xp
至少n(1-p)个观察值大于或等于xp
求法
将x1,...,xn由小到大排序
若np不为整数
取位于[np]+1处的数
若np为整数
取对应两个数的均值
特别
p=0.25
称为第一四分位点
记为Q1
p=0.5
称为样本中位数
记为Q2或M
p=0.75
称为第三四分点
记为Q3
作法
画一水平数轴(垂直也可),轴上标出Min, Q1, M, Q3, Max,数轴上方画一个上下侧平行于数轴的矩形箱子,箱子的左右两侧位于Q1, Q3的上方,在M上方画一条在箱子中的垂直线段
自箱子左侧引一条水平线至Min,同一高度自箱子右侧引一条水平线至Max
对数据性质的体现
中位数所在的位置就是数据集的中心
四个区间中,区间较短时,表示落在该区间中的点较集中,反之较为分散
若M位于箱子的中间,则数据分布较为对称;若Min离M的距离大于Max离M的距离,则表示数据分布向左倾斜,反之表示数据向右倾斜
能看出分布尾部的长短
修正箱线图
疑似异常值
某一观察值不寻常地大于或小于该数集中的其他数据
四分位数间距
IQR=Q3-Q1
若数据小于Q1-1.5IQR或大于Q3+1.5IQR,认为其为疑似异常值
作法
画一水平数轴(垂直也可),轴上标出Min, Q1, M, Q3, Max,数轴上方画一个上下侧平行于数轴的矩形箱子,箱子的左右两侧位于Q1, Q3的上方,在M上方画一条在箱子中的垂直线段
计算IQR,若某一数据小于Q1-1.5IQR或大于Q3+1.5IQR,认为其为疑似异常值,画出疑似异常值,用*表示
自箱子左侧引一条水平线至去除疑似异常值后的最小值,同一高度自箱子右侧引一条水平线至去除疑似异常值后的最大值
抽样分布
基本概念
统计量
X1,...,Xn为总体X的一个样本,g(X1,..,Xn)为X1,..,Xn的函数,若g中不含未知参数,则称g(X1,...,Xn)是一统计量
样本平均值
样本方差
样本标准差
样本k阶(原点)矩
样本k阶中心矩
经验分布函数
用S(x)表示X1,...,Xn中不大于x的随机变量的个数,经验分布函数Fn(x)=S(x)/n
n趋向正无穷时Fn(x)以概率1一致收敛于分布函数F(x)
抽样分布
统计量的分布
分布
性质
n小于等于40时可查表
t分布
性质
n小于等于45时可查表
F分布
性质
可查表
正态总体的样本均值与样本方差的分布
参数估计
点估计
相关概念
估计量
估计值
矩估计法
最大似然估计法
似然函数
连续型
但是若无法解出结果,应利用原函数的导数进行求解
最大似然估计量&最大似然估计值
若有多个未知参数,应求对应对数似然函数的偏导数
估计量的评选标椎
无偏性
有效性
对于同一未知参数的两个无偏估计量,方差小的更有效
相合性
区间估计
相关概念
单侧同理
步骤
定枢轴量
枢轴量指由样本和未知参数构成的、分布不依赖于任何未知参数的函数
求置信区间
(0-1)分布
相关步骤见课本P168(使用了中心极限定理)