导图社区 机器学习之统计优化基础
本思维导图总结了机器学习中统计优化的基础知识,如概率基础及实例,最大似然原理和贝叶斯估计,信息论基础,非参数概率模型以及基本优化算法。
编辑于2023-02-13 11:19:50 北京市机器学习 统计优化基础
概率基础
离散随机变量
定义
取值为有限的离散值
概率
先验概率解释
实验之前可以推测出概率,如骰子
直观实验解释
一个事件在很多次实验中出现的频度
边际概率公式(和公式)
全概率公式(积公式)
贝叶斯公式
连续随机变量
概率密度函数
分布函数
概率分布函数F(x)
联合概率分布函数F(x1,x2,...,xm)
概率密度函数
概率密度函数p(x)
联合概率密度函数p(x1,x2,...,xm)
随机变量独立同分布
p(x1,x2,...,xm)=p(x1)p(x2)...p(xm)
随机变量函数的概率密度
一元函数
多元函数组
条件概率密度
联合概率密度函数=条件概率密度函数×边际概率密度函数
一般的条件概率密度函数
条件概率密度函数的链式法则
离散随机变量概率密度函数
冲激函数
抽取性质
随机变量的基本特征
均值、方差、标准差
随机变量函数的期望
自相关矩阵
自协方差矩阵
基本性质
对称
半正定
特征值大于等于零
特征矩阵
自协方差矩阵C特征值对应的特征向量作为列构成的矩阵Q
自协方差矩阵分解
随机特征的蒙特卡洛逼近
基本做法
①通过概率密度函数p(x)产生一组样本集
②通过该样本集逼近概率密度函数
每个样本用一个冲击函数表示
随机变量函数的期望
在概率密度函数p(x)取值大的位置,样本xn会很密集,蒙特卡洛逼近用这种方式反映了概率分布
蒙特卡洛近似逼近风险函数
由于只用样本集逼近,也称为经验风险函数
概率实例
离散随机变量示例
二元分布和二项分布
二元分布/伯努利分布
单个伯努利变量X只取两个值0和1
概率函数
均值E[X]=μ,方差Var[X]=μ(1-μ)
二项分布
N个独立的伯努利变量Xi,定义新的随机变量Y=X1+X2+...+XN,Y服从二项分布
概率密度
均值E[Y]=Nμ,方差Var[Y]=Nμ(1-μ)
多元分布和多项分布
单个编码向量概率函数
N个编码向量和的概率函数
二元和多元分布的共轭分布
贝塔分布
Dirichlet分布
高斯分布
高斯分布联合概率密度函数
Cxx
随机向量x的自协方差矩阵
μx
均值向量
高斯分布的等概率曲线
Cxx对角阵且元素相同
等高线是同心圆
Cxx对角阵但元素不同
等高线是椭圆,主轴过圆心
在期望值点处取最大值
基本性质
线性变换
一个随机向量满足高斯分布,通过任意线性变换仍然满足高斯分布
Cxx任意对称正定阵
斜椭圆
整体高斯,部分也高斯
随机向量联合概率密度函数满足高斯分布,其部分向量的边际密度函数仍是高斯的
整体高斯,条件也高斯
随机向量联合概率密度函数满足高斯分布,若向量中的一部分已确定,另一部分的条件概率密度仍是高斯的
指数族
一类广义的概率函数形式
性质
可表示连续与离散、概率函数与概率密度函数
二元和多元分布,高斯分布都属于指数族
混合高斯过程
多个高斯密度函数的组合
高斯分布的扩展形式,描述多峰概率密度函数
性质
一个混合高斯过程可以任意精度逼近一个任意的概率密度函数
马尔可夫过程
定义
如果一个随机样本具有序列性,即X1,X2,...,Xn是按照其序列顺序产生的,前后之间有因果关系,若新样本的统计特性只与上一个样本有关,则称该序列为马尔可夫过程
含义
当Xn的现在已知时,将来和过去的统计特性是无关的
在与序列有关的算法设计中,马尔可夫性可有效降低算法的复杂性
最大似然估计
似然函数
若将表示样本数据的随机向量的概率密度函数p(x|θ)中的x固定(即x取样本值),将θ作为自变量,考虑θ变化时p(x|θ)的影响,这时将p(x|θ)称为似然函数,L(θ|x)=p(x|θ)
对数似然函数
许多概率密度函数为指数类函数,对数似然函数求解更容易
最大似然估计MLE
定义
对于一个样本向量x,令θ=θ0时使似然函数L(θ|x)达到最大,则θ0为θ的最大似然估计,θ0=argmax{L(θ|x)}
直观理解
当θ取值为θ0时已采样得到的样本x出现的概率最大
应用
已知样本集,求解模型参数
问题
不适用于样本集较小情况
对于离散事件,结果容易受偶然事件影响,可用拉普拉斯平滑解决
对于样本中的“野值”敏感
如突然噪声和其他意外因素,可通过预处理删除野值
偏重于更复杂的模型
易造成模型的过拟合,可通过正则化或贝叶斯方法解决
贝叶斯估计——最大后验概率MAP
先验分布/先验概率
假设参数θ是随机变量,在获得样本集之前,即已知其概率函数/分布
核心思想
在已知先验概率p(θ)的条件下,通过样本集,对参数θ的分布进行校正,这个由数据样本进行校正后的概率可表示为p(θ|x),“先验信息”+“样本集信息”
后验概率
公式
解释
后验概率只与“先验概率p(θ)”和条件概率“p(x|θ)”有关
若没有先验知识p(θ),θ几乎为常数,MAP会退化为MLE
随机变量的熵特征
熵的定义
描述随机变量取值的不确定性
熵的基本性质
离散随机变量
确定情形,熵最小值为0
等概率情形,熵最大为logN
连续随机变量
在相同均值和方差条件下,高斯分布具有最大熵
KL散度、互信息和负熵
KL散度
定义
度量两个概率密度函数之间不同的量
公式
性质
KL散度最小准则与最大似然准则等价
互信息
定义
度量两个随机变量x和y的独立性
公式
物理意义
已知y引起的x的不确定性的降低量
负熵
定义
度量一个随机向量的非高斯性
公式
非参数方法
非参数估计概率密度函数基本公式
Parzen窗方法(V固定)
超立方体窗
光滑窗
KNN方法(K固定)
优化技术概述
基本优化算法
梯度下降算法
迭代步长参数/学习率
用了函数一阶导数信息
牛顿法
利用函数一阶和二阶导数,收敛速度更快
凸函数
当且仅当函数的Hessian矩阵半正定
拉格朗日方法
等式约束拉格朗日乘数法
已知
标量函数f(x),K个等式约束方程
问题
求使f(x)最小的解x
解法
构造拉格朗日目标函数使其梯度为0,联立方程求解
不等式约束的最优化
已知
标量函数f(x),K个不等式约束
问题
求使f(x)最小的解x
解法
构造拉格朗日目标函数,通过KKT条件和对偶算法求解