导图社区 高等统计学——多元统计学
探索数据背后的多维奥秘!这份高等统计学大纲带你深入多元统计学的核心:从矩阵理论奠基,到多元分布与高斯分布的性质解析从均值推断、方差分析等统计推断方法,到主成分分析(PCA)、因子分析等降维技术更有聚类分析、判别分析等实用模型重点涵盖协方差谱分解与PCA的关联、Fisher判别函数、系统聚类法等实战内容,助你掌握多维数据的数学本质与分析工具。
编辑于2025-11-03 13:17:43探索数据背后的多维奥秘!这份高等统计学大纲带你深入多元统计学的核心:从矩阵理论奠基,到多元分布与高斯分布的性质解析从均值推断、方差分析等统计推断方法,到主成分分析(PCA)、因子分析等降维技术更有聚类分析、判别分析等实用模型重点涵盖协方差谱分解与PCA的关联、Fisher判别函数、系统聚类法等实战内容,助你掌握多维数据的数学本质与分析工具。
这是一篇关于计算机网络与通讯的思维导图,计算机网络与通讯是密切相关的领域,它们相互促进、相互发展。
统计学的思维导图,统计工作:采用一系列方法,搜集整理分析统计资料的活动过程,每个数据成为总体单位或个体,也称为元素。
社区模板帮助中心,点此进入>>
探索数据背后的多维奥秘!这份高等统计学大纲带你深入多元统计学的核心:从矩阵理论奠基,到多元分布与高斯分布的性质解析从均值推断、方差分析等统计推断方法,到主成分分析(PCA)、因子分析等降维技术更有聚类分析、判别分析等实用模型重点涵盖协方差谱分解与PCA的关联、Fisher判别函数、系统聚类法等实战内容,助你掌握多维数据的数学本质与分析工具。
这是一篇关于计算机网络与通讯的思维导图,计算机网络与通讯是密切相关的领域,它们相互促进、相互发展。
统计学的思维导图,统计工作:采用一系列方法,搜集整理分析统计资料的活动过程,每个数据成为总体单位或个体,也称为元素。
高等统计学——多元统计学
1.矩阵理论
正交矩阵及其性质
定义
注意
正交矩阵一定是方阵
正交矩阵一定可逆
几何意义
对于一个正交矩阵,我们可以将其视为对于线性空间/空间中的向量进行的一个旋转变换
证明
一个向量左乘正交矩阵,其模长不改变
两个向量左乘相同正交矩阵,其夹角余弦值不改变
可以说明进行正交变换只是改变了向量相对于坐标轴/标准正交基的角度,而未改变其他部分,相当于旋转
正交矩阵可以标准化为类似形式,以2*2空间为例
这其实就是将标准正交基/向量进行逆时针旋转\theta角度
需要注意的是正交矩阵会在协差阵正交对角化的过程中用到,掌握其性质至关重要
回归基本功:如何求给定矩阵的特征值和特征向量
因为在进行PCA的时候会用到:协差阵正交对角化
例题
首先先求解特征方程以得到特征值
求这个方程等于0的解,得到
使用特征值构造齐次线性方程组,求解每个特征值对应方程组的基础解系
对增广矩阵进行初等行变换,使其左侧矩阵转化为上/下三角阵
如果这个lambda是特征方程的n重根,那么最后化简的方程组个数就是(p-n)个(当然需要保证原始给定矩阵是一个实对称阵),然而对于这个给出的例子不成立
当有(p-n)个方程组时,需要再补充n个值才有解,这是我们将一个n*n的单位阵的每一列一次代入即可
得到
这里给出的矩阵不是一个实对称阵,所以代数重数不一定等于几何重数,所以可能最终得到的特征向量个数少于维度数
矩阵P不唯一,但是矩阵\Lambda唯一
例题2
这是一个p*p的相关系数阵,除了对角线上元素为1其余均为在(-1, 1)的\rho
对这个矩阵进行主成分求解
过程
求特征值
有推论
而且R'是一个叉积的形式,我们知道这种矩阵有p-1个为0的特征值,而且有1个不为0的特征值是tr(R')
求特征向量
\lambda_1
构造齐次线性方程组
对增广矩阵进行最简化行变换后得到矩阵
得到方程组
令t_p等于1获得特征向量
其余的特征值
同样构造,但是这次的矩阵比较简单是一个1_p向量的叉积形式
得到方程组
构造单位正交向量解
那么就得到了p个单位正交特征向量,将其按照位置组合就是主成分方向矩阵T=(t_1,.....t_p)
求贡献率
2.多元分布
2.1 多元分布
在本书中我们默认所有的向量均为列向量,需要注意
一、多元概率分布
首先定义随机向量/多元随机变量:对于一个每个分量均为随机变量的向量,称其为随机向量,随机向量是多元概率统计中的基本讨论单位
我们称之为p维随机向量
二、随机向量的分布函数
与随机变量的分布函数定义类似,只不过多元化了
实际上是一个p元联合概率分布函数
三、随机向量的概率分布密度函数
分布函数对每个分量求偏导得到
同样的,从概率密度函数得到分布函数需要p重积分
概率密度函数的性质
在定义域内,其值均为非负
定义域全域积分后等于1,这是概率的基本性质
四、随机向量的边缘分布
边缘概率密度
假设需要求q个分量的边缘概率密度(q<p)
对于随机向量x中的其他分量做(q-p)重积分即可
五、随机向量的条件分布
条件概率密度
求q个分量的条件概率密度(q<p)
原有的概率密度除以在条件部分的分量的边缘概率密度
另外还可以写成分块矩阵形式
六、随机向量分布的独立性
如果随机向量的n个分量彼此相互独立,那么就有
随机向量的概率密度等于各个分量的边缘概率密度之积
需要注意的是两两独立并不能保证分量彼此独立,只是一个必要条件不是充分条件
2.2 多元分布的数字特征
一、随机向量的期望
相当于对向量中各个分量(也是随机变量)求期望,结果是一个p维向量
随机矩阵的期望同理
期望算子具有广播性
随机向量/矩阵的期望的性质
(1)常向量/矩阵可分离性
一个随机向量左乘/右乘一个常向量或者常矩阵的期望等于这个随机向量的期望左乘/右乘这个常向量/矩阵
(2)常向量/矩阵仿射变换可分离性
设A、B、C为常矩阵,X为随机矩阵则有
(3)求和可分离性
对于一组随机变量的和求期望等价于分别对于每个随机变量求期望再求和
可以说明求和与求期望是可以换序的
二、随机向量的协方差矩阵
对于两个随机变量求协方差表示为
而对于随机向量则有
相当于对彼此的各个分量之间求协方差
也可以写为
可以将向量写成分量形式来进行证明
实际上就是向量之间叉积的期望减去期望的叉积
当协方差矩阵为0矩阵时,这两个随机变量的分量之间不存在线性关系
当向量x和y相同时,将其称为变量x的协方差矩阵,简称协差阵,记作\Sigma
\Sigma是一个对称阵,同时是一个非负定阵
也可以记作V(x)
协差阵的性质
(1)非负定性
按照定义证明
如果一个矩阵(假设形状为p*p)可以满足以下定义
则可以认为\Sigma是一个非负定阵
我们将协差阵写成期望定义形式
根据期望的常向量可分离/结合性质,我们将向量a放到期望内部,原式等于
我们将(x-\mathbb{E}[x])^T*a看作一个向量\beta(实际上是一个1*1的标量),那么有
原式等于
可以证明其为非负定阵
非负定阵的推论:协差阵的行列式一定大于等于0,如果协差阵行列式不等于0那么就是大于0
这是非负定阵的性质
按照对角化证明
我们知道协差阵是一个实对称阵,实对称阵是一定可以进行正交对角化的
正交对角化过程可以表示为
P是正交矩阵,\Lambda是一个对角矩阵
一种常见的对角化过程
我们可以证明,对于不同的特征值,协差阵的特征向量一定是相互正交的(实对称阵的不同特征值的特征向量一定正交,加上相同特征值条件下多个特征向量的施密特正交化,可以证明实对称阵是可以进行正交对角化的)
假设特征值\lambda_i和\lambda_j不相同,对应的特征向量分别为x_i和x_j
左式左乘x_j的转置,右式转置得到
一式
二式
因为协差阵是一个实对称阵,所以由二式有
再用新得到的式子右乘x_i,得到
使用得到的式子和一式做差得到
而且因为两个特征值不相等,所以一定是特征向量正交
对于相同的特征值内的特征向量,可以使用施密特正交化保证正交
经过如此变换,可以得到用于对角化的正交矩阵及其对应的对角矩阵
P是经过正交标准化的特征向量所构成的正交矩阵
每一列对应一个特征值,或者说多重根的情况下几列就对应几重根的特征值,总和加起来为p
有可能某个特征值有多个线性无关的特征向量(基础解系维度多),只需要将线性无关的特征向量与其对应的特征值一一对应即可,这里我们假定\lambda按照非升序排列,也即是\lambda_1>=\lambda_2>=……\lambda_p
可以写为
右乘对角阵相当于对每一列做变换,而左乘对角阵相当于对每行做变换
右乘P的逆可以得到
P是一个正交矩阵
这实际上还是协差阵的谱分解
对于任意幂指数都可以进行谱分解
使用对角化证明非负定
当然需要保证特征值大于等于0才可以开平方,有点循环论证的味道了
这个正交对角化是很重要的结论,后面很多内容例如马氏距离的的推导、主成分分析等都会用到
\Lambda中的各个非负特征值大小反映了数据在对应正交方向上的变异程度,最大的\lambda_1对应着第一主成分方向
对角化的推论
行列式等于特征值的乘积,同时也可以使用乘积的行列式等于行列式的乘积证明,因为正交阵的行列式等于1或-1
而且
(2)常矩阵仿射变换对于协差阵的影响
A为常矩阵,b为常向量
b因为中心化已经消除了
如果右乘,逻辑类似
(3)协差阵的意义
协差阵的行列式等于0,说明向量x内部分量以概率1存在线性关系
如果协差阵行列式等于0,说明其有至少一个特征值为0
a可以是对应特征值为0的特征向量
即可找到线性关系
(4)协方差矩阵的常矩阵仿射变换对其影响
(5)随机向量之和的协方差矩阵与各个向量的协方差矩阵之间关系
将协方差矩阵的形式写为期望形式即可证明,同时用到了期望和求和可换序性质
根据此式也可以求出协差阵的求和形式,特别注意,当各个随机向量相互独立时,和的协差阵等于协差阵的和
推论
当随机向量x_1,……x_n彼此独立时,有
三、相关矩阵
相关系数的定义
对于两个随机变量,它们的相关系数可以表示为
这里的\sigma统一表示方差,可能会与后续高斯分布中\sigma表示标准差有所差异,在此说明
随机向量间的相关矩阵
对于两个随机向量,我们可以使用相关矩阵来衡量其各个分量的相关性
还可以写为
实际上就是对每一行除以相对应的x的分量的标准差,对每一列除以相对应的y的分量的标准差
当相关系数为1时,说明两个分量之间存在线性相关
相关系数矩阵为0矩阵时说明随机向量x,y之间不存在线性关系
当向量x与y相同时,此矩阵称为向量x的相关阵,记作R
标准化变换
对于随机向量x,对其进行标准化变换为
首先进行中心化,然后对于每一行(因为是列向量)除以对应分量的标准差
标准化变换后,随机向量的每个分量的均值为0,标准差为1,协差阵变为相关阵
四、总偏差的度量
总方差
总方差定义为
广义方差
广义方差定义为
在去求数据云体积时会用到协差阵的行列式,表示数据弥散的程度
2.3 距离
欧氏距离
随机向量之间的欧氏距离
随机向量与指定分布的欧氏距离
\mu是多元分布\pi的均值
标准化后的欧氏距离
如果使用普通的欧氏距离计算差异,会出现方差较大的分量所作的贡献较多的情况
所以是偏差大的分量贡献较多
如果可以消除这种情况,距离的度量那么就会规范很多,我们使用标准化来进行差异消除
此处的D是一个“背景分布”的各个分量的标准差所构成的对角阵,随机向量距离的度量参照这个背景分布
经过标准化之后,消除了各分量偏差对于欧氏距离的影响
马氏距离
虽然标准化的欧氏距离消除了各分量偏差的影响,但是对于分量之间的相关性无法处理
利用正交矩阵“旋转”数据点来消除各个分量之间的相关性
首先根据谱分解
我们不妨看看使用P'对数据点进行线性变换会发生什么,正交矩阵的逆也是正交矩阵,所以也代表了旋转
又等于
是一个以协差阵特征值排列的对角阵,说明旋转后的数据的各个分量之间已经不存在相关性(因为是对角阵),只有分量的方差(旋转后,实际上是特征值,也表示着分散程度由小到大的正交基)
再进行标准化
首先进行中心化
然后旋转消除各分量相关性
最后将分量内部的方差标准化为1
最终得到马氏距离定义式
实际上是通过x''向量点乘得到
\Sigma同样也是作为参考的“背景分布”的协差阵,x和\mu, \Sigma可以不来自一个分布的
马氏距离是一个大于等于0的值,因为协差阵的逆(如果可逆的话)是一个正定阵
这实际上是一个超椭球的方程
计算这个超椭球的体积需要用到协差阵的行列式,也就是广义方差
马氏距离的特点
(1)对随机向量进行仿射变换,不改变随机向量之间马氏距离的值
矩阵乘积的逆等于逆序逆的乘积
那么原式等于
(2)平方马氏距离是随机向量经过多元标准化后的欧氏距离,即马氏变换后的欧氏距离
(3)如果协差阵是一个对角阵,对角线上表示各个分量自身的方差,即随机向量各分量之间无相关性的话,马氏距离等于标准化后的欧氏距离
马氏变换
马氏变换可以消除分量之间的相关性
马氏变换是在多元视角下的标准化
根据谱分解得到
使用谱分解可以计算出协差阵的二分之一逆
但是需要注意的是:马氏变换计算度(主要是协差阵)较为复杂,而且可能会出现协差阵不可逆的情况,还有就是旋转虽然会消除相关性,但会改变特征列的“含义”,在可解释方面受损
3.多元高斯分布与估计量
3.1 多元正态分布的定义
先来回顾一下一元高斯分布的概率密度函数
如何证明这个概率密度函数全域积分等于1?使用积分相乘转化为二重积分的方法,再使用极坐标换元,就可以得到积分的平方,再开根号即可
多元高斯分布的联合概率密度函数形式
特别地,当p等于2时,我们有
此时协差阵等于
相关系数和协方差的正负性一致
高斯分布的边缘分布和条件分布也都是高斯分布
多元高斯分布中概率密度函数中存在超椭球的形式,当概率密度等于给定值时就会出现一个超椭球方程,称为概率密度等高面
相关系数绝对值越大,椭球越扁,当相关系数绝对值等于1时压缩为线段;相关系数绝对值越小则椭球越圆,当等于0是是一个完全圆
3.2 多元高斯分布的性质
(1)多元正态分布的特征函数:略
(2)随机向量x满足多元高斯分布,如果左乘一个常向量得到的一元分布也是一个高斯分布
推广:左乘/右乘常向量/矩阵都可以是高斯分布,高斯分布具有线性不变性
(3)对满足高斯分布的随机向量进行线性变换/仿射变换,得到的都是满足高斯分布的随机向量(均值和协差阵不同了)
(4)如果一个随机向量满足多元高斯分布,那么其任意分量/子向量也都满足一元高斯分布,反之不一定成立
可能存在边缘分布满足正态性,而联合分布非正态分布的情况
需要注意的是正态变量的线性组合未必就是正态变量,见
也就是说只有联合分布也为高斯分布的正态变量的线性组合才是正态变量
(5)随机向量x_1,……,x_n相互独立,均满足多元高斯分布,则有
根本原因:独立的正态变量的联合分布也是正态变量,这样就能通过性质3导出联合分布的子向量的线性组合是正态变量,得出结论
因为“独立”是一个很强的性质,由独立(联合分布概率密度=边缘分布概率密度之积)可以推出联合分布的概率密度函数形式,实际上也是一个正态分布的概率密度,就可以得出联合分布满足正态性
(6)多元高斯分布可以写为分块矩阵的形式,后续求解条件高斯分布的均值和方差会用到
(7)对于高斯分布来说,如果其协差阵是一个对角阵,那么其各个分量之间都是独立的
对于一组多元正态随机变量,如果其联合分布是正态分布,那么可以认为这组变量的独立性和不相关是等价的
从独立可以直接导出不相关
而从不相关导出独立:其联合分布为正态分布,不相关表示变量之间协差阵为0,就可以将联合分布的概率密度分解为边缘密度之积
如果联合分布不是高斯分布,那么独立性和不相关不是等价的
3.3 极大似然估计及估计量的性质
简单随机样本
如果随机向量样本x_1,.....,x_n独立且同分布,则称为n次观测的简单随机样本
使用样本对于分布的参数进行估计,估计的计算表达式称为估计量,估计量可以视为观测样本的函数
样本矩阵
将对于随机向量分布的n次观测值写到矩阵中的形式
一般情况下,n需要大于p以保证样本矩阵列满秩
一些估计量的前置
样本均值
定义
还可以写为矩阵形式
这里的1_n指的是一个各分量全为1的列向量
离差阵
定义
也可以写为矩阵形式
将样本均值的矩阵形式代入得到
中间的称为中心化矩阵
离差阵刻画了整体上的偏离关系
离差阵是一个对称阵,其正定性需要n-1>=p
严谨来说可以取等号,但在实际上我们一般就按大于
这是一个必要条件,不是充分条件
样本相关阵
极大似然估计
极大似然本质上是一个最大化问题,要求使得给定参数下样本观测数据点出现的概率最大
样本数据的似然函数与是概率密度的任意正整数倍,因为每个数据点出现的概率与其他数据点出现的概率之比等于改点与其他点的概率密度函数值之比
对于高斯分布,进行极大似然估计的均值和方差为(方法为取对数,转化为对数似然函数求和最大化,利用一阶条件即可)
样本均值
就是上述的样本均值
协差阵的极大似然估计
将均值的估计——样本均值代入得到估计量为
但是在均值不已知,使用估计量代替时不是无偏估计
协差阵在均值不已知时的无偏估计
估计量的性质
(1)无偏性
估计量的期望等于参数值
可以证明在高斯分布(均值不已知)中,样本均值和S是最优一致无偏估计
因为独立同分布假设,所以有和的协差阵等于协差阵的和
那么原式等于
可以理解为由于减去样本均值(不是分布的均值参数)所以损失了一个自由度
无偏性证毕
另外说一下在均值已知的条件下\hat{\Sigma}的无偏性依然有保障
(2)有效性
在无偏性的基础上,估计量的方差/协方差越小越好
对于统计量\theta_1和\theta_2,如果其协差阵V(\theta_1)<=V(\theta_2),说明\theta_1相对于\theta_2更加有效
协差阵的小于等于指的是:V(\theta_2)-V(\tehta_1)>=0,即是其一个非负定阵
(3)一致性
当样本数量趋向于无穷时,估计量的值趋向于参数值
(4)充分性
不损失信息
如果一个统计量可以将含在样本中的有关总体(或有关未知参数)的信息一点都不损失地提取出来,这种统计量成为充分统计量
离差阵A、协方差阵的极大似然估计\hat Sigma、样本协差阵S之间只有系数的差别,所含的信息完全相同,所以对于多元正态分布来说,这三个都是\Sigma的充分估计量
3.4 复相关系数和偏相关系数
复相关系数
复相关系数的定义
复相关系数衡量了一个随机变量和一组随机变量之间的相关关系强弱
我们给定一个随机变量y和一组随机变量(x_1,.....,x_p),我们希望找到一个不为0的方向向量l\in\mathbb{R}^{n\times 1}使得这个方向向量作为随机变量组(x_1,...x_p)的线性系数变换得到组合变量与随机变量y的相关系数的绝对值最大
复相关系数的求解
等价为最大化任务
我们先来定义一下可能用到的协差阵的分块形式
将随机变量组视为一个p维的随机向量
将相关系数的平方展开,得到
根据柯西-施瓦茨不等式
当
时取等号
还要求矩阵B需要是正定阵,所以我们假定x的协差阵是一个正定阵
我们将l视为y,那么x就是Cov(y,x)^T,矩阵B为随机向量x协差阵的逆,代入柯西-施瓦茨不等式发现
那么我们的目标量的最大值也已经找到
当
时,相关系数绝对值最大,也就是找到了方向向量
推导过程可以简述为:为了将协差阵的逆转化为相关阵的逆,左右两边各拿出来了一个标准差对角阵的逆,而这两个标准差对角阵的逆应用在y,x协方差矩阵和x,y协方差矩阵上,和下边的\sigma_yy系数一同作用将协方差矩阵变化为相关系数矩阵
复相关系数的几何意义
将y投影到向量x张成的线性空间中,夹角最小的情况
最优线性预测
偏相关系数
引入
在p>2的协差阵中,如果只想考虑两个分量之间的相关性是很难的,因为协差阵也包含了其他分量对这两个分量的影响,可能会导致评估偏误
一般的相关系数也被叫做总相关系数或者毛相关系数
偏协差矩阵
首先引入分块矩阵形式,假设我们只考虑前k个分量之间的相关性
在仅考虑x_1之间分量的影响,排除x_2的分量对x_1的影响的偏协差阵的求法,也就是x_2是偏变量时x_1的协差阵(x_2可以说起到了控制作用)
偏相关系数的计算
偏相关系数实际上就是用偏协差阵算出
如果是一阶偏相关系数,可以使用相关系数直接算出,以一个偏变量,两个相关变量为例
该公式可以轮换
需要注意总相关系数\rho_{12}与偏相关系数\rho_{12·3}不一定同号
3.5 统计量的抽样分布
对于一元高斯分布,我们已经知道
那么对于多元高斯分布有无类似的推论?
多元高斯分布的均值抽样分布
正态总体
非正态总体(多元中心极限定理)
当n远大于p时且n自身也很大时,样本均值趋于正态分布
多元高斯分布的样本协差抽样分布
首先介绍一个分布——Wishart分布
假设p维随机向量x_1,...x_n独立且均满足N(0,\Sigma),那么Wishart分布由以下定义
易证得
卡方分布实际上就是Wishart分布在p=1,sigma^2=1时的一种特殊情况
Wishart阵的另一种形式
实际上Wishart阵可以写为样本矩阵的转置乘上样本矩阵(假设x_1,...x_n为样本)
W是一个对称阵,也是一个正定阵(前提是样本矩阵列满秩,n>=p)
Wishart分布的性质
假设随机矩阵W_1,.....W_n独立且均满足W(n_i,\Sigma)分布,那么有
C为常矩阵
关于协差阵估计量S与Wishart分布的关系
证明上述式子需要构造一个正交变换将离差阵的矩阵形式变换为自由度为n-1的单纯二次型
可以对中心矩阵(I_n-\frac{1_n1_n^T}{n})进行谱分解(对角化)得到对应的正交矩阵
4.多元正态总体的统计推断
假设检验的一般流程
构造统计量
根据样本矩阵计算统计量
将计算的统计量的值与指定\alpha的某分布的值(查表)进行比较
得出结论,接受或拒绝
双尾检验
单尾检验
4.2 单个总体的均值推断
一、均值向量的假设检验
原假设:\mu=\mu_0(\mu_0给定);备择假设:\mu \ne \mu_0
协差阵已知时的检验
我们已经知道
那么对其进行马氏变换得到
则可以证明:样本均值到假设均值的马氏距离平方满足p维卡方分布
因为马氏变换后的随机向量为多元标准正态分布,每个分量都满足一元标准正态分布,且分量间无相关性,所以可以视为\sum_{i=1}^{p}x_i'^2,满足Wishart_1(p,1),即自由度为p的卡方分布
如果有
则以概率1-\alpha拒绝该假设
协差阵未知时的检验
霍特林T^2分布
霍特林T^2分布与F分布的关系
使用S估计协差阵计算出样本均值的平方马氏距离,以其为满足霍特林T^2分布的统计量,进行假设检验
因为(n-1)S是一个满足W(n-1,\Sigma)的统计量,所以这里的自由度为n-1
样本均值j减去假设均值在接受假设的情况下,服从N_p(0,\frac{\Sigma}{n}),那么\sqrt{n}(\mathbf{\bar x}-\mu)服从N_p(0,\Sigma)
当
时,拒绝原假设
二、置信区域
求置信区域
对于已知协差阵的高斯分布
对于未知协差阵的高斯分布
此时\mu是变量,根据给定的\mu_0是否在这个\mu所在的区域内来接受或拒绝假设
需要注意的是F分布是一个右偏分布,在假设检验和计算置信区域时我们通常取其右尾
置信区域是一个中心为样本均值的超椭球体,形式为马氏距离平方/用S估计的马氏距离平方<=对应分布的\alpha值
利用置信区域进行假设检验
当给定均值\mu_0在置信区域内,接受原假设,否则拒绝
三、联合置信区间
对每个分量依次进行一元置信区间的求取,再去求联合分布
首先让我们熟悉一下背景
对于新的一元随机变量,我们可以得到其样本均值和样本方差
那么我们可以对于一元随机变量y进行基于t分布的置信区间的计算
因为如果使用\alpha作为显著性水平,联合分布的概率肯定是小于1-\alpha的,需要扩大t分布的1-\alpha值
方法是,为每个分量构造相互正交的方向向量a,得到一个置信区间,令联合分布的概率等于1-alpha
一般存在两种形式:T^2联合置信区间和邦弗伦尼联合置信区间
T^2联合置信区间
使用多元T^2分布的值进行置信区间的计算
T^2联合置信区间的计算:假设置信度为1-\alpha,则
每个区间E_i对应着多元分布的一个分量,也可以不对应,仅仅是选择k个投影方向即可,甚至可以取无穷多个投影方向来构建无穷多个置信区间
一般来说,我们偏好设定方向向量a_i为维度为p的p个标准正交基
当p增多时,霍特林T^2分布的临界值会进行调整
当k较小时,联合置信区间的置信度会明显得大于1-\alpha,因此可以考虑邦弗伦尼置信区间
邦弗伦尼联合置信区间
使用经过调整的一元t分布进行置信区间的计算
通过除以置信区间个数k对于t分布的显著性水平进行调整,从而达到扩大区间的效果
与霍特林T^2分布联合置信区间类似,我们在选择a_i时一般也是选择p个标准正交基,当然也可以不这么选择,但是无法构造过多置信区间,无穷多个是不现实的,因为当k趋于无穷时,t_{\frac{\alpha}{2k}}也趋于无穷
一般是k较小时选择使用邦弗伦尼联合置信区间
计算两个联合置信区间,选择较窄的那个作为联合置信区间
联合置信区间是一个超立方体,如果我们以标准正交基为方向向量的话,中心为样本均值
联合置信区间和置信区域的图示(p=2)
四、均值向量的大样本推断
4.3 两个总体的均值比较推断
一、两个独立样本的情形
假定有两个总体,从中独立抽取样本x_1,....x_n_1和y_1,.....y_n_2,分别满足N(\mu_1,\Sigma)和N(\mu_2,\Sigma)
假设两个总体协差阵相等
我们设定两组样本的样本均值分为别\bar x和\bar y,样本协差阵为\mathbf{S}_1和\mathbf{S}_2
原假设:\mu_1=\mu_2;备择假设:二者不相等
需要构造统计量,但是在这之前先让我们看看样本均值之差的抽样分布
如果满足原假设,那么样本均值之差服从N(0,\frac{n_1+n_2}{n_1n_2}\Sigma)
我们构造这样的统计量
与方差分析中SSE即E矩阵的联系
我们发现,实际上S_p就是E除以它的自由度
实际上,S_p更多地在多组(k>=2)分布的假设检验中作为协方差(假设协方差相等)的估计量,一方面可以理解为是多组样本协方差的平均值(S_p=\sum_{i}^k(n_i-1)S_i/n-k),另一方面,在原假设成立,即均值相等时,E/n-k和T/n-1都是协方差阵的无偏估计,但是E/n-k更加稳健
S_p是在方差相同的前提下构建更大的样本估计量,可能会更好地对协差阵进行估计本质上就是两个总体全部样本的离差阵除以全部样本数-2(因为两个总体)
前面的系数是因为均值之差满足分布的方差有这个系数,我们需要将其标准化以满足霍特林T^2分布的定义
假设检验过程
计算统计量
则拒绝原假设
反之则接受原假设,两个总体均值相等
二、成对试验的T^2统计量
4.4 轮廓分析
4.5 多个总体均值的比较检验(多元方差分析)
来自k个多元总体\pi_1,\pi_2,....\pi_k,分布为N_p(\mu_1,\Sigma_1),....,N_p(\mu_k,\Sigma_k),对其进行独立随机抽样,得到的随机抽样样本(x_ij),对每个总体的抽样数为n_i,需要满足同协差阵的前提条件
需要注意这里对于正态性的严格要求,对于两组总体之间的均值是否相等的检验,只需要在大样本下利用中心极限定理就可以使用样本均值(满足正态分布)构造出合适的统计量,但是对于多元方差分析的Wilks检验,要求总体严格满足正态分布
原假设:\mu_1=\mu_2=.....\mu_k;备择假设:至少存在一对不相等的均值
背景统计量
方差分析做的是将总方差进行分解,分为组内的误差和组间的偏差,这与回归分析中的方差分解类似
相关记号定义
所有总体的样本的均值
第i组内样本均值
总方差
组内误差
组间偏差
可以设\sum_{i=1}^k n_i =n,即是总样本数
我们有如下关系
自由度如下
自由度本质上是其中间的矩阵的特征值为1的数量(对称幂等矩阵特征值只能为0或1),也是将其中间的矩阵进行对角化后对样本矩阵作正交变换后存留的样本数量
T、E、H三个矩阵都是对称阵,其正定性在下方讨论
改写统计量
假设每个总体抽样的样本用样本矩阵来表示:X_1,....X_k,后续的统计量使用矩阵代数的形式进行表示,那会发生什么呢?
直接设所有总体的样本矩阵按列排列成一个矩阵:X
需要使用特殊矩阵来进行处理
总均值投影矩阵
我们这里用到的是
可以所有样本求均值再进行叉积
处理效应投影矩阵
是一个分块对角阵,对角线上的每一块都是一个大小为n_i的均值投影阵,其余元素为0
每一个分块对角阵相当于对指定组进行中心化(求均值再叉积)
整体中心化矩阵
组内中心化矩阵
用矩阵代数表示SST,SSE和SSTR
实际上就是离差阵,只不过将所有总体视为一个的时候
正定性的证明:使用对角化将三个统计量中间的矩阵转化为正交矩阵与正特征值对角阵的乘积,再左右乘任意向量即可证得
正定性的保证
SST:n-1>=p
SSE:n-k>=p
SSTR:k-1>=p
需要各自的自由度大于等于p
本质上都是各自的中心化矩阵的大于秩等于p时,阵才可能满秩,矩阵的秩取min(p,r(C))(C表示各自的中心化矩阵),自由度又等于中心化矩阵的秩,所以需要让自由度>=p
理论来说可以取等号,但是实际上我们一般严格按照大于
这些是必要条件,而不是充分条件
但是这些阵应该至少都是半正定的,因为没有小于0的特征值
在实践中,T和E较为容易显现出正定性,因为其必要条件p<=n-1和p<=n-k较容易达成,但是H可能很多时候非正定阵,其正定性条件p<=k-1也就是随机向量维度小于等于分组数-1很难实现
离题太远,我们进行方差分析的统计量构造
也可以表示为
这个统计量称为Wilks统计量,它是一个标量
通过将这个统计量转化为F分布进行假设检验
使用近似公式进行转化一般来说分p=2,p=3和p更多的情况
直觉表明,这个统计量越小,说明组内误差在整体的总方差中占的比例越小,越容易拒绝原假设,所以是一个左尾检验
时,拒绝原假设
4.6 协方差相等性的检验
存在k个总体\pi_1,....\pi_k,分布分别为N_p(\mu_i, \Sigma_i),从这些总体中各自独立抽取样本,取自第i个总体的样本为x_{i1},....x_{in_i}
原假设:这k个总体的协方差均相等;备择假设:至少存在一对总体的协方差不相等
使用博克斯(Box)统计量进行检验
修正的似然比统计量
博克斯M统计量为似然比统计量的对数乘上-2
实话说Box统计量满足的分布比较复杂,而且也不要求考察,这里就不赘述了
关于相关系数阵的检验暂时不考察,可以考虑一下自己看看(我应该是不看了)
5. 判别分析
5.1 引言
判别分析的目标
分类
使用已知类别的若干样本将未知类别的新样本进行类别归属(有监督算法)
分离
使用降维等方式或代数方法描述各类样品之间的差异性,从而最大限度地划分各组
往往是利用不完备的信息进行判别
本章讨论的判别分析,每一个总体都是一个p维的多元随机分布
距离判别和贝叶斯判别只能用于分类
fisher判别可以用于分类,也可以用于分离
5.2 基于距离的判别
两个总体/两组样本的距离判别
存在两个总体\pi_1, \pi_2,其均值和协方差分别为\mu_1, \mu_2和\Sigma_1, \Sigma_2(均为正定),现在有一个新样品x,想要知道它属于哪个总体
基于马氏距离的判别规则,可以划分为两种情况
当两组样本的协方差相等:线性判别函数
本质上是来计算未知样本x距离分别距离两个总体的马氏距离平方大小比较得到结果
如果距离某个总体的马氏距离平方小于另一个,则归属于该类别
可以转化为下列形式
当我们已知两个总体的协方差相等时,上述式子可以写为
化简得到
我们可以令
那么式子最终可以写为
我们将a^T(x-\bar \mu)作为线性判别函数,当其值大于等于0时,则归类为\pi_1,反之则判别为\pi_2
线性判别函数的几何意义
我们将线性判别函数视为两个向量经过马氏变换后(多元标准化)的内积,在仅考虑正负的情况下,实际上就是这两个向量之间的夹角是否大于90度
协方差作用于这两个向量,进行谱分解将其分解为正交矩阵和对角阵,正交矩阵不改变这两个向量的夹角,对角阵不改变向量的方向,所以可以视为(\mu_1-\mu_2)和(x-\bar \mu)之间的夹角
当(\mu_1-\mu_2)与(x-\bar\mu)的夹角小于90度,说明x偏向于\pi_1,反之则偏向于\pi_2,决策边界是两个向量相互垂直的情况,这时难以判断x偏向哪一边
误判概率
我们定义:P(l|i)是指一个样本来自\pi_i总体,但是因为判别规则被判别为l类的概率,这是误判概率
在线性判别函数下,即是
当两个总体均服从多元正态分布且协方差相等时,误判概率有如下性质
如何证明?使用积分
当二者协方差相等时,其误判域关于\bar\mu对称
在判别结果的误判域中对于真实总体的概率密度进行积分即可得到误判概率
\Phi是高斯分布的累积概率密度,就是概率质量函数
当两个分布的均值存在差异时,误判概率均小于1/2;而取极端情况,两个分布的均值相等,即平方马氏距离为0,则两个误判概率都等于1/2
为了防止误判概率过大,需要对于两个总体的均值进行差异性检验;即使存在显著差异,也要看看误判概率是否达到了一定高度
使用估计量估计分布的参数
我们无法准确得知所有总体的确切参数(均值、协方差),所以使用样本统计量进行估计
使用样本均值作为均值的估计量
在协方差相等的假设前提下,使用S_p作为总体协方差的估计量
那么使用估计量表示的线性判别函数就是
高斯分布下的误判概率也可以用估计量表示
判别效果的评估
可以使用回代法计算未知分布的误判概率,但是会出现乐观估计的情况
判别函数对于用于构造它的样本具有更低的误判概率,为了解决需要使用额外的样本评估误判率
留出法
将样本数据分为支持集(用于构建判别函数)和验证集(检验误判概率),仅使用支持集构建判别函数,再用验证集进行误判概率的计算
交叉验证法
将样本分为均匀的k份,每次抽出一份作为验证集,剩余的作为支持集构建判别函数,再使用抽出的验证集计算误判概率,最后将k次取平均(条件允许的话分层最好,即保证每一份中各类别比例相等,等于整体之比)
自助法
随机有放回地抽取验证集数据,剩余没被抽到过的构建支持集
当两组样本的协方差不相等:二次型判别函数
当两个总体的协方差不相等,说明两个分布的形状不一样,无法对于平方马氏距离之差化简
可以直接将平方马氏距离之差作为判别函数,此时其是一个关于x的二次型
此时的协方差估计量为各总体的样本协方差
多个总体/多组样本的距离判别
存在k个总体\pi_1,...\pi_k,分别有均值和协方差,需要判断新样本x属于哪个总体
也可以分为两种情况
各总体协方差相等:线性判别函数
当各总体协方差相等时,可以定义一组线性的判别函数
选择函数值最大的组作为判别类
存在一对总体协方差不相等:二次型判别函数
实际上就是点到多个总体分布的马氏距离,计算最短的即可
基于距离的判别的小技巧
判别分类是否有效
除非各组均值之间有明显的差异,否则不建议做判别分析
在数据满足一定条件的情况下,建议先进行多元方差分析
即使差异显著,还要看一下误判概率
什么时候使用线性判别?什么时候用二次型?
当样本容量普遍较小,则建议使用线性判别,否则用二次型
可以对于各个总体的协方差进行假设检验,看是否差异显著
如果拿不准,可以分别进行判别,再使用交叉验证看看哪种误判率小
基于距离判别的前提条件:具有完整的数字特征(样本均值、样本协方差)
5.3 基于贝叶斯的判别
有些情况下,不适合使用基于距离的判别,当没有具体完整的数字特征时
我们可以考虑一下使用基于条件概率的贝叶斯公式
贝叶斯思想的核心是使用先验概率和似然来去计算后验概率,是一种执果寻因的思想
贝叶斯公式
P(C_i|x)是经过似然函数引入的信息修正后的先验概率,可以称为后验概率
P(C_i)是经验得到的先验概率
P(x|C_i)是当条件为C_i时数据点x出现的概率,可以称为似然函数,也正比于条件概率密度,在参数估计中的极大似然估计正是最大化似然来去估计参数的
贝叶斯判别公式
f_i(x)是条件概率密度函数
如果是离散型概率分布的话可能是概率值
分母上使用了全概率公式
实际上后验概率正比于先验概率乘上似然函数,分母加上一个归一化因子即可,因为后验概率求和为1
最大后验概率法
计算出后验概率后,选择概率最大的那一个类别作为判别类别
其实等价于误判代价相等的最小期望误判代价法
可以这样来理解:当代价相等时,消去代价,此时后验概率和期望误判代价之和为1,是一个定值,此时最大化一部分等价于最小化另一部分
后验概率与[(误判概率*先验概率)之和]的和是一个定值,最大化一部分等价于最小化另一部分,而后者就是误判代价相等时的期望误判代价
后验概率
误判代价相等时的期望误判代价
其中误判概率是等价于概率密度的部分,实际上最小化期望误判代价法就是最小化了(误判代价*误判概率*先验概率)之和
当先验概率未知时,我们一般认为各类别的先验概率相等
重要的特例:当两个总体均为正态分布时
在某些情况下,基于距离的判别等价于贝叶斯判别:当总体均为正态分布,各分布协方差相等,且先验概率相等时
当两组均为正态且协方差相等时,距离判别函数就是误判概率之比/概率密度之比的对数形式,也就相当于先验概率相等的最大后验概率法
将化简后的马氏距离之差带入概率密度之比即可得到对数化后的线性判别函数
后一项就等价于距离判别函数是否大于0(取对数)
如果是正态和协方差相等的假定下,要直接根据距离判别函数使用极大后验概率法,需要加上先验概率之比的对数
也就是说,需要取对数大于等于0则判别到\pi_1
反之则\pi_2
最小期望误判代价法
误判概率的计算
误判概率我们在前面已经将讲到了,我们来看看如何计算P(l|i)
以这个一维的判别域和概率密度为例
判别域分别为R_1和R_2,当数据点处于R_1时就被判别为\pi_1,处于R_2时被判别为\pi_2
总体\pi_1和\pi_2的概率密度如图所示
可以清晰地看到,对于P(2|1)和P(1|2)是如何计算的
我们计算某个误判概率P(l|i),需要在其对应的判别域R_l上对于其真实概率密度f_i(x)进行积分,即
因此可以将误判概率近似写为真实类别的概率密度
对于不同的误判概率,我们可能有不同的代价
例如:将健康的人诊断为患病的代价低一些,但是将患病的人诊断为健康代价很高
误判代价是根据经验事先定义好的
我们这样定义
代表将属于\pi_i总体的样本判别到\pi_l的代价,k是类别的数量
当i与l相等时,是正确判断,误判代价等于0
这样可以形成一个误判矩阵,对角线上元素为0
期望误判代价EMC
期望误判代价可以这样计算
指的是将其他类别错误判别为j类别的期望误判代价
也可以理解为后验概率其实表示了对于某个数据x属于某个类别的估计,使用后验概率作为估计值计算误差期望
可以这样理解:期望误判代价等于每一种误判代价乘以对应误判概率然后求和
误判概率使用积分计算,正比于条件概率密度,那么误判概率和先验概率的乘积就正比于联合概率密度
当选择了\pi_j作为判别总体,则其他的总体的误判概率为0,因为不会发生这种情况(没有将x判给其他总体)
所以我们要选择一个最小的E_j
最小期望误判代价法实际上是最小化了(误判代价*误判概率*先验概率)之和,当误判代价相等且先验概率相等时,等价于最小化误判概率之和,误判概率实际上正比于真实类别的概率密度函数值(因为P(l|i)的求解方法就是在判别域上对fi(x)进行积分)
误判代价的后两项可以理解为联合概率,也可以理解为误判概率*真实概率的先验
当i=j时,分类正确,误判代价为0
选择最小的EMC_j对应的\pi_j作为判别的结果
当p=2时有如下结论
则判别为C_1
判别为C_2
多组情况下是要找到最小的E_j作为判别总体
5.4 Fisher判别函数
Fisher判别函数既可以用于分类(使用支持集计算投影向量,基于这个投影向量和样本的点乘进行分类),也可以用于分离(这个方向向量就是分离的工具)
Fisher判别函数的核心思想就是投影,或者说降维
我们将样本空间上的样本投影到一个方向上,得到一个标量,使用这个投影得到的标量的函数进行判别
核心思想图示,来自于PRML
将样本投影到不同方向,所得到的一元随机变量的分布也不一样
好的方向可以较好地将不同总体之间的样本进行划分
Fisher判别函数的形式
总体\pi_i和p为观测值用x_{ij}进行表示
与方差分析相同,需要以各个总体的协方差相等为前提条件
我们使用一个p维方向向量,与每个总体的样本进行内积,获得一个标量并由此构建函数进行判别
如何找到这个方向向量呢?
我们希望进行投影后,组间的差异较大而组内的差异较小
考虑使用方差分析的思想,进行误差分解
我们计算如下统计量
其实是方差分析中的SSTR和SSE
当我们使用方向向量将p维样本投影到一维时,一维变量的E阵和H阵的计算与协方差的变换相同
这样我们需要令组间差异尽可能大而组内差异尽可能小,即是最大化
为了简化操作,我们定义分母项为1,在这个约束下最大化分子函数即可
使用Lagrange数乘法可以求解这个最大化问题
式1
式2
将式1左乘a^T得到式3
我们认为E阵为正定阵(n-k>=p),式1左乘E^{-1}得到式4
这说明lambda就是E^{-1}H的特征值,而a对应着其特征向量
求解特征值与特征向量,由于需要最大化a^THa,我们取最大的特征值\lambda_1对应的特征向量为a,称为fisher第一判别函数方向,构建的投影函数称为Fisher第一判别函数
等价的约束定义
这个约束与上述分母约束=1所求出来的判别函数方向是一样的,只是特征值有所不同
这个等价约束的意义
S_p是对各个总体的协方差的联合估计,实际上就等于E/(n-k)
使用S_p作为协方差的估计量,也就是设定投影后的随机变量的方差为1
第i Fisher判别函数
有时候只有一个Fisher判别函数是不够的,需要我们寻找额外的Fisher判别函数
我们希望这个新的判别函数,不包含之前的判别函数的信息,那么就要求新的投影变量和之前的投影变量的协方差为0,没有相关性
t_1是已经求解出的fisher第一判别函数方向
就需要以这个条件为约束
求解fisher第二判别函数
我们需要找到一个t_2,使得满足t_1^T S_p t_2=0下,J(a_2)最大化
实际上我们通过最大化J(a_2)可以了解,实际上a_2仍然是E^{-1}H的特征值的特征向量
但是要求约束
如果t_2还是第一fisher判别函数方向的话,就无法满足约束
那么我们只能选择第二大的\lambda_2的特征向量作为t_2
可以通过推广的柯西-施瓦茨不等式进行证明
应该也可以使用拉格朗日数乘法来进行证明
使用Lagrange数乘对于a、lambda_1和lambda_2求偏导,令其等于0
求解第i fisher判别函数可以视为是在求解广义特征值问题
偏导等于0时的方程
解实际上就是E^{-1}H的特征值对应的特征向量,i从1到s
我们根据第2fisher判别函数的规律,我们求解出第i fisher判别函数就是E^{-1}H对应的第i个特征值的特征向量
我们设定矩阵E^{-1}H全部非0特征值依次为\lambda_1>=\lambda_2>=....\lambda_s,s<=min(p,k-1)
那么总共有s个对应的标准化后的特征向量t_1,....t_s,(t_i^T S_p t_i=1)
这s个特征向量分别为第s fisher判别函数方向,有s个fisher判别函数
有时我们也使用中心化的fisher判别函数,即
实际上这两个其实是等价的,因为在计算组间方差和组内方差的过程中就实现了中心化过程
fisher判别函数的特点
各个判别函数都具有单位(联合样本)方差
来源于分母归一化条件
各个判别函数彼此之间不相关
准确地说是各个投影变量之间的的协方差为0
这是为了保证信息不重复
各个判别函数方向往往无法正交
只能满足以上约束,而不能保证t_1和t_2的内积为0
根本原因是虽然t_i和t_j都是E^{-1}H的特征向量,但是因为E^{-1}H不是实对称阵,所以不能保证不同特征值的特征向量正交
判别函数不受度量单位的影响
相对来说马氏距离也不受度量单位的影响,而欧氏距离则受到影响
fisher判别函数的贡献度
第i fisher判别函数的贡献计算方式为
第i fisher判别函数的累计贡献度计算方式为
它表明了第i fisher判别函数的判别能力
在实践中,如果前r个fisher判别函数的累计贡献度已经超过了某个阈值(75%-95%),那么我们就可以只用这些fisher判别函数
判别函数得分图
r=2,使用散点图
r=3,使用三维立体图
理论上说,不同的fisher判别函数方向都是正交了,我们可以将其画成标准正交基的形式
fisher判别函数也有不适合的情况
当在任何一个投影方向都有多个类别混淆的情况,就说明这个数据不适合使用fisher判别法
fisher判别规则
由于各个判别函数都为单位方差且不相关,那么我们只需要计算变换后的变量组成的随机向量之间的欧氏距离即可
fisher判别函数的求解可以理解为一种表征学习,也可以将其看作单层的简单神经元,只不过不是通过反向传播求解权重,而是通过最大化组间差异和组内差异之比
可以认为是在寻找信噪比最高的方向,依次往下寻找正交方向,最终得到s个方向向量
也可以认为fisher判别函数以一种简单的能量计算方式优化出了一个r*p的权重矩阵,将p维的原始数据映射到r维的表征,表征更有利于分类的进行
那么就可以将fisher判别函数作为一个探索(做分类时),以累计贡献度来指导模型结构(神经元个数)的设计
将支持集中的多个总体分别投影到选择的r个fisher判别函数中,得到投影后的特征向量总体
得到一个r维的特征向量
使用变换后的r维总体和以同样方式变换的查询集样本,分别计算变换后样本到变换后总体的欧氏距离,选择最短的作为判别类
当使用全部s个判别函数时,fisher判别等价于使用马氏距离判别
当使用全部s个判别函数时,特征向量和原始输入的关系是
那么平方欧氏距离的计算就等价于
我们假定矩阵(a_1,\dots,a_s)\in R^{p*s}为A
存在如下性质,是由变换后方差为1推广得到的
那么有推论
这样的话fisher判别函数组成的特征向量的欧氏距离就等价于马氏距离
特例:当组个数k为2时的判别
当k=2时,有
因为E我们视为正定阵(实际上只要n-k>=p即可),H的自由度,也就是其对角化后对角矩阵的非0特征值个数为k-1,也就是其秩为k-1(要想其满秩的话需要k-1>=p,但实际上一般不可能,r(H)=min(p,k-1))
此时fisher判别函数只有一个,所以其判别规则就等价于马氏距离判别
6. 聚类分析
6.2 距离和相似性度量
距离
数据的度量
类别变量
标称变量
有序变量
数值变量
等距变量
比例变量
距离的性质
(1)非负性
d(x,y)>=0
(2)对称性
d(x,y)=d(y,x)
(3)三角不等式
d(x,y)+d(y,z)>=d(x,z)
对于数值型变量距离的度量
闵可夫斯基距离(q模距离)
当q=2时,则为欧氏距离
单位圆
最常用的距离
当q=1时,为曼哈顿距离
绝对值距离
当q趋于无穷时,为切比雪夫距离
最大差异的分量
欧氏距离、曼哈顿距离和切比雪夫距离的比较
对各变量的分量进行标准化处理
实际上就等价于对于向量x进行标准化
兰氏距离
当每个分量均为正数时,可以使用这个来进行距离度量
这种距离度量适合于存在偏移或异常值时
马氏距离
马氏距离是在多远统计学视角下的标准化距离
但是由于计算马氏距离需要用到协方差矩阵,而总体的协方差矩阵会随着类别样本的变化而随时变化,难以应用到计算中,在聚类分析中用的较少
对于类别型变量距离的度量
m_1是两个变量之间相配合类别的数量(对应位置类别一样)
m_2是不相配合的类别数量
相似性度量
相似度的性质
余弦相似度
定义
当向量x,y进行单位化后,余弦相似度就是二者之间的点乘
相关系数
相关系数有时也可以描述变量之间的相似性
基于距离的相似度
用距离来构造相似性系数总是可能的
当
时,使用距离构造的相似性系数就满足相似性度量的三个性质
但是使用相似性系数构造距离需要满足定义距离的三个条件(非负性/对称性/三角不等式)
Gower证明,当
这样使用相似性系数构造的距离就满足定义距离的三个条件
6.3 系统聚类法
以下的聚类方法核心思想都是一样的,就是类间距离计算的方式不太一样
样本之间的距离通常使用标准化后的欧氏距离
核心思想就是聚集或分割
系统聚类法包括聚集系统法和分割系统法
聚集法:开始时将n个样本各自作为一类,并规定样本之间的距离与类之间的距离;然后将距离最近的两个类合并为一个新类,计算新类与其他类之间的距离;重复以上流程,直到所有的样本都合为一类
分割法:与聚集法相反,是在开始时先将所有样本都视为一类,按某种最优准则将其分割为两个尽可能远的子类,再使用同样的准则将子类进一步地分割成更多的子类,从中选择一个分割最优的子类,如此下去
一、最短距离法
定义类之间的距离为两个类的样本间距离的最小值
最短距离法倾向于产生“结”,有一种挑选长链进行聚合的倾向,称为连接倾向
最短距离法不适合对于分离得很差的样本进行聚类
二、最长距离法
定义类之间的距离为两个类的样本间距离的最大值
最长距离法容易被异常值影响
三、类平均法
定义类之间的距离为两个类的样本间距离的平均值
较好地利用所有样本之间的信息,被认为是比较好的聚类方法
四、重心法
使用一个典型值(比如平均值)代表一个类,用其他类到这个点的距离代表类之间的距离
对于异常值的处理相比其他系统聚类方法更加稳健,但是效果不如平均法和离差平方和法
六、离差平方和法
使用类中个样本到类均值/类中心的欧氏距离之和(离差和)作为距离衡量方式
假设将L类和K类合并为M类,那么有
其余类似
实际上就是组间方差和
也很容易受到异常值的影响
倾向于先将小的类聚集,因为较大的类之间有着较大的距离,因而不容易合并,而较小的类容易合并,往往符合我们对于聚类的实际要求
八、系统聚类法的性质
不像k-means聚类是一种动态的聚类方法,系统聚类法要求其已经聚集好的类不能发生改变
单调性
D_i是指系统聚类法第i次并类的距离,如果一种系统聚类法能满足D_1<=D_2<=D_3.....,那么称这种方法具有单调性
最短距离法、最长距离法、类平均法、离差平方和法都具有单调性;但是重心法不具有单调性
九、使用聚类可视化评估聚类效果
二维样本的聚类效果可视化:使用平面图即可肉眼观测
十、对于变量的聚类
系统聚类法既可以对样本聚类,也可以对于变量聚类
7.主成分分析
主成分分析又被称为PCA,实际上是Principal Component Analysis
理解了协方差的谱分解就可以理解主成分分析
1. 引言
为了将样本进行降维,引入PCA
主成分往往包含着原始变量的绝大部分信息
不同主成分之间不相关
主成分的应用
(1)主成分本身就是分析目标,需要给出主成分并结合背景给出解释
(2)主成分分析只是达成目标的降维手段,是一个中间结果,例如主成分回归、主成分聚类等
理解主成分:二维视角
原始坐标系经过正交变换旋转到样本协变异最大的方向,各个主成分坐标系正交
在进行主成分分析之前需要进行检验:是否协变异程度有明显差异
如果个特征值类似,则原始数据近似球形,没有明显的主成分
2. 总体的主成分
一、主成分的定义及导出
问题定义:我们需要找到一个方向向量a,使得V(a^Tx)最大,也就是找到协变异最大的方向,同时约束方向向量的模为1
类似于fisher判别方向的求解
直接结论:主成分方向t_i是协差阵\Sigma进行谱分解得到的对角阵\Lambda按特征值由大到小排列的对应的特征向量
P是各个向量都经过标准化的正交矩阵
通过旋转得到的各个新的分量之间线性不相关
\Lambda是一个对角阵
维度为p的随机向量有p个主成分
这样主成分向量和原始的x有如下关系
此处的T矩阵和上文中的P矩阵相等
我们这里设定矩阵T为
那么有x_i与y的关系和y_k与x的关系
主成分的几何意义
t_i表示主成分投影的方向,\lambda_i表示这个方向上的变异程度
二、主成分的性质
(一)主成分的协方差矩阵
主成分的协方差矩阵是一个对角阵,元素为协方差阵的特征值
(二)主成分的总方差
总方差是各个分量的方差之和,等于协差阵的迹(trace)
主成分的总方差等于原始变量的总方差,因为
那么就有
主成分的贡献率
(三)x_i与主成分之间的相关系数
我们已经得出了x_i与y之间的关系是
那么求协方差得到
y_k与除了k之外的其他的y_j没有线性相关关系,所以协方差为0
y_k与自身的协方差为lambda_k
求相关系数
(四)m个主成分对原始变量x_i的贡献率
可以通过x_i与(y_1,....y_m)的复相关系数求解出来
如果m=p时,贡献率为1
证明
(五)原始变量对于主成分的影响
t_{ik}称为y_k在x_i上的载荷/负荷
在解释主成分时我们要考察载荷
三、从相关阵求主成分
在各分量单位相差较大时,或者单位相同但是部分分量方差较大时使用
从R出发求主成分
我们有
对相关系数阵进行谱分解,求出特征值和单位化的特征向量
进行主成分的求解
T*和P*相等
从相关阵得到的主成分的性质
(1)
(2)
证明
(3)
因此在解释从相关阵推出的主成分时,相关系数和载荷的作用是一样的,只需要挑一个作为解释即可
(4)
主成分对于原始变量的贡献
相关阵得到的主成分与协方差阵得到的主成分可能有很大差别,因此在主成分分析中标准化不是无关紧要的
3. 样本的主成分
考试不作为重点,可以说基本上不考,而且核心思想一样,就是流程上不太一样
8. 因子分析
8.1 引言
因子分析与主成分分析的区别
因子分析可解释性更强
因子一般不能表示为原始变量的线性组合
因子分析具有更多强假设
因子分析的解不是唯一的,更加灵活
因子分析的个数可以根据设定而变动
8.2 正交因子模型
一、数学模型
每个原始变量分解为三部分:均值、公共因子影响和特殊因子影响
写为矩阵代数形式
f为公共因子,epsilon为特殊因子
A被称为因子载荷矩阵
正交因子模型的假定
(1)
(2)
(3)
公共因子的各个分量不存在相关关系,且分量内部的方差为1
(4)
这个其实是特殊方差,是指原始变量不能被公共因子解释的部分,不要和对角线元素为原始变量的各分量方差的D矩阵弄混了,这个矩阵应该是可以人为设定的
不同分量之间的特殊因子之间不存在相关关系
(5)
公共因子与特殊因子之间不存在相关性
因子个数m的选择
一般来说,m过大则会失去降维的意义,m过小就会损失信息
在过拟合与欠拟合之间寻找平衡点
二、正交因子模型的性质
三、因子载荷矩阵的统计意义
主题
子主题