导图社区高等统计学——多元统计学

高等统计学——多元统计学

探索数据背后的多维奥秘！这份高等统计学大纲带你深入多元统计学的核心：从矩阵理论奠基，到多元分布与高斯分布的性质解析从均值推断、方差分析等统计推断方法，到主成分分析（PCA）、因子分析等降维技术更有聚类分析、判别分析等实用模型重点涵盖协方差谱分解与PCA的关联、Fisher判别函数、系统聚类法等实战内容，助你掌握多维数据的数学本质与分析工具。

编辑于2025-11-03 13:17:43

统计学
多元统计分析
因子分析
主成分分析

EDv9GWUl

他的近期作品查看更多>>

高等统计学——多元统计学

社区模板帮助中心，点此进入>>

EDv9GWUl

他的近期作品查看更多>>

相似推荐
大纲

论语孔子简单思维导图
- 91.4k
- 957
- 1.1k
- 492
- 1
MindMaster
《傅雷家书》思维导图
- 136.5k
- 1.7k
- 2.7k
- 1.3k
- 0
MindMaster
《童年》读书笔记
- 47.0k
- 490
- 988
- 337
- 0
MindMaster
《茶馆》思维导图
- 14.1k
- 176
- 181
- 40
- 0
MindMaster
《朝花夕拾》篇目思维导图
- 27.1k
- 534
- 1.2k
- 300
- 0
MindMaster
《昆虫记》思维导图
- 36.2k
- 272
- 779
- 279
- 0
MindMaster
《安徒生童话》思维导图
- 20.5k
- 278
- 264
- 66
- 0
MindMaster
《鲁滨逊漂流记》读书笔记
- 23.1k
- 311
- 551
- 166
- 0
MindMaster
《这样读书就够了》读书笔记
- 100.2k
- 12.9k
- 9.0k
- 2.2k
- 0
Ethan
妈妈必读：一张0-1岁孩子认知发展的精确时间表
- 11.8k
- 1.8k
- 413
- 38
- 0
Ethan

高等统计学——多元统计学

1.矩阵理论

正交矩阵及其性质

定义

注意

正交矩阵一定是方阵

正交矩阵一定可逆

几何意义

对于一个正交矩阵，我们可以将其视为对于线性空间/空间中的向量进行的一个旋转变换

证明

一个向量左乘正交矩阵，其模长不改变

两个向量左乘相同正交矩阵，其夹角余弦值不改变

可以说明进行正交变换只是改变了向量相对于坐标轴/标准正交基的角度，而未改变其他部分，相当于旋转

正交矩阵可以标准化为类似形式，以2*2空间为例

这其实就是将标准正交基/向量进行逆时针旋转\theta角度

需要注意的是正交矩阵会在协差阵正交对角化的过程中用到，掌握其性质至关重要

回归基本功：如何求给定矩阵的特征值和特征向量

因为在进行PCA的时候会用到：协差阵正交对角化

例题

首先先求解特征方程以得到特征值

求这个方程等于0的解，得到

使用特征值构造齐次线性方程组，求解每个特征值对应方程组的基础解系

对增广矩阵进行初等行变换，使其左侧矩阵转化为上/下三角阵

如果这个lambda是特征方程的n重根，那么最后化简的方程组个数就是(p-n)个（当然需要保证原始给定矩阵是一个实对称阵），然而对于这个给出的例子不成立

当有(p-n)个方程组时，需要再补充n个值才有解，这是我们将一个n*n的单位阵的每一列一次代入即可

得到

这里给出的矩阵不是一个实对称阵，所以代数重数不一定等于几何重数，所以可能最终得到的特征向量个数少于维度数

矩阵P不唯一，但是矩阵\Lambda唯一

例题2

这是一个p*p的相关系数阵，除了对角线上元素为1其余均为在(-1, 1)的\rho

对这个矩阵进行主成分求解

过程

求特征值

有推论

而且R'是一个叉积的形式，我们知道这种矩阵有p-1个为0的特征值，而且有1个不为0的特征值是tr(R')

求特征向量

\lambda_1

构造齐次线性方程组

对增广矩阵进行最简化行变换后得到矩阵

得到方程组

令t_p等于1获得特征向量

其余的特征值

同样构造，但是这次的矩阵比较简单是一个1_p向量的叉积形式

得到方程组

构造单位正交向量解

那么就得到了p个单位正交特征向量，将其按照位置组合就是主成分方向矩阵T=(t_1,.....t_p)

求贡献率

2.多元分布

2.1 多元分布

在本书中我们默认所有的向量均为列向量，需要注意

一、多元概率分布

首先定义随机向量/多元随机变量：对于一个每个分量均为随机变量的向量，称其为随机向量，随机向量是多元概率统计中的基本讨论单位

我们称之为p维随机向量

二、随机向量的分布函数

与随机变量的分布函数定义类似，只不过多元化了

实际上是一个p元联合概率分布函数

三、随机向量的概率分布密度函数

分布函数对每个分量求偏导得到

同样的，从概率密度函数得到分布函数需要p重积分

概率密度函数的性质

在定义域内，其值均为非负

定义域全域积分后等于1，这是概率的基本性质

四、随机向量的边缘分布

边缘概率密度

假设需要求q个分量的边缘概率密度（q<p）

对于随机向量x中的其他分量做（q-p）重积分即可

五、随机向量的条件分布

条件概率密度

求q个分量的条件概率密度(q<p)

原有的概率密度除以在条件部分的分量的边缘概率密度

另外还可以写成分块矩阵形式

六、随机向量分布的独立性

如果随机向量的n个分量彼此相互独立，那么就有

随机向量的概率密度等于各个分量的边缘概率密度之积

需要注意的是两两独立并不能保证分量彼此独立，只是一个必要条件不是充分条件

2.2 多元分布的数字特征

一、随机向量的期望

相当于对向量中各个分量（也是随机变量）求期望，结果是一个p维向量

随机矩阵的期望同理

期望算子具有广播性

随机向量/矩阵的期望的性质

（1）常向量/矩阵可分离性

一个随机向量左乘/右乘一个常向量或者常矩阵的期望等于这个随机向量的期望左乘/右乘这个常向量/矩阵

(2)常向量/矩阵仿射变换可分离性

设A、B、C为常矩阵，X为随机矩阵则有

(3)求和可分离性

对于一组随机变量的和求期望等价于分别对于每个随机变量求期望再求和

可以说明求和与求期望是可以换序的

二、随机向量的协方差矩阵

对于两个随机变量求协方差表示为

而对于随机向量则有

相当于对彼此的各个分量之间求协方差

也可以写为

可以将向量写成分量形式来进行证明

实际上就是向量之间叉积的期望减去期望的叉积

当协方差矩阵为0矩阵时，这两个随机变量的分量之间不存在线性关系

当向量x和y相同时，将其称为变量x的协方差矩阵，简称协差阵，记作\Sigma

\Sigma是一个对称阵，同时是一个非负定阵

也可以记作V(x)

协差阵的性质

(1)非负定性

按照定义证明

如果一个矩阵（假设形状为p*p）可以满足以下定义

则可以认为\Sigma是一个非负定阵

我们将协差阵写成期望定义形式

根据期望的常向量可分离/结合性质，我们将向量a放到期望内部，原式等于

我们将(x-\mathbb{E}[x])^T*a看作一个向量\beta（实际上是一个1*1的标量），那么有

原式等于

可以证明其为非负定阵

非负定阵的推论：协差阵的行列式一定大于等于0，如果协差阵行列式不等于0那么就是大于0

这是非负定阵的性质

按照对角化证明

我们知道协差阵是一个实对称阵，实对称阵是一定可以进行正交对角化的

正交对角化过程可以表示为

P是正交矩阵，\Lambda是一个对角矩阵

一种常见的对角化过程

我们可以证明，对于不同的特征值，协差阵的特征向量一定是相互正交的（实对称阵的不同特征值的特征向量一定正交，加上相同特征值条件下多个特征向量的施密特正交化，可以证明实对称阵是可以进行正交对角化的）

假设特征值\lambda_i和\lambda_j不相同，对应的特征向量分别为x_i和x_j

左式左乘x_j的转置，右式转置得到

一式

二式

因为协差阵是一个实对称阵，所以由二式有

再用新得到的式子右乘x_i，得到

使用得到的式子和一式做差得到

而且因为两个特征值不相等，所以一定是特征向量正交

对于相同的特征值内的特征向量，可以使用施密特正交化保证正交

经过如此变换，可以得到用于对角化的正交矩阵及其对应的对角矩阵

P是经过正交标准化的特征向量所构成的正交矩阵

每一列对应一个特征值，或者说多重根的情况下几列就对应几重根的特征值，总和加起来为p

有可能某个特征值有多个线性无关的特征向量（基础解系维度多），只需要将线性无关的特征向量与其对应的特征值一一对应即可，这里我们假定\lambda按照非升序排列，也即是\lambda_1>=\lambda_2>=……\lambda_p

可以写为

右乘对角阵相当于对每一列做变换，而左乘对角阵相当于对每行做变换

右乘P的逆可以得到

P是一个正交矩阵

这实际上还是协差阵的谱分解

对于任意幂指数都可以进行谱分解

使用对角化证明非负定

当然需要保证特征值大于等于0才可以开平方，有点循环论证的味道了

这个正交对角化是很重要的结论，后面很多内容例如马氏距离的的推导、主成分分析等都会用到

\Lambda中的各个非负特征值大小反映了数据在对应正交方向上的变异程度，最大的\lambda_1对应着第一主成分方向

对角化的推论

行列式等于特征值的乘积，同时也可以使用乘积的行列式等于行列式的乘积证明，因为正交阵的行列式等于1或-1

而且

(2)常矩阵仿射变换对于协差阵的影响

A为常矩阵，b为常向量

b因为中心化已经消除了

如果右乘，逻辑类似

(3)协差阵的意义

协差阵的行列式等于0，说明向量x内部分量以概率1存在线性关系

如果协差阵行列式等于0，说明其有至少一个特征值为0

a可以是对应特征值为0的特征向量

即可找到线性关系

(4)协方差矩阵的常矩阵仿射变换对其影响

(5)随机向量之和的协方差矩阵与各个向量的协方差矩阵之间关系

将协方差矩阵的形式写为期望形式即可证明，同时用到了期望和求和可换序性质

根据此式也可以求出协差阵的求和形式，特别注意，当各个随机向量相互独立时，和的协差阵等于协差阵的和

推论

当随机向量x_1,……x_n彼此独立时，有

三、相关矩阵