导图社区机器学习常用度量方法汇总

机器学习常用度量方法汇总

机器学习常用度量方法汇总，包括向量距离度量、信息熵、相关系数&相关距离、编辑距离、汉明距离、集合相似性度量、分布相似度量等内容。

编辑于2022-01-19 00:39:49

社区模板帮助中心，点此进入>>

机器学习-度量方法汇总

向量距离度量

欧式距离

距离计算方法

曼哈顿距离

兰氏距离/堪培拉距离

曼哈顿距离（Manhattan Distance）的加权版本。通常兰氏距离对于接近于0（大于等于0）的值的变化非常敏感

与马氏距离一样，兰氏距离对数据的量纲不敏感。不过兰氏距离假定变量之间相互独立，没有考虑变量之间的相关性

切比雪夫距离

闵可夫斯基距离

标准化欧氏距离

m为均值，s为标准差

马氏距离

表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系并且是尺度无关的，即独立于测量尺度

信息熵

交叉熵（Cross Entropy）

主要用于度量两个概率分布间的差异性信息。

则交叉熵用来衡量在给定的真实分布下，使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小：

相对熵

相对熵（Relative Entropy）），又被称为KL散度（Kullback-Leibler Divergence）或信息散度（Information Divergence），是两个概率分布间差异的非对称性度量。在信息理论中，相对熵等价于两个概率分布的信息熵的差值

JS散度

JS散度度量了两个概率分布的相似度，JS散度解决了KL散度非对称的问题。一般地，JS散度是对称的，其取值是0到1之间：