导图社区 机器学习常用度量方法汇总
机器学习常用度量方法汇总,包括向量距离度量、信息熵、相关系数&相关距离、编辑距离、汉明距离、集合相似性度量、分布相似度量等内容。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
机器学习-度量方法汇总
向量距离度量
欧式距离
距离计算方法
曼哈顿距离
兰氏距离/堪培拉距离
曼哈顿距离(Manhattan Distance)的加权版本。通常兰氏距离对于接近于0(大于等于0)的值的变化非常敏感
与马氏距离一样,兰氏距离对数据的量纲不敏感。不过兰氏距离假定变量之间相互独立,没有考虑变量之间的相关性
切比雪夫距离
闵可夫斯基距离
标准化欧氏距离
m为均值,s为标准差
马氏距离
表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系并且是尺度无关的,即独立于测量尺度
信息熵
交叉熵(Cross Entropy)
主要用于度量两个概率分布间的差异性信息。
则交叉熵用来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小:
相对熵
相对熵(Relative Entropy)),又被称为KL散度(Kullback-Leibler Divergence)或信息散度(Information Divergence),是两个概率分布间差异的非对称性度量 。在信息理论中,相对熵等价于两个概率分布的信息熵的差值
JS散度
JS散度度量了两个概率分布的相似度,JS散度解决了KL散度非对称的问题。一般地,JS散度是对称的,其取值是0到1之间:
相关系数&相关距离
夹角余弦
相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上
皮尔逊相关系数
用于度量两个变量x xx和y yy之间的线性相关性,其值介于-1与1之间。前文提到的余弦相似度只与向量方向有关,但它会受到向量的平移影响,在夹角余弦公式中如果将x平移到x + 1,余弦值就会改变。皮尔逊相关系数(Pearson Correlation)就不会受到这种情况的影响,有时候也皮尔逊相关系数也直接被称为相关系数
编辑距离
编辑距离(Edit Distance,Levenshtein Distance)是一个度量两个字符序列之间差异的字符串度量标准,两个单词之间的编辑距离是将一个字符串转换为另一个字符串所需的单字符编辑(插入、删除或替换)的最小数量。
汉明距离
汉明距离(Hamming Distance)是应用于数据传输差错控制编码的距离度量方式,它表示两个(相同长度)字符串对应位不同的数量。对两个字符串进行异或运算,并统计结果为1的个数,那么这个数就是汉明距离。
集合相似性度量
杰卡德相似系数
杰卡德相似系数是衡量两个集合的相似度一种指标
杰卡德距离
杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度
Ochiia系数(Ochiia Coefficient)
两个集合的交集大小与两个集合大小的几何平均值的壁纸,它是余弦相似性的一种形式
Dice系数
用于度量两个集合的相似性,因为可以把字符串理解为一种集合,因此Dice系数也会用于度量字符串的相似性:
分布相似度量
Wasserstein距离/推土机距离
用来表示两个分布的相似程度。Wasserstein距离衡量了把数据从分布p 移动成 分布q 时所需要移动的平均距离的最小值。
最大均值差异(Maximum Mean Discrepancy,MMD)
是迁移学习,尤其是域适应(Domain Adaptation)中使用最广泛的一种损失函数,主要用来度量两个不同但相关的分布的距离。最大均值差异还可以用来测试两个样本,是否来自两个不同分布p 和q ,如果均值差异达到最大,就说明采样的样本来自完全不同的分布
点间互信息(Pointwise Mutual Information, PMI)
来衡量两个变量的相关性