导图社区 2-1、DL(深度学习):多分类中-激活函数:SF;从而涉及内容:信息量、熵、交叉熵【已完善】
激活函数,2-1、DL(深度学习):多分类中-激活函数:SF;从而涉及内容:信息量、熵、交叉熵【已完善】
损失函数,代价函数 全集,损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越小,通常模型的性能越好。
社区模板帮助中心,点此进入>>
安全教育的重要性
个人日常活动安排思维导图
西游记主要人物性格分析
17种头脑风暴法
如何令自己更快乐
头脑风暴法四个原则
思维导图
第二职业规划书
记一篇有颜又有料的笔记-by babe
伯赞学习技巧
信息论
概念体系
信息量
一条信息的信息量大小和它的不确定性有很大的关系;信息量小则确定性高,反之则低
互信息(Mutual Information)
互信息用于衡量两个变量之间的关联程度; 直观上,互信息度量X和Y共享的信息,它度量的是这两个变量其中一个,对另一个不确定度减少的程度
熵(Entropy)
Entropy来源于希腊语,原意:内向,即:一个系统不受外部干扰时往内部稳定状态发展的特性。定义的其实是一个热力学的系统变化的趋势。 信息论:熵是接受的每条消息中包含的信息的平均值。又被称为信息熵、信源熵、平均自信息量。可以被理解为不确定性的度量,熵越大,信源的分布越随机; 广义:熵是描述一个系统的无序程度的变量;同样的表述还有,熵是系统混乱度的度量,一切自发的不可逆过程都是从有序到无序的变化过程,向熵增的方向进行
公式关系:
熵是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望
特例:二项分布(0-1分布)
抛硬币示例:当p=0.5时,熵最大,也就是说抛一枚硬币,当正反两面朝上的概率相同时,熵最大,系统最复杂;
条件熵(Conditional Entropy)
表示:在已知X的条件下Y的不确定性
联合熵(Joint Entropy)
用于衡量多个随机变量的随机系统的信息量
相对熵(又称KL散度)
用于衡量对于同一个随机变量x的两个分布p(x)和q(x)之间的差异 [前半部分就是p(x)的熵,后半部分就是我们的交叉熵](衡量两个事件/分布之间的不同)
机器学习中,我们常常使用KL散度来评估predict和label之间的差别,但是由于KL散度的前半部分是一个常量,所以我们常常将后半部分的交叉熵作为损失函数,其实二者是一样的
KL散度,有时候也叫KL距离,但KL散度是不具有对称性的【交叉熵也是不具备对称性】;
JS 散度 (Jensen-Shannon Divergence)
JS 散度解决了 KL 散度不对称的问题,当取以 2 为底的对数时,JS 散度的取值范围为:
交叉熵(cross entropy)
交叉熵的产生,查阅PPT或电子笔记(已推导)
概念关联
KL散度
CE作为LOSS函数的错觉
其中我们是用KL散度评估两个分布的差异,因为KL散度公式前一部分正好是训练集的熵(而训练集是已定的),即前部分可以理解成一个常量,那么优化KL散度等价于优化CE部分;