导图社区 2-1、DL（深度学习）：多分类中-激活函数：SF；从而涉及内容：信息量、熵、交叉熵【已完善】

2-1、DL（深度学习）：多分类中-激活函数：SF；从而涉及内容：信息量、熵、交叉熵【已完善】

激活函数，2-1、DL（深度学习）：多分类中-激活函数：SF；从而涉及内容：信息量、熵、交叉熵【已完善】

编辑于2023-08-26 12:40:56 广东

激活函数

他的近期作品查看更多>>

1-1、ML（机器学习）：损失函数 [已完善]
损失函数，代价函数全集，损失函数用来评价模型的预测值和真实值不一样的程度，损失函数越小，通常模型的性能越好。
2-1、DL（深度学习）：多分类中-激活函数：SF；从而涉及内容：信息量、熵、交叉熵【已完善】
激活函数，2-1、DL（深度学习）：多分类中-激活函数：SF；从而涉及内容：信息量、熵、交叉熵【已完善】

2-1、DL（深度学习）：多分类中-激活函数：SF；从而涉及内容：信息量、熵、交叉熵【已完善】

社区模板帮助中心，点此进入>>

他的近期作品查看更多>>

相似推荐
大纲

安全教育的重要性
- 8.6k
- 946
- 100
- 18
- 0
issen
个人日常活动安排思维导图
- 9.6k
- 0
- 84
- 0
- 0
少儿栏目外景策划波波老师
西游记主要人物性格分析
- 19.4k
- 1.4k
- 647
- 103
- 0
issen
17种头脑风暴法
- 213.6k
- 4.3k
- 11.9k
- 4.1k
- 1
MindMaster
如何令自己更快乐
- 7.0k
- 31
- 99
- 4
- 0
wxb
头脑风暴法四个原则
- 4.1k
- 197
- 71
- 3
- 0
issen
思维导图
- 23.1k
- 2.4k
- 450
- 79
- 0
Jason
第二职业规划书
- 6.6k
- 3
- 68
- 0
- 0
~九梦离殇~
记一篇有颜又有料的笔记-by babe
- 3.5k
- 9
- 32
- 3
- 0
橘大喵
伯赞学习技巧
- 4.2k
- 19
- 48
- 8
- 0
安浪

信息论

概念体系

信息量

一条信息的信息量大小和它的不确定性有很大的关系；信息量小则确定性高，反之则低

互信息（Mutual Information）

互信息用于衡量两个变量之间的关联程度；直观上，互信息度量X和Y共享的信息，它度量的是这两个变量其中一个，对另一个不确定度减少的程度

熵(Entropy)

Entropy来源于希腊语，原意：内向，即：一个系统不受外部干扰时往内部稳定状态发展的特性。定义的其实是一个热力学的系统变化的趋势。信息论：熵是接受的每条消息中包含的信息的平均值。又被称为信息熵、信源熵、平均自信息量。可以被理解为不确定性的度量，熵越大，信源的分布越随机；广义：熵是描述一个系统的无序程度的变量；同样的表述还有，熵是系统混乱度的度量，一切自发的不可逆过程都是从有序到无序的变化过程，向熵增的方向进行

公式关系：

熵是表示随机变量不确定的度量，是对所有可能发生的事件产生的信息量的期望

特例：二项分布（0-1分布）

抛硬币示例：当p=0.5时，熵最大，也就是说抛一枚硬币，当正反两面朝上的概率相同时，熵最大，系统最复杂；

条件熵(Conditional Entropy)

表示：在已知X的条件下Y的不确定性

联合熵(Joint Entropy)

用于衡量多个随机变量的随机系统的信息量

相对熵（又称KL散度）

用于衡量对于同一个随机变量x的两个分布p(x)和q(x)之间的差异 [前半部分就是p(x)的熵，后半部分就是我们的交叉熵]（衡量两个事件/分布之间的不同）

机器学习中，我们常常使用KL散度来评估predict和label之间的差别，但是由于KL散度的前半部分是一个常量，所以我们常常将后半部分的交叉熵作为损失函数，其实二者是一样的

KL散度，有时候也叫KL距离，但KL散度是不具有对称性的【交叉熵也是不具备对称性】；

公式关系：

JS 散度 (Jensen-Shannon Divergence)

JS 散度解决了 KL 散度不对称的问题，当取以 2 为底的对数时，JS 散度的取值范围为：

交叉熵（cross entropy）

交叉熵的产生，查阅PPT或电子笔记（已推导）

概念关联

KL散度

CE作为LOSS函数的错觉

其中我们是用KL散度评估两个分布的差异，因为KL散度公式前一部分正好是训练集的熵（而训练集是已定的），即前部分可以理解成一个常量，那么优化KL散度等价于优化CE部分；