导图社区 Emotion Recognition From Multiple Modalities Fundamentals and methodologies多模态情感
这是一篇关于Emotion Recognition From Multiple Modalities Fundamentals and methodologies多模态情感的思维导图,主要内容有(1)研究动机、(2)研究方法、(4)研究结论的发现。
撒谎比说实话更需要认知,可以通过施加认知负荷来区分说谎者,策略性提问,意料之外的问题,魔鬼代言人方法,证据的战略运用。
81%的求职者承认在面试中至少撒了一个谎,99%的求职者在他们的研究中至少使用了一种欺骗性IM。面试官倾向于低估申请人使用的欺骗性IM的数量,并且在试图发现它时不准确。例如,在一项实验室研究中,参与者通过录像采访实时记录了他们对即时通讯的看法,在五项研究中,欺骗性即时通讯的使用只有11.8%-18.5%被正确检测出来面试官在评估应聘者是否适合这份工作时,往往依赖于这些(不准确的)看法。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
Emotion Recognition From Multiple Modalities Fundamentals and methodologies多模态情感识别基本原理和方法
(1) 研究动机
要介绍了广泛使用的情感表征模型和情感模态。 然后我们总结了现有的情感标注策略和相应的计算任务,并描述了MER的主要挑战。 在此基础上,我们提出了 一些有代表性的方法,包括对不同情感模态的表征学习、不同情感模态的特征融合、分类器优化和领域自适应等。最后,我们概述了几个现实世界的应用,并讨论了一些未来的方向。
(2) 研究方法
心理模型
categorical emotion states (CES)
CES模型 将情绪定义为几个基本类别,如二元情绪(积极和消极,有时包括中性),Ekman的六种基本情绪(快乐和惊讶(积极)以及愤怒、厌恶、恐惧和悲伤(消极)),Mikels的八种情绪(娱乐、敬畏、满足和兴奋(积极))还有愤怒、厌恶、恐惧和悲伤(消极的)],普卢奇克的情绪轮(八种基本的情绪类别,和三种强度。和Parrott的树分层分组(主要、次要和第三类)
CES模型更符合人类的直觉,但心理学家对应该包括 多少离散的情感类别尚未达成共识。 再者,情感是复 杂而微妙的,用有限的离散范畴无法很好地体现。
dimensional emotion space (DES)
DES建 模Em-ploy连续的2D、3D或高维笛卡尔空间来表示情感; 目前应用最广泛的DES模型是价唤起优势模型(VAD),它 分别反映了情绪的愉悦度、强度和控制程度。
DES 模型理论上可以将所有情绪作为连续笛卡尔空间中的不 同坐标点来度量,但绝对连续值是用户无法理解的。
情感模态
外显的情感线索
组包括面部表情、眼动、言语、动作、步态和脑 电图(EEG),所有这些都可以直接观察、记录或从个人 身上收集。
内隐的情感刺激
后一组包括常用的数字媒体类型, 例如文本、音频、图像和视频。
数据收集与情感标注
数据收集
已有的数据集或自行收集,爬虫,问卷
情感标注
有些数据集有目标情绪,不 需要注释,利用
雇人标注
计算任务
情绪分类
目前的研究主要集中在人工设计多模 态特征和分类器,或者采用端到端的深度神经网络
情绪回归
情感回归的目的是学习一个映射函数,该映射函数可以 有效地将一个实例与笛卡尔空间中的连续情感值关联起 来。
情绪检测
由于原始数据不能保证携带情绪,或者只有部分数据能 引发情绪反应,情绪检测的目的是找出源数据中的 情绪。
计算方法
表征学习
文本
一是将符号词表示为实数,以便下次计算; 二是对语义关系进行建模; 最后,获得整个文本的统一表示
音频
音频通常被传输为图 形表示,如频谱图,以馈送到CNN
图像
早期的方法主要利用这个领域手工制作的局部表示,包括颜色、运动和镜头剪切速率。 随着深度学习的出现,最近的方法通过采用三维CNN捕获编码在多个相邻帧中的时间信息来提取鉴别表示。 在提取视频中特定于模 态的特征后,对不同类型的特征进行整合可以得到更有 希望的结果,提高性能
步态
通过长短时记忆(LSTM)、深度CNNs或图卷 积网络,可以从步态中模拟出高层次的情感表征。
特征融合
无模型融合是一种不直接依赖于特定学习算法的融合 方法,
早期融合,也称为特征级融合,是将不同模式的特征 表示直接连接为一个单一的表示
后期融合,也称为决策级融合,而是综合每个单一模 态的预测结果。 一些流行的机制包括平均、投票和信 号方差。
混合融合将早期融合和后期融合相结合,在统一的框架 下发挥各自的优势,但计算代价较高
基于模型的融合在学习模型的构建过程中显式地执行融合
基于核的融合
在支持向量机(SVM)等包含核的分类 器的基础上进行的扩展。 对于不同的模式,使用不同 的内核。 核选择的灵活性和损失函数的凸性使得多核 学习融合在包括MER在内的许多应用中得到了广泛的应 用。
基于图的融合
为每个模态构造独立的图或超图,将这 些图组合成一个融合的图,并通过基于图的学习来学习 不同边和模态的权重。
基于神经网络的融合
合采用一种直 接直观的策略,将不同模态的特征 表示或预测结果通过神经网络进行 融合。
基于张量的融合
基于张量的融合试图通过一些特定的张量操作,如外 积和多项式张量池来挖掘不同表示之间的相关性
分类器
用基于转换 的方法,如BERT和GPT-3
实现为一系列模块,包括一个多头自关注层,然后是一个归一化层,一个前馈网络,和另一个归一化层。 文本中单词的顺序 也由另一个位置嵌入层表示。
音频情感识别中的分类方法
隐马尔可夫模型具有捕捉序列数据动态特征
支持向量机
LSTM的隐藏特征可以与手工制作的情感特征进一步连 接,然后输入分类器(例如SVM或随机森林(RF))来预 测情感
基于CNN的方法首先利用三维CNNs提取包含情感信息 的高层时空特征,然后利用全连通层对情感进行分类。
步态情感预测的网络是 时 空图卷积网络(ST-GCN)
“空间”代表骨骼结构中的空间边缘,也就是连接身体关节的四肢。 “时域”指的是时域边缘, 它们连接跨不同帧的每个关节的位置。 ST-GCN可以很容易地实现为空间卷积和时间卷积,类似于深度卷积网络。
MER与单模情感识别相比有许多优 点,但也面临着更多的挑战
情感鸿沟
提取具有鉴 别性的高层次特征,尤其是与情感相关的特征,有助于 弥合情感鸿沟。 主要难点在于如何评估提取的特征是 否与情绪相关。
知觉主体性
即使对于相同的情绪(如兴奋),也有不同的反应,
数据不完全性
设计有效的融合方法来处理数据的不完全性是一种广泛 使用的策略。
跨模态不一致性
给每个模式分配一个权重,评估 哪些模式更可靠
跨模态不平衡
不同的模态可能对诱发的情感有不 平等的贡献
标签噪声和缺失
利用社交推文的标签或关键词作为情感标签,但这种标签不完整,而且噪音很大。 为无监督/弱监督学习和少镜头/零镜头学习设计有效的算法
(4) 研究结论的发现。
关于MER的全面教程,了情感表征模型,包括显式和隐式情感模态,情感标注, 以及相应的计算任务。 我们详细总结了MER的主要挑战, 然后着重介绍了不同的计算方法,包括每个情感模态的表 征学习,不同情感模态的特征融合,以及MER的分类器
未来方向
上下文和先验知识建模
联合考虑上下文信息和先验知识有望提高MER的性能。 与图相关的方法, 如图卷积网络,是建立因素和情绪之间关系模型的可能解决方案。
从无标记、不可靠和不匹配的情感信号中学习:在大 数据时代,情感数据可能是稀疏标记甚至无标记的, 原始数据或标签可能是不可靠的,测试和训练数据可 能是不匹配的。
探索先进的机器学习技术,如无监督表示学习、动态数据选择和平衡、领域自适应,以及嵌入情感的特殊属性
针对MER的可解释、鲁棒和安全的深度学习
解释深度学习的决策过程可以帮助设计健壮和 安全的MER系统。
显式信号很容易被抑制或难以捕捉,而隐式信号可能不能实时反映情绪。 在观众-多媒体交互过程中,将它们联合起来以探索互补信息将提高MER的性能
心理学、生理学、神经病学和认知科学提出了不同的理论。 这些理论可以帮助我们理解人类是如何产生情感的,但它们没有很好地在mer任务中使用