导图社区多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

这是一篇关于多模态视觉语言表征学习研究综述的思维导图，主要探讨了视觉和语言信息如何在多模态学习框架中进行融合和表征。详细描述了基于粗粒度和细粒度相似性匹配模型的两种主要方法。这两种方法旨在通过不同的粒度级别来捕捉视觉和语言信息之间的相似性，以实现更有效的多模态表征。还介绍了预训练技术及其在视觉语言表征学习中的应用。预训练技术，如预训练架构的视觉语言统一表征学习，通过在大规模数据集上进行预训练，为下游任务提供了更丰富的初始表征。

编辑于2024-06-02 00:10:57

多模态
视觉语言

一個人的生活

他的近期作品查看更多>>

多模态视觉语言表征学习研究综述

社区模板帮助中心，点此进入>>

一個人的生活

他的近期作品查看更多>>

相似推荐
大纲

互联网9大思维
- 33.9k
- 912
- 2.4k
- 389
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 14.6k
- 3
- 184
- 10
Kacyun
域控上线
- 1.6k
- 163
- 11
- 4
jackrao
python思维导图
- 5.4k
- 525
- 242
- 7
(*^▽^*)
css
- 1.2k
- 1
- 43
- 3
A张舫
CSS
- 3.3k
- 262
- 188
- 33
journey
计算机操作系统思维导图
- 4.2k
- 337
- 204
- 18
journey
计算机组成原理
- 1.5k
- 98
- 70
- 8
journey
IMX6UL(A7)
- 513
- 40
- 5
- 0
Handler XU
考试学情分析系统
- 685
- 50
- 10
- 1
蒋龙

多模态视觉语言表征学习研究综述

背景知识

表征学习

概率图模型

是神经网络模型

多模态表征学习的定义及划分

预训练技术

视觉语言表征学习的研究框架

多模态表征中的一个重要研究方向,其在内容消费、医疗影像等领域有着广泛应用

基于相似性的视觉语言表征学习

总体架构

基于相似性的表征学习是在一个协同的空间内最小化不同模态之间的距离,其输入数据主要为具有排序或者正负关系的视觉文本信息对,通过不同的建模方法实现视觉语言表征的学习

基于粗粒度的相似度匹配模型

通过计算图像模态和图像的标注文本之间的相似性.WSABIE中使用排序损失来度量标注数据与图像之间的相似性

针对损失函数的优化,可以有效地提升产出的表征的质量.VSE++提出了一种新的损失函数计算方案,其主要针对疑难的负例,加大样本与疑难负例之间的距离,其损失函数采用三元损失

基于细粒度的相似性匹配模型

为了对每种模态的高层次语义信息(尤其视觉模态)进行捕获,从而实现细粒度匹配,一般采用全局特征与局部特征融合和增加自注意力机制等方案

SCO 模型提取了图像的多个候选区域,然后采用多标签的卷积神经网络对每一个候选区域进行分类,得到分类的向量,然后再利用逐元素最大池化的方法得到一个得分向量作为局部特征,通过VGG模型抽取全局特征,然后通过门控机制将全局特征和局部特征进行融合,得到视觉融合向量,再与LSTM输出的文本向量进行相似度匹配

总结

基于相似性的视觉语言表征学习模型以相似性为度量标准,优化每种模态的隐含向量.首先在使用上,其不能作为一个统一表征输出,需要采用一定拼接方式将两种向量连接起来;同时,在训练过程中由于存在大量样本,如何高效计算损失,也是需要解决的问题.

预训练架构的视觉语言统一表征学习

总体架构

VisualBERT展示了类 BERT 视觉文本统一表征预训练架构的一个典型结构(图像检测区域和文本区域进行输入组合

Transformer 通过自注意机制发现隐含对齐),通过 Transformer 中的 selfattention 机制,隐式地对齐输入文本元素和输入图像中的区域,复用了BERT 的加掩码操作的编码方式,整个架构上采用预训练加下游任务微调的模式

几种不同划分

基于内容理解与内容生成的划分

BERT;解码器部分则侧重于内容的生成和回归,典型有 GPT 这种模型

VLP是一个典型的混合编码解码结构的网络框架

ViLBERT 中引入了联合注意力机制进行不同模态之间的学习

特征预处理

文本特征处理

问题

稀疏问题:某些词汇出现的频率很低,得不到充分训练

计算量问题:词典过大,也就导致隐含向量的计算量变大

BPE(字节对)编码或二元编码属于数据压缩算法,其中最常见的为一对连续字节数据被替换为该数据中不存在的字节,其后期使用时,需要一个替换表来重建原始数据

准备足够大的训练语料

确定期望的子词词表大小

将单词拆分成字符序列,并在末尾添加后缀“〈/w〉”,统计单词频率

统计每一个连续字节对的出现频率,选择最高频合并成新的子词

重复第4步直到达到第2步设定的子词词表大小,或者下一个最高频字节对出现频率为1

WordPiece 算法是 BPE 的变种,不同点在于,WordPiece 基于概率生成新的子词而不是下一最高频字节对

训练语料数据准备

确定期望的子词词表大小

将单词变成字符序列

基于第3步数据训练语言模型

从所有的子词单元中选择加入语言模型后,能最大程度地增加训练数据概率的单元作为新的单元

重复第5步直到达到第2步设定的子词词表大小,或概率增量低于某一阈值

图像特征处理

卷积神经网络是目前比较通用的图像特征提取方法

视频特征的预处理

VideoBERT、UniViLM是目前典型的视频文本预训练的架构

预训练任务

预训练数据集

MS-COCO

Conceptual Captions

SBUCaptions

LAIT

HowTo100M

Youcook2

MSR-VTT

VATEX

预训练损失函数

图像文本掩码

视觉文本匹配

掩码视觉区域

序列到序列目标损失

场景图预测

下游任务

内容理解类

视觉问答、视觉推理、视觉联合推理、图像检索、视频检索

内容生成类

图像描述

视频描述

视觉语言统一表征质量评估

零样本学习评估

面向具体任务的评估

面向具体任务的评估是直接在具体的任务上进行训练,本质上属于有监督的训练

预训练加下游任务评估

针对下游任务的评估,是在产生的统一表征的基础上针对具体的任务进行微调

视觉语言表征学习的发展趋势

支持内容理解与内容生成的通用表征框架

训练及推断性能提升

细粒度特征挖掘