导图社区 多模态视觉语言表征学习研究综述
这是一篇关于多模态视觉语言表征学习研究综述的思维导图,主要探讨了视觉和语言信息如何在多模态学习框架中进行融合和表征。详细描述了基于粗粒度和细粒度相似性匹配模型的两种主要方法。这两种方法旨在通过不同的粒度级别来捕捉视觉和语言信息之间的相似性,以实现更有效的多模态表征。还介绍了预训练技术及其在视觉语言表征学习中的应用。预训练技术,如预训练架构的视觉语言统一表征学习,通过在大规模数据集上进行预训练,为下游任务提供了更丰富的初始表征。
编辑于2024-06-02 00:10:57