掩码语言建模(MCM):输入序列中的某些单词或标记会被替换为特殊的掩码标记,然后预训练模型被要求根据可见的多模态上下文来预测这些被遮蔽的单词或标记。
掩码图像建模(MIM):输入图像中的部分区域会被隐藏或被替换为特殊的掩码标记,然后预训练模型被要求在仅看到其余图像内容与文本等其他模态信息的情况下,预测或还原被遮蔽的图像区域。
图像-文本匹配(ITM):实现图像与文本的全局对齐。通常是给定图文对作为正样本,随即配对作为负样本,然后通过二分分类方法实现图像和文本的匹配,从而建立图像和文字之间的语义关联。
图像-文本对比学习(ITC):使用对比学习的方法将图像和文本的相同样本对的向量表示拉近,不同样本对的向量表示推远,从而增强图像和文本之间的语义关联性。