导图社区 DFormer RGB-D表示学习的新框架
这是一篇关于DFormer RGB-D表示学习的新框架的思维导图,主要内容包括:引言,DFormer框架,DFormer架构,实验,消融研究和分析,相关工作,结论,致谢,参考文献。
社区模板帮助中心,点此进入>>
互联网9大思维
组织架构-单商户商城webAPP 思维导图。
域控上线
python思维导图
css
CSS
计算机操作系统思维导图
计算机组成原理
IMX6UL(A7)
考试学情分析系统
DFormer: RGB-D表示学习的新框架
引言
RGB-D数据的普及
3D传感器的广泛使用使得RGB-D数据更容易获取
RGB-D数据在高级场景理解中的潜力
RGB-D预训练方法的挑战
现有方法在预训练阶段未考虑深度信息
RGB和深度信息的交互在预训练阶段未得到解决
DFormer框架
创新点
使用ImageNet-1K的图像-深度对进行预训练
使DFormer能够编码RGB-D表示
RGB-D块的设计
通过新颖的构建块设计编码RGB和深度信息
避免了RGB预训练骨干在深度图中编码3D几何关系的不匹配问题
实验结果
在两个RGB-D语义分割数据集和五个RGB-D显著物体检测数据集上实现新的最先进性能
计算成本低于当前最佳方法的一半
DFormer架构
分层编码器
由四个阶段组成,用于生成多尺度RGB-D特征
每个阶段包含一系列RGB-D块
RGB-D预训练框架
使用图像-深度对进行预训练以生成可转移的RGB-D表示
任务特定解码器
在预训练的RGB-D骨干上添加轻量级解码器头以构建特定任务网络
实验
RGB-D语义分割
数据集和实现细节
在NYUDepthv2和SUN-RGBD数据集上进行微调和评估
与最先进方法的比较
DFormer在两个基准数据集上均实现新的最先进性能
RGB-D显著物体检测
在五个流行的数据集上进行微调和测试
DFormer在所有测试数据集上均超越所有竞争者,并且计算成本最低
消融研究和分析
RGB-D块组件的有效性
基础模块、GAA模块和LEA模块均对DFormer至关重要
输入特征对解码器的影响
DFormer的RGB分支特征能够有效融合两种模态信息
解码器仅使用RGB特征即可节省计算成本
相关工作
RGB-D场景解析
现有方法主要集中在构建融合模块以桥接RGB和深度特征
多模态学习
预训练和微调范式已扩展到多模态领域
结论
DFormer提出了一种新的RGB-D预训练框架
该框架通过显式的分类监督信号鼓励RGB和深度模态的语义线索对齐
实验表明DFormer在RGB-D下游任务上取得了新的最先进性能
致谢
研究得到了中国国家重点研发计划、国家自然科学基金等项目的资助
参考文献
引用了多篇与深度学习、多模态学习和RGB-D场景解析相关的研究文献