NCR 论文
Learning with Noisy Correspondence for Cross-modal Matching 论文简析
论文链接: Learning with Noisy Correspondence for Cross-modal Matching
代码链接: https://github.com/XLearning-SCU/2021-NeurIPS-NCR
引言
跨模态匹配旨在建立不同模态之间的对应关系,是跨模态检索、视觉问答、图像/视频描述生成等任务的基础。大多数现有方法通过将不同模态的数据嵌入到一个共享空间,最大化正样本对相似度、最小化负样本对相似度,从而实现匹配。然而,这些方法隐含假设训练数据是正确对齐的,即图像与文本的配对完全匹配。
在实际中,这一假设难以满足,尤其是当数据来自互联网时,难免会存在错误配对,这些错误若被当作正确样本使用,会显著降低匹配性能。此前研究大多忽略了这种配对错误问题。
噪声对应(Noisy Correspondence)问题:
噪声对应是一种新的噪声标签范式,区别于传统噪声标签(后者主要是类别标签错误),噪声对应指的是配对样本的对齐错误。
与部分视图对齐问题(PVP)不同:
PVP 假设部分数据完全未对齐,但噪声对应假设数据是混合存在的,即有部分正确对应,也有部分错误对应。
PVP 假设训练中有部分正确对齐数据可用,而噪声对应没有这一假设。
噪声对应更符合现实数据场景,尤其是大规模互联网数据。
提出方法:噪声对应校正器(NCR):
NCR 基于深度神经网络的记忆效应,即网络倾向于先学习简单、干净的模式,再拟合噪声样本。
方法流程:
根据样本的损失差异,将数据划分为“干净”与“噪声”子集。
使用自适应预测函数对标签进行校正,从“干净”和“噪声”子集中分别识别真阳性与假阳性。
提出新型三元组损失,将校正后的标签作为软边界,增强匹配的鲁棒性。
这种方法可以在保留正确配对的同时修正错误配对,从而提升跨模态匹配的整体性能。
主要贡献与创新:
提出新问题:揭示跨模态分析中的噪声对应问题,这是首次将对齐错误定义为新的噪声标签范式。
提出新方法:NCR 可有效处理混合存在的干净和噪声数据,通过将校正标签融入三元组损失,实现鲁棒的匹配。
实验验证:在 Flickr30K、MS-COCO 和 Conceptual Captions 数据集上的图文匹配任务中,NCR 在合成噪声与真实噪声环境下均表现出显著有效性。