该研究解决了复合图像检索中监督学习依赖的高成本和零-shot能力不足的问题。通过提出一种两阶段框架,结合文本反演网络和模态-任务双重对齐(motadual),有效减轻了任务和模态间的不一致性。实验结果表明,motadual在四个广泛使用的零-shot复合图像检索基准上达到了最佳性能,同时保持了低训练时间和计算成本。
该研究提出了一种两阶段框架,结合文本反演网络和模态-任务双重对齐,以解决复合图像检索中的高成本和零-shot能力不足的问题。实验结果表明,该方法在多个基准上表现优异,同时降低了训练时间和计算成本。