当我们通过五条个人线后我们才发现原来天王寺瑚太郎并非一名普通学生,他原本也是超能力组织者“守护者”当中的一员,在一次行动中受了重伤失去了记忆被小鸟所救才成了现在这个样子。
受此启发,在本文中,我们提出了一个跨模态图像-文本检索的具有递归注意记忆的迭代匹配框架,称为IMRAM。我们探索图像和文本之间的对应关系的方法有两个主要特点。(1)一个具有跨模态注意力单元的迭代匹配方案,以对齐不同模态的片段;(2)一个记忆蒸馏单元,以动态地将早期匹配步骤的信息汇总到后来的步骤。迭代匹配方案可以逐步更新跨模态注意核心,以积累定位匹配语义的线索,而记忆蒸馏单元可以通过加强跨模态信息的互动来完善潜在的对应关系。利用这两个特点,不同种类的语义被分配处理,并在不同的匹配步骤中得到很好的捕捉。
在本节中,我们将详细说明我们提出的用于跨模态图像-文本检索的IMRAM的细节。图1显示了我们模型的框架。我们将首先在第3.1节描述我们工作中学习跨模态特征表示的方式。然后,我们将在第3.2节中介绍所提出的递归注意记忆作为我们匹配框架中的一个模块。我们还将在第3.3节中介绍如何将提出的递归注意力记忆纳入跨模态图像-文本检索的迭代匹配方案。最后,在第3.4节中讨论了目标函数。
第一大脑的记忆是有限的,第二大脑可以提供更大的记忆容量,第二大脑和第一大脑的匹配---脑机协作,一种亲密关系的匹配。
在这一节中,我们描述了如何运用递归注意力匹配记忆来进行跨模态引入的图像-文本的检索。具体来说,给定一个图像I和一个文本S,我们使用两个**的RAM块,分别在I和S的基础上推导出两种迭代匹配策略。