SiamRPN¶
SiamFC是牛津大学的Luca Bertinetto等提出的用于单目标跟踪的网络。
简介¶
计算机视觉中的很多问题都已经在从大型监督数据集训练而来的深度卷积网络当中得到长足的进步,但是监督数据的稀缺和实时操作的约束阻止了简单的将深度学习应用到从每个视频当中学习到一个检测器。最近有一些工作旨在克服这些问题,他们要么应用一些“粗浅”的方法(比如 相关过滤器),将网络的内部表示作为特征,或者通过SGD来微调网络的多个层。然而,使用粗浅的方法并没有利用到端到端训练的全部优点,使用SGD的方法达到SOTA结果的均不能做到实时操作。本文作者提出了一个新的方法,训练一个深度卷积网络来在最初的离线阶段解决更普遍的相似性学习问题,然后只需在跟踪过程中在线评估此功能。
本文的核心贡献在于本文所提出的方法可以在远超所需帧率的速度时达到极具竞争力的性能。特别的,本文作者训练一个孪生网络来在一个大的 搜索 图像当中定位一个 样本 图像。另一个贡献是相对于搜索图像的全卷积孪生架构:通过双线性层来计算两个输入的互相关性,从而实现了密集而有效的滑窗评估。
本文作者认为相似性学习方法相对而言一直受到忽略。因为跟踪社区没有大量的监督数据集。事实上,直到近,可用的数据集仅包含数百个带注释的视频。但时,本文作者认为,视频中用于对象检测的ILSVRC数据集的出现使得训练这种模型成为可能。此外,使用来自同一域的视频进行训练和测试用于跟踪的深度模型在公平性上存在争议,最近VOT委员会已经禁止这样做。本文作者展示了本文提出的模型可以从ILSVRC域推广到ALOV、OTB、VOT域,从而可以将跟踪基准的视频保留用于测试。
用于跟踪的深度相似性学习¶
学习去追踪任意对象可以使用相似性学习来解决。本文作者提出了学习一个函数\(f(\mathcal{x}, \mathcal{z})\),它将样本图像\(\mathcal{z}\)与相同大小的候选图像\(\mathcal{x}\)进行比较,并在两个图像都描绘同一对象时返回高分,在其他情况下返回低分。为了找到目标在新图像中的位置,本文作者可以详尽的在每一个可能的位置进行测试,并选择与对象过去的样子相似度最高的候选。在实验中,本文作者仅选用对象初始的样子作为样本。函数\(f\)会通过一个由标注对象轨迹的视频构成的数据集训练。
由于它在计算机视觉当中的巨大成功,本文作者将会使用一个深度卷积网络作为函数\(f\)。使用深度卷积网络进行相似性学习通常使用孪生架构。孪生网络将同一个变换\(\varphi\)分别应用在两个输入上,然后将他们的表现通过另一个函数\(g\)基于\(f(\mathcal{x},\mathcal{z}) = g(\varphi\mathcal{x}, \varphi\mathcal{z})\)组合起来。当\(g\)是一个简单的距离或者相似度度量,函数\(\varphi\)可以被认为是嵌入。深度孪生卷积网络曾被应用于人脸验证、关键点描述其学习和单样本字符识别。
全卷积孪生架构¶
本文作者提出了一个有关候选图像\(\mathcal{x}\)的全卷积的孪生架构。本文作者将一个没有平移的方法称作全卷积。更准确地说,对于平移操作\(L_\tau\),\((L_{\tau} x)[u]=x[u - \tau]\)。对于任何平移\(\tau\),如果如果\(h(L_{k\tau}x)=L_{\tau}h(x)\)成立,则我们把将信号映射到其他信号的函数\(h\)称做步长为\(k\)的全卷积。
使用全卷积网络的优点在于,我们可以提供更大的搜索图像作为输入,且他会在一次评估中计算密集网格上所有已平移的子窗口的相似度。为此,本文作者使用了卷积嵌入函数\(\varphi\),并使用互相关层将生成的特征图进行组合。
\(f(z, x) = \varphi(z) * \varphi(x) + b\mathbb{1}\)
其中,\(b\mathbb{1}\)表示从信号