跳转至

MOT16:一个多目标跟踪基准

标准化基准对大多数计算机视觉应用来说是至关重要的。尽管排行榜与排名表不应该被过分强调,基准测试通常提供最客观的性能评价标准并因此成为重要的研究指导。近来,为了收集现有数据和新数据并为多目标跟踪方法的标准化评估建立框架,[28]提出了一个新的多目标跟踪基准,MOTChallenge。这个基准的第一个版本着重于多人跟踪,因为行人是迄今为止被跟踪社区研究最多的。本论文随附了新发布的MOTChallenge基准。与初始发布不同,MOT16中所有的视频都遵循一致的标准被仔细标注。此外,它不仅大大增加了边界框的数量,而且还提供除了行人之外的多个目标种类以及每个兴趣目标的可见性级别。

介绍

出于多种原因,评估和比较多目标跟踪方法并不是一件容易的事(参见[34])。首先,与其他任务(例如图像去噪)不同,真值,即一个目标跟踪器旨在实现的完美答案,很难被明确定义。 部分可见,被遮挡或剪裁的目标,镜子或窗户上的反射以及与目标非常相似的物体都具有内在的模糊性。因此,即使是人类,也可能无法达成一个特定的理想解决方案。其次,带有自由参数和不明确的定义通常导致整个文献中的定量结果相互矛盾。最后,缺乏预定义的测试和训练数据集导致公平的对比所有方法非常困难。

尽管多目标跟踪是场景理解中的关键问题,但直到最近,它仍缺乏大规模基准以提供跟踪方法之间的公平比较。2014年,我们发布了MOTChallenge基准测试,该基准测试包含三个主要部分:(1)(重新)收集公开可用和新的数据集;(2)一个中心式评估方法;(3)允许众包的基础架构,新数据,新评估方法甚至新标注。本数据集的第一个发布版(MOT15)包含11个训练序列和11个测试序列,总共11286帧(996秒)的视频。

标注规则

我们遵循一组规则,以尽可能准确的方式为每个序列中的每个移动的人或车辆添加边界框。在下文中,我们定义了一个清晰的协议,该协议在整个数据集中都遵循以确保一致性。

目标类型

在此基准测试中,我们对跟踪视频中的移动对象感兴趣。特别的,我们对评估人跟踪算法感兴趣。因此,人将成为我们标注的关注中心。我们将相关类别分为三类:

  1. 移动站立 行人
  2. 不处于 直立姿势人类的人造代表
  3. 车辆遮挡物

在第一组中,我们标注所有在视野中并且可以被观察者认定为移动或站立(直立)的行人。在自行车和滑板上的行人也会在本类中被标注(并且也通常被现代行人检测器发现)。更进一步的,如果一个人 短暂 弯腰或者蹲下,例如拿起东西或与孩子交谈,他们应保持在标准的 行人 类中。提交给我们基准测试的算法被期望跟踪这些目标。

在第二组中,我们包括所有确切分类是模棱两可的,并且可能根据观察者、应用或其他因素而变化的类人对象。我们标注所有不处于直立的静止人物,比如坐着、躺着。在此类别中,我们还包括可能触发检测响应的任何人类的人造代表,例如人体模型,图片或反射。在玻璃后面的人也应被标记为干扰因素。这里的想法是在评估中使用这些标注,以使算法在跟踪到比如一个坐着的人或者反射时既不被惩罚也不被奖励。

在第三组中,我们对所有行驶中的车辆(例如汽车,自行车,摩托车和非机动车辆(例如,童车)以及其他潜在的遮挡物)进行标注。这些标注将不会在评估中发挥任何作用,而是提供给用户用于训练和计算行人遮挡的程度。静态车辆(停放的汽车,自行车)只要不遮挡任何行人,就不会添加标注。

边界框对齐

边界框尽可能精确地与对象的范围对齐。边界框应包含属于该对象的所有像素,同时应尽可能紧密,即,不应在框外保留任何像素。这意味着行走的侧视图行人通常将具有一个宽度随步幅而周期性变化的框,而正视图或站立的人将随时间保持更恒定的宽高比。如果人被部分遮挡,则根据其他可用信息(例如预期大小,阴影,反射,先前和将来的帧以及其他提示)来估计范围。如果一个人被图像边框裁剪,则估计框超出原始帧,以代表整个人并估算裁剪水平。如果一个遮挡物不能准确地封闭在一个框内(例如,一棵有树枝的树或自动扶梯可能需要一个较大的框,其中大部分区域都不属于实际对象),则可以使用几个框来更好地近似该框。该对象的范围。

车辆上的人员只有在清晰可见的情况下才与车辆分开标注。例如,童车中的孩子或者车中的人不会被标注,但摩托车手或自行车手将被标注。

轨迹的开始与结束

只要人的位置和范围可以被精确确定便会出现一个框(轨道)。通常情况下,当人的≈10%可见时会出现框。同样,当无法再精确定位时,轨道结束。换句话说,标注尽可能早地开始并且尽可能晚地结束,从而不会丧失准确性。框的坐标可能超出可见区域。如果有人离开视野并在以后出现,则将为他们分配新的ID。

最小单位

尽管评估仅考虑以像素为单位的最小高度的行人,但是标注将包含所有大小的所有对象,只要标注者可以区分它们即可。换句话说,图像上的所有目标无论其大小都应加上标注。

遮挡

遮挡级别不需要被显示标注。该值将使用地平面假设和标注自动计算。每一个目标都被通过遮挡完全标注,只要可以足够准确地确定其范围和位置。如果目标在序列中间完全被遮挡,以后又不可见,则应终止轨道(标记为“outside of view”)。如果目标在长时间后重新出现,即其在遮挡过程中位置并不明确,它将以新的ID重新出现。

健全性检查

在所有序列都完成标注后,一个“健全性检查”被执行以确保没有遗漏任何相关实体。为此,我们在所有视频上运行了行人检测器,并将与人类或干扰者相对应的所有高可信度检测添加到了标注列表中。预先计算的对象检测,标注(仅针对训练序列)和一个针对所有数据集的通用评估方法向所有参与者提供,从而可以公平地比较所有结果。

MOT16-A-Benchmark-for-Muti-Object-Tracking.pdf