MAST, A Memory-Augmented Self-Supervised Tracker
PDF, Video SSL, Zihang Lai, Erika Lu, Weidi Xie, CVPR 2020
Summary
self-supervised 방식으로 모델을 학습하여 video object segmentation task를 수행합니다.
video frame이 진행될 수록 객체에 occlusion 등이 발생할 수 있어 error 가 축적됩니다. MAST는 reference frame을 여러개 사용하여 target과의 affinity matrix를 계산합니다. 여러 reference frame을 사용한다면 중간 frame에서 occlusion이 발생하였을 때의 위험을 감소시킬 수 있을 것입니다.
모델이 pixel-wise correspondence matching을 할 수 있는 feature representation을 학습한다면 reference frame의 segmentation mask를 target frame으로 propagate 할 수 있습니다. 이 feature representation을 어떻게 학습시켜야 할까요??
2-stage attention mechanism 방식을 이용합니다. 1-stage에서는 memory bank에 저장되어 있는 m 개의 reference frame 내에서 query pixel(target frame)와 가장 연관성있는 RoI를 localize 합니다. 2-stage는 각 RoI와 target frame 사이의 similarity matrix를 계산합니다. RoI의 label을 종합하여 pixel label을 결정합니다. 이 예측값과 true label 사이의 regeression loss를 사용하여 모델을 학습합니다.
RoI localization 과정이 복잡합니다. 인접 프레임내에서 객체는 spatial-temporal coherence가 존재하기 때문에 dilated window 가 필요없습니다. 따라서 attention 계산 영역을 제한합니다. 하지만 long-term memory 에서는 객체가 어디에나 위치할 수 있고 occlusion이 발생할 수 있기 때문에 dilate window 크기를 키웁니다.
RoI를 localization하는 수식은 다음과 같습니다.
Experiment
SSL 방식으로 학습한 모델은 SL보다 generalization이 뛰어납니다.
my github