Joint-task Self-supervised Learning for Temporal Correspondence
PDF, Video SSL, Xuethin Li, Sifei Liu, Shalini De Mello, Xiaolong Wang, Jan Kautz, Ming-Hsuan Yang, arXiv 2019
Summary
unlabeled video 로부터 video correspondence를 학습하기 위해 tracking과 colorization을 동시에 수행합니다.
현재 frame에서 무작위로 추출한 image patch와 다음 frame 전체 이미지를 CNN에 전달해 생성한 두 feature map 사이의 유사도를 계산합니다.
계산한 유사도를 기반으로 tracking을 수행합니다. tracking한 image patch와 이전 frame의 image patch 사이의 sub 유사도 행렬을 사용하여 colorization을 수행합니다.
colorization을 수행하는 경우에 3가지 제약조건 cycle-consistency, orthogonal regularization, concentration regularization 을 가합니다.
cycle-consistency는 forward와 backward가 consistency하도록 하는 loss 입니다.
여기에 추가적으로 orthogonal regularization을 추가합니다. 위 식은 A가 다음과 같아야 optimal solution을 얻을 수 있습니다.
concetration regularization도 추가합니다. concetration regularization은 reference frame에 존재하는 인접 포인트들이 target frame에서 함께 모여있도록 합니다.
Experiment
my github