논문 읽기/Self-Supervised

[논문 읽기] MAST(2020), A Memory-Augmented Self-Supervised Tracker

AI 꿈나무 2021. 8. 23. 15:39
반응형

MAST, A Memory-Augmented Self-Supervised Tracker

 PDFVideo SSL, Zihang Lai, Erika Lu, Weidi Xie, CVPR 2020

 

Summary

 self-supervised 방식으로 모델을 학습하여 video object segmentation task를 수행합니다.

 

 video frame이 진행될 수록 객체에 occlusion 등이 발생할 수 있어 error 가 축적됩니다. MAST는 reference frame을 여러개 사용하여 target과의 affinity matrix를 계산합니다. 여러 reference frame을 사용한다면 중간 frame에서 occlusion이 발생하였을 때의 위험을 감소시킬 수 있을 것입니다.

 

 

 

 모델이 pixel-wise correspondence matching을 할 수 있는 feature representation을 학습한다면 reference frame의  segmentation mask를 target frame으로 propagate 할 수 있습니다. 이 feature representation을 어떻게 학습시켜야 할까요??

 

 

 

 

 2-stage attention mechanism 방식을 이용합니다. 1-stage에서는 memory bank에 저장되어 있는 m 개의 reference frame 내에서 query pixel(target frame)와 가장 연관성있는 RoI를 localize 합니다. 2-stage는 각 RoI와 target frame 사이의 similarity matrix를 계산합니다. RoI의 label을 종합하여 pixel label을 결정합니다. 이 예측값과 true label 사이의 regeression loss를 사용하여 모델을 학습합니다. 

 

 

 RoI localization 과정이 복잡합니다. 인접 프레임내에서 객체는 spatial-temporal coherence가 존재하기 때문에 dilated window 가 필요없습니다. 따라서 attention 계산 영역을 제한합니다. 하지만 long-term memory 에서는 객체가 어디에나 위치할 수 있고 occlusion이 발생할 수 있기 때문에 dilate window 크기를 키웁니다. 

 

 RoI를 localization하는 수식은 다음과 같습니다.

 

Experiment

 SSL 방식으로 학습한 모델은 SL보다 generalization이 뛰어납니다.

 

 


my github

 

Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch

공부 목적으로 논문을 리뷰하고 해당 논문 파이토치 재구현을 합니다. Contribute to Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch development by creating an account on GitHub.

github.com

반응형