논문 읽기/Self-Supervised

[논문 읽기] ViCC(2021), Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

AI 꿈나무 2021. 9. 7. 19:04
반응형

Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

 PDFVideo SSL, Martine Toering, Ioannis Gatopoulos, Maarten Stol, Vincent Tao Hu, arXiv 2021

 

Summary

 옵티칼 플로우와 비디오 frame을 함께 활용하는 video ssl 방법입니다. optical flow는 모션 정보를 포함하고 있으므로 더 많은 정보를 활용할 수 있습니다.

 

 

 encoder의 출력값을 optimal transport 알고리즘인 sinkhorn 알고리즘을 사용하여 prototype과 maching을 합니다. 데이터를 prototype에 균등하게 할당하는 것이 중요하며 매칭된 prototype이 동일하면 positive, 다르면 negative로 정의하기 때문에 instance-level보다 비교를 적게 할 수 있고 sementic structure를 무시하지 않습니다.

 

 

 좀 특이한 점은 alternation을 사용합니다. RGB encoder는 계속 RGB 데이터를 입력받는게 아니라 optical flow도 입력 받아 학습을 진행합니다. encoder가 하나의 데이터에 overfit할 수 있는데 cross 학습을 하여 이를 방지합니다. 논문에서는 이를 transfer knowledge라고 표현합니다.

 

 Loss도 좀 복잡한데, 하나의 encoder에 augmentation이 적용된 두 이미지를 전달합니다. 따라서 총 4개의 embedding을 생성하는데 4개를 순열로 로스를 계산합니다. 4개의 embedding은 모두 동일한 prototype에 할당되어야 하므로 다음과 같이 loss를 설계합니다. 또한 Contrastive loss를 활용합니다.

 

 

Experiment

 


my github

 

Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch

공부 목적으로 논문을 리뷰하고 해당 논문 파이토치 재구현을 합니다. Contribute to Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch development by creating an account on GitHub.

github.com

 

반응형