ViViT: A Video VIsion Transformer PDF, Video, Anurang Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lucic, Cordelia Schmid, arXiv 2021 Summary Video 데이터를 Vision Transformer에 적용하여 Video classification task를 수행합니다. Tubelet embedding Tubelet embedding 방법을 사용하여 비디오를 embedding해 transformer로 전달합니다. 논문에서는 (h,w,t)16x16x2를 사용합니다. Video를 ViT에 적용하는 4가지 모델 variant를 제안합니다. 성능이 좋은 모델1과 모델2만 살펴보겠습니다...