Video Swin Transformer PDF, TF Video, Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, Han Hu, arXiv 2021 Summary Swin transformer를 video로 확장시킨 논문. video는 temporal dimension을 추가적으로 지니고 있어서 어떻게 확장하는지 유심히 볼 필요가 있습니다. ViViT와는 다르게 joint self attention을 사용합니다. 3D patch embedding을 적용하여 차원의 3D token을 얻고, 3D window size를 정의하여 3D window 개수를 계산합니다. swin trasnformer와 동일하게 shifted window와 re..