Video Transformer Network PDF, Video TF, Daniel Neimark, Omri Bar, Maya Zohar, Dotan Asselmann arXiv 2021 Summary Video + ViT 모델 3가지 모듈로 구성 (1) 2D feature extractor 비디오 프레임을 입력 받아 embedding 출력. CNN, ViT 모델 중 아무거나 사용해도 됩니다. (2) Attention module 논문에서는 계산 복잡도가 O(N)인 long former를 사용. feature extractor 출력값을 attention block으로 전달합니다. (3) MLP head task를 수행하기 위한 MLP head 일반적으로 Kinetics dataset으로 학습한 모델은 ..