Video Transformer Network
PDF, Video TF, Daniel Neimark, Omri Bar, Maya Zohar, Dotan Asselmann arXiv 2021
Summary
Video + ViT 모델
3가지 모듈로 구성
(1) 2D feature extractor
비디오 프레임을 입력 받아 embedding 출력. CNN, ViT 모델 중 아무거나 사용해도 됩니다.
(2) Attention module
논문에서는 계산 복잡도가 O(N)인 long former를 사용. feature extractor 출력값을 attention block으로 전달합니다.
(3) MLP head
task를 수행하기 위한 MLP head
일반적으로 Kinetics dataset으로 학습한 모델은 inference시에 비디오 clip 중 10개의 frame을 고르게 추추하여 3가지 crop을 적용한 뒤 30개 multi-view frame을 모델로 전달하여 평균값으로 prediction을 합니다. 이처럼 적은 수의 frame을 선택하는 이유는 long video를 전달할 만큼 연산량과 메모리 자원이 부조가기 때문인데요. 이 짧은 frame으로 inference를 수행하기에는 직관과 어긋난다고 언급합니다. long video를 입력 받고 예측을 해야 하는게 직관인데... 따라서 저자는 long video로 inference를 합니다. short video로 학습된 모델을 long video로 inference를 하면 성능에 악영향을 주는 실험 결과도 도출하네요
my github