논문 읽기/Video Recognition

[논문 읽기] VTN(2021), Video Transformer Network

AI 꿈나무 2021. 9. 12. 20:38
반응형

Video Transformer Network

 PDFVideo TF, Daniel Neimark, Omri Bar, Maya Zohar, Dotan Asselmann arXiv 2021

 

Summary

 

 Video + ViT 모델

 

 3가지 모듈로 구성

 

 (1) 2D feature extractor

 비디오 프레임을 입력 받아 embedding 출력. CNN, ViT 모델 중 아무거나 사용해도 됩니다. 

 

 (2) Attention module

 논문에서는 계산 복잡도가 O(N)인 long former를 사용. feature extractor 출력값을 attention block으로 전달합니다.

 

 (3) MLP head

 task를 수행하기 위한 MLP head

 

 

 

 일반적으로 Kinetics dataset으로 학습한 모델은 inference시에 비디오 clip 중 10개의 frame을 고르게 추추하여 3가지 crop을 적용한 뒤 30개 multi-view frame을 모델로 전달하여 평균값으로 prediction을 합니다. 이처럼 적은 수의 frame을 선택하는 이유는 long video를 전달할 만큼 연산량과 메모리 자원이 부조가기 때문인데요. 이 짧은 frame으로 inference를 수행하기에는 직관과 어긋난다고 언급합니다. long video를 입력 받고 예측을 해야 하는게 직관인데... 따라서 저자는 long video로 inference를 합니다. short video로 학습된 모델을 long video로 inference를 하면 성능에 악영향을 주는 실험 결과도 도출하네요

 


my github

 

Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch

공부 목적으로 논문을 리뷰하고 해당 논문 파이토치 재구현을 합니다. Contribute to Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch development by creating an account on GitHub.

github.com

 

반응형