[논문 읽기] VTN(2021), Video Transformer Network

논문 읽기/Video Recognition

[논문 읽기] VTN(2021), Video Transformer Network

AI 꿈나무 2021. 9. 12. 20:38

Video Transformer Network

PDF, Video TF, Daniel Neimark, Omri Bar, Maya Zohar, Dotan Asselmann arXiv 2021

Summary

Video + ViT 모델

3가지 모듈로 구성

(1) 2D feature extractor

비디오 프레임을 입력 받아 embedding 출력. CNN, ViT 모델 중 아무거나 사용해도 됩니다.

(2) Attention module

논문에서는 계산 복잡도가 O(N)인 long former를 사용. feature extractor 출력값을 attention block으로 전달합니다.

(3) MLP head

task를 수행하기 위한 MLP head

일반적으로 Kinetics dataset으로 학습한 모델은 inference시에 비디오 clip 중 10개의 frame을 고르게 추추하여 3가지 crop을 적용한 뒤 30개 multi-view frame을 모델로 전달하여 평균값으로 prediction을 합니다. 이처럼 적은 수의 frame을 선택하는 이유는 long video를 전달할 만큼 연산량과 메모리 자원이 부조가기 때문인데요. 이 짧은 frame으로 inference를 수행하기에는 직관과 어긋난다고 언급합니다. long video를 입력 받고 예측을 해야 하는게 직관인데... 따라서 저자는 long video로 inference를 합니다. short video로 학습된 모델을 long video로 inference를 하면 성능에 악영향을 주는 실험 결과도 도출하네요

my github

Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch

공부 목적으로 논문을 리뷰하고 해당 논문 파이토치 재구현을 합니다. Contribute to Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch development by creating an account on GitHub.

github.com

'논문 읽기 > Video Recognition' 카테고리의 다른 글

[논문 읽기] X-ViT(2021), Space-time Mixing Attention for Video Transformer (0)	2021.09.21
[논문 읽기] X3D(2020), Expanding Architectures for Efficient Video Recognition (0)	2021.09.20
[논문 읽기] MViT(2021), Multiscale Vision Transformers (0)	2021.09.12
[논문 읽기] TimeSformer(2021), Is Space-Time Attention All You Need for Video Understanding? (0)	2021.09.10
[논문 읽기] Video Swin Transformer(2021) (0)	2021.09.06

현재글[논문 읽기] VTN(2021), Video Transformer Network

딥러닝 공부방