반응형

논문 읽기/Video Recognition 17

[논문 읽기] Towards Training Stronger Video Vision Transformers for EPIC-KITCHENS-100 Action Recognition(2021)

Towards Training Stronger Video Vision Transformers for EPIC-KITCHENS-100 Action Recognition PDF, VIdeo Recognition, Ziyuan Huang, Zhiwu Qing, Xiang Wang, Yutong Feng, Shiwei Zhang, arXiv 2021 Summary 해당 논문은 21.06에 arxiv에 올라온 논문입니다. Video Recognition 모델을 EPIC-KITCHENS-100 데이터셋에 여러가지 학습 방법을 실험합니다. 모델을 학습시킬시에 여러 가지를 고려해야 하는데 이 논문이 참고 사항이 될 수 있을 것 같네요 ㅎㅎ 우선 ViViT를 kinetics400, 700, SSV2로 pre-train ..

[논문 읽기] VLF(2021), VideoLightFormer: Lightweight Action Recognition using Transformers

VideoLightFormer: Lightweight Action Recognition using Transformers PDF, Video Recognition, Raivo Koot, Haiping Lu, arXiv 2021 Summary efficient한 Video Recognition 모델입니다. VTN의 확장 버전이며 CNN 백본으로 각 frame을 저차원의 ebedding으로 압축한 뒤에 각 embedding에 spatial transformer를 적용하고, spatial-time transformer를 적용합니다. 해당 모델의 가장 큰 장점은 latent가 낮다는 것입니다. 저자의 목표가 efficient 모델을 추구하여 각 요소를 최대한 high-efficiency되도록 설계합니다. 실험 ..

[논문 읽기] X-ViT(2021), Space-time Mixing Attention for Video Transformer

Space-time Mixing Attention for Video Transformer PDF, Video, Adrian Bulat, Juan-Manuel Perez-Rua, Swathikiran Sudharan, Brais Martinez, Georgios Tzimiropolos, arXiv 2021 Summary ViT를 Video에 적용한 논문입니다. self-attention의 계산 복잡도를 O(TS^2)로 감소시키는데 어떤 방법을 이용하는지 살펴볼 필요가 있는 것 같습니다. 성능도 잘 나오고 FLOPs 관점에서 엄청난 이점을 갖습니다. Method를 살펴보면 이해가 잘 안갑니다. 코드를 뜯어봐야 이해가 될 것 같네요. my github Seonghoon-Yu/Paper_Review_and_Im..

[논문 읽기] X3D(2020), Expanding Architectures for Efficient Video Recognition

X3D: Expanding Architectures for Efficient Video Recognition PDF, Video, Christoph Feichtenhofer, CVPR2020 Summary tiny model부터 시작해서 multiple axis 중 하나의 axis를 점진적으로 확대해 나갑니다. EfficientNet은 depth, width, image resolution을 uniform scaling했다면 X3D는 bottleneck width, temporal duration, frame rate, depth, spatial resolution, width를 controll 합니다. 한번에 하나의 axis를 확장해나가면서 최적의 accuracy-complexity trade off를..

[논문 읽기] VTN(2021), Video Transformer Network

Video Transformer Network PDF, Video TF, Daniel Neimark, Omri Bar, Maya Zohar, Dotan Asselmann arXiv 2021 Summary Video + ViT 모델 3가지 모듈로 구성 (1) 2D feature extractor 비디오 프레임을 입력 받아 embedding 출력. CNN, ViT 모델 중 아무거나 사용해도 됩니다. (2) Attention module 논문에서는 계산 복잡도가 O(N)인 long former를 사용. feature extractor 출력값을 attention block으로 전달합니다. (3) MLP head task를 수행하기 위한 MLP head 일반적으로 Kinetics dataset으로 학습한 모델은 ..

[논문 읽기] MViT(2021), Multiscale Vision Transformers

Multiscale Vision Transformers PDF, Video TF, Haoqi Fan, Bo Xiong, Karttikeya Mangalam, arXiv 2021 Summary ViT를 Video에 적용한 논문입니다. 이전의 ViT + Video 논문과는 다르게 pre-trained 없이 뛰어난 성능을 보여줍니다. 해당 논문의 특징은 계층 구조를 활용한 모델입니다. 어떻게 계층 구조를 구현했는지 살펴보겠습니다. stage 구조를 지니는데 각 stage는 다수의 transformer block으로 이루어져 있습니다. 각 stage 앞단마다 resolution을 pooling하여 down sample하고 채널 수를 확장합니다. CNN 모델에서 사용하는 계층 구조 원리를 따릅니다. Qeury, ..

[논문 읽기] TimeSformer(2021), Is Space-Time Attention All You Need for Video Understanding?

Is Space-Time Attention All You Need for Video Understanding? PDF, Video TF, Gedas Bertasius, Heng Wang, Lorenzo Torresani, ICML 2021 Summary Transformer를 Video domain에 적용한 논문입니다. video는 sentence와 같이 sequential한 데이터로 볼 수 있습니다. word가 연속되는 것처럼 frame이 연속되기 때문입니다. Convolution을 self-attention으로 대체한다면 convolution이 갖고 있는 inductive bias 문제를 완화할 수 있습니다. conv는 적은 데이터 셋에 효과적이지만 데이터 수가 풍부할 경우 local한 영역에 제한되..

[논문 읽기] Video Swin Transformer(2021)

Video Swin Transformer PDF, TF Video, Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, Han Hu, arXiv 2021 Summary Swin transformer를 video로 확장시킨 논문. video는 temporal dimension을 추가적으로 지니고 있어서 어떻게 확장하는지 유심히 볼 필요가 있습니다. ViViT와는 다르게 joint self attention을 사용합니다. 3D patch embedding을 적용하여 차원의 3D token을 얻고, 3D window size를 정의하여 3D window 개수를 계산합니다. swin trasnformer와 동일하게 shifted window와 re..

[논문 읽기] ViViT: A Video Vision Transformer(2021)

ViViT: A Video VIsion Transformer PDF, Video, Anurang Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lucic, Cordelia Schmid, arXiv 2021 Summary Video 데이터를 Vision Transformer에 적용하여 Video classification task를 수행합니다. Tubelet embedding Tubelet embedding 방법을 사용하여 비디오를 embedding해 transformer로 전달합니다. 논문에서는 (h,w,t)16x16x2를 사용합니다. Video를 ViT에 적용하는 4가지 모델 variant를 제안합니다. 성능이 좋은 모델1과 모델2만 살펴보겠습니다...

[논문 읽기] VisTR(2020), End-to-End Video Instance Segmentation with Transformers

End-to-End Video Instance Segmentation with Transformers PDF, Video, Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, Huaxia Xia, arXiv 2020 Summary Video instance segmentation(VIS) task를 수행하는 모델입니다. DETR과 유사한 구조를 갖으며 segmentation task를 수행하기 위해 segmentation branch가 추가되었고, video data를 다루기 때문에 temporal axis가 추가되었습니다. 기존 VIS task를 수행하는 모델들은 segmentation을 위한 pixel-leve..

반응형