반응형

분류 전체보기 823

[논문 읽기] Panoptic Segmentation(2018)

Panoptic Segmentation PDF, Segmentation, Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, Piotr Dollar, arXiv 2018 Summary 오랜만에 업로드하는 segmentation 논문 입니다 ㅎㅎ segmentation을 연구하게 될 것 같아서 앞으로 자주 업로드 할꺼 같네요 해당 논문은 Panoptic Segmentation을 정의하고 metric을 제안합니다. 왜 새로운 task를 정의하는 걸까요? 논문은 The proposed task requires generating a coherent scene segmentation that is rich and complete, an importan..

[논문 읽기] Towards Training Stronger Video Vision Transformers for EPIC-KITCHENS-100 Action Recognition(2021)

Towards Training Stronger Video Vision Transformers for EPIC-KITCHENS-100 Action Recognition PDF, VIdeo Recognition, Ziyuan Huang, Zhiwu Qing, Xiang Wang, Yutong Feng, Shiwei Zhang, arXiv 2021 Summary 해당 논문은 21.06에 arxiv에 올라온 논문입니다. Video Recognition 모델을 EPIC-KITCHENS-100 데이터셋에 여러가지 학습 방법을 실험합니다. 모델을 학습시킬시에 여러 가지를 고려해야 하는데 이 논문이 참고 사항이 될 수 있을 것 같네요 ㅎㅎ 우선 ViViT를 kinetics400, 700, SSV2로 pre-train ..

[논문 읽기] VLF(2021), VideoLightFormer: Lightweight Action Recognition using Transformers

VideoLightFormer: Lightweight Action Recognition using Transformers PDF, Video Recognition, Raivo Koot, Haiping Lu, arXiv 2021 Summary efficient한 Video Recognition 모델입니다. VTN의 확장 버전이며 CNN 백본으로 각 frame을 저차원의 ebedding으로 압축한 뒤에 각 embedding에 spatial transformer를 적용하고, spatial-time transformer를 적용합니다. 해당 모델의 가장 큰 장점은 latent가 낮다는 것입니다. 저자의 목표가 efficient 모델을 추구하여 각 요소를 최대한 high-efficiency되도록 설계합니다. 실험 ..

[논문 읽기] X-ViT(2021), Space-time Mixing Attention for Video Transformer

Space-time Mixing Attention for Video Transformer PDF, Video, Adrian Bulat, Juan-Manuel Perez-Rua, Swathikiran Sudharan, Brais Martinez, Georgios Tzimiropolos, arXiv 2021 Summary ViT를 Video에 적용한 논문입니다. self-attention의 계산 복잡도를 O(TS^2)로 감소시키는데 어떤 방법을 이용하는지 살펴볼 필요가 있는 것 같습니다. 성능도 잘 나오고 FLOPs 관점에서 엄청난 이점을 갖습니다. Method를 살펴보면 이해가 잘 안갑니다. 코드를 뜯어봐야 이해가 될 것 같네요. my github Seonghoon-Yu/Paper_Review_and_Im..

[논문 읽기] X3D(2020), Expanding Architectures for Efficient Video Recognition

X3D: Expanding Architectures for Efficient Video Recognition PDF, Video, Christoph Feichtenhofer, CVPR2020 Summary tiny model부터 시작해서 multiple axis 중 하나의 axis를 점진적으로 확대해 나갑니다. EfficientNet은 depth, width, image resolution을 uniform scaling했다면 X3D는 bottleneck width, temporal duration, frame rate, depth, spatial resolution, width를 controll 합니다. 한번에 하나의 axis를 확장해나가면서 최적의 accuracy-complexity trade off를..

[논문 읽기] Conformer(2021), Local Features Coupling Global Representations for Visual Recognition

Conformer: Local Features Coupling Global Representations for Visual Recognition PDF, Classification TF, Zhiliang Peng, Wei Huang, Shanzhi Gu, Lingxi Xie, Yaowei Wang, ICCV 2021 Summary CNN은 local feature에 특화되어 있고 transformer는 global representation에 특화되어 있는데, 각각의 출력값을 Feature Coupling Unit(FCU)로 fuse 한다. 그러면 CNN에 global representation을 주입할 수 있고, transformer에 local feature을 주입할 수 있다. CNN은 local f..

[에러 해결] CUDA error: CUBLAS_STATUS_INTERNAL_ERROR when calling `cublasCreate(handle)

pytorch lightning으로 분산학습시에 오류가 발생했다. CUDA error: CUBLAS_STATUS_INTERNAL_ERROR when calling `cublasCreate(handle)` 오류 발생시 해결방법은 pytorch 버전과 cuda 버전을 맞춰줘야 한다 !@ 아래 코드를 입력하면 최신 버전 torch로 업데이트 해준다. 하하하 pip install torch==1.8.0+cu111 torchvision==0.9.0+cu111 torchaudio==0.8.0 -f https://download.pytorch.org/whl/torch_stable.html 출처 https://discuss.pytorch.org/t/cuda-error-cublas-status-internal-error..

[논문 읽기] VTN(2021), Video Transformer Network

Video Transformer Network PDF, Video TF, Daniel Neimark, Omri Bar, Maya Zohar, Dotan Asselmann arXiv 2021 Summary Video + ViT 모델 3가지 모듈로 구성 (1) 2D feature extractor 비디오 프레임을 입력 받아 embedding 출력. CNN, ViT 모델 중 아무거나 사용해도 됩니다. (2) Attention module 논문에서는 계산 복잡도가 O(N)인 long former를 사용. feature extractor 출력값을 attention block으로 전달합니다. (3) MLP head task를 수행하기 위한 MLP head 일반적으로 Kinetics dataset으로 학습한 모델은 ..

반응형