반응형

논문 107

[논문 읽기] X-ViT(2021), Space-time Mixing Attention for Video Transformer

Space-time Mixing Attention for Video Transformer PDF, Video, Adrian Bulat, Juan-Manuel Perez-Rua, Swathikiran Sudharan, Brais Martinez, Georgios Tzimiropolos, arXiv 2021 Summary ViT를 Video에 적용한 논문입니다. self-attention의 계산 복잡도를 O(TS^2)로 감소시키는데 어떤 방법을 이용하는지 살펴볼 필요가 있는 것 같습니다. 성능도 잘 나오고 FLOPs 관점에서 엄청난 이점을 갖습니다. Method를 살펴보면 이해가 잘 안갑니다. 코드를 뜯어봐야 이해가 될 것 같네요. my github Seonghoon-Yu/Paper_Review_and_Im..

[논문 읽기] Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency(2021)

Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency PDF, Video SSL , Haiping Wu, Xiaolong Wang, arXiv 2021 Summary VIdeo 도메인에 contrastive SSL 방법을 적용한 논문입니다. 기존 비디오 contrastive SSL 방법은 동일한 비디오 내의 frame를 positive로 정의하고, 다른 비디오 내의 frame을 negative로 정의했습니다. 그러다보니 다른 비디오 사이에 고양이나 테니스 선수가 존재해도 negative로 정의된다는 문제점이 발생합니다. 해당 논문은 서로 다른 video 내 frame이 동일한 객체를 나타낸다면 positive로 활..

분야별 Vision Transformer 논문 정리

나중에 읽으려고 정리한 논문들입니다. ㅎㅎ 필요하신 분이 계실수도 있으니 공유합니다. 댓글로 vision transformer 논문 추천해주셔도 됩니다 ㅎㅎ Transformer가 서로 다른 데이터 사이에도 적용할 수 있고 데이터 종류에 따라 구조를 변경하지 않아도 되는 장점을 활용한 여러 분야에서 논문들 DPN, depth estimation, https://arxiv.org/abs/2103.13413 Point Transformation, Point cloud https://arxiv.org/abs/2012.09164 Perceiver, audio, video, point clouds, image, https://arxiv.org/abs/2103.03206 UniT, Multimodal, https:..

[논문 읽기] Centroid Transformer(2021)

Centroid Transformers: Learning to Abstract with Attention Lemeng Wu, Xingchao Liu, Qiang Liu, arXiv 2021 PDF, Transformer By SeonghoonYu August 02th, 2021 Summary 센트로이드 트랜스포머는 N개의 입력값을 M개의 요소로 요약합니다. 이 과정에서 필요없는 정보를 버리고 트랜스포머의 계산 복잡도를 O(MN)으로 감소합니다. M개의 요소는 Clustering의 centroid로 생각해 볼 수 있는데, 이 M개의 요소를 어떻게 선정하는 지가 핵심 아이디어로 생각해볼 수 있습니다. M개의 centroid를 선정하기 위해 입력값 x와 centroid 사이의 유사도를 측정하고 손실함수를 설계..

[Paper Review] Invariant Information Clustering for Unsupervised Image Classification and Segmentation(2018)

Invariant Information Clustering for Unsupervised Image Classification and Segmentation Xu Ji, Joao F.Henriques, Andrea Vedaldi, arXiv 2018 PDF, Clustering By SeonghoonYu July 30th, 2021 Summary This paper presents IIC model which acieves SOTA performance on Image clustering and Image segmentation by maximizing the mutual information between the original image and the transformed image from orig..

[Paper Review] SimCLRv2(2020), Big Self-Supervised Models are Strong Semi-Supervised Learners

Big Self-Supervised Models are Strong Semi-Supervised Learners Ting Chen, Simon Kornblith, Kevin Swersky, Mohammad Norouzi, Geoffrey Hinton arXiv 2020 PDF, SSL By SeonghoonYu July 26th, 2021 Summary This paper achieves SOTA performance by combine the pre-trained model on self-supervised learning with knowledge distilation. Namely, They show that using pre-trained model on SSL as teacher model fo..

[Paper Review] Set Transformer(2018), A Framework for Attention-based Permutation-Invariant Neural Networks

Set Transformer, A Framework for Attention-based Permutation-Invariant Neural Networks Juho Lee, Yoonho Lee, Jungtaek Kim arXiv 2018 PDF, Transformer By SeonghoonYu July 25th, 2021 Summary Set Transforemr is a function that performs permutation invariant by taking elements thar are ordered in the set. The model consists of an encoder and a decoder, both of which rely on attention. This model lea..

[Paper Review] TSM(2018), Temporal Shift Module for Efficient Video Understanding

TSM: Temporal Shift Module for Efficient Video Understanding Ji Lin, Chuang Gan, Song Han, arXiv 2018 PDF Video By SeonghoonYu July 23th, 2021 Summary This paper is 2D Conv based Video model. They present TSM(temporal shift Module). It can be inserted into 2D CNNs to achieve temporal modeling at zero computation and zero parameters. TSM shift the channels along the temporal dimension both forwar..

[Paper review] SlowFast Networks for Video Recognition(2018)

SlowFast Networks for Video Recognition Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, Kaiming He, arXiv 2018 PDF, Video By SeonghoonYu July 20th, 2021 Summary They presents a two-pathway SlowFast model for video recognition. Two pathways seperately work at low and high temporal resolutions. (1) One is Slow pathway designed to capture sementic information that can be given by a few sparse f..

[Paper review] SeLa(2019), Self-Labelling via Simultaneous Clustering and Representation Learning

Self-Labelling via Simultaneous Clustering and Representation Learning Yuki M. Asano, Christian Rupprecht, Andrea Vedaldi arxiv 2019 PDF, Self-Supervised Learning By SeonghoonYu July 19th, 2021 Summary 신경망이 출력한 feature vector를 clustering에 할당하는데, 이 할당하는 과정을 최적 운송(optimal transport) 문제로 보고 sinkhorn algorithm으로 assignment matrix Q를 계산합니다. Q는 feature vector와 clustering의 유사도를 계산하여 clustering을 할당하는 역할..

반응형