반응형

논문 107

[논문 읽기] SimCLR(2020), A Simple Framework for Contrastive Learning of Visual Representations

안녕하세요, 오늘 읽은 논문은 A Simple Framework for Contrastive Learning of Visual Representations 입니다. 해당 논문은 self supervised learning에서 major component를 연구합니다. 그리고 이 component를 결합하여 sota 성능을 달성합니다. 논문에서 설명하는 major component는 다음과 같습니다. (1) data augmentation contrastive learning은 batch내에 이미지를 추출하여 2개의 transformation을 적용해 각각 query와 key를 생성합니다. 동일한 image에 적용된 transformation은 similar이고, 나머지 batch에 존재하는 다르 이미지에..

[논문 읽기] MOCO(2019), Momentum Contrast for Unsupervised Visual Representation Learning

안녕하세요, 오늘 읽은 논문은 MoCo, Momentum Contrast for Unsupervised Visual Representation Learning 입니다. MoCo는 contrastive loss를 사용하는 self-supervised model 입니다. MoCo 이전의 contrastive loss mechanism은 end-to-end, memory bank 방식이 존재했습니다. Contrastive loss를 최대한 활용하려면 많은 수의 negative sample가 필요하고 negative sample의 encoder는 query encoder과 consistent 해야 합니다. end-to-end 방법은 mini-batch내에 존재하는 sample들을 negative sample로 ..

[논문 읽기] Swin Transforemr(2021), Hierarchical Vision Transformer using Shifted Windows

안녕하세요, 오늘 읽은 논문은 Swin Transformer: Hierarchical VIsion Transformer using Shifted Windows 입니다. Swin Transformer는 transformer 구조를 object detection에 적용한 모델입니다. text에 비해서 image는 어떻게 patch로 분할하느냐에 따라서 엄청나게 다양한 variant가 존재하고 이미지들의 resolution이 크다는 차이점이 있습니다. 이 차이첨을 다루기 위해 Sfited Windows를 사용하여 hierarchical transformer로 representation을 학습합니다. shifted window를 활용한 hierarchical transformer는 어떤 장점이 있을까요? 바로 ..

[논문 읽기] Group Normalization(2018)

안녕하세요, 오늘 읽은 논문은 Group Normalization 입니다. GN(Group Normalization)은 BN의 단점을 개선하기 위해 제안된 alternative입니다. BN은 batch size(1or2)를 작게 설정한 경우에 상당한 성능 약화가 발생합니다. OD나 Segmentation 같은 task 경우에 high-resolution image를 사용해야 하므로 batch-size를 작게 설정할 수 밖에 없습니다. 이 경우에 batch 통계값은 전체 분포를 부정확하게 추정하여 noise가 많이 생기고 성능 저하가 발생합니다. 이러한 BN의 단점을 개선하기 위하여 GN은 batch와 독립적으로 normalization을 수행합니다. 위 그림을 살펴보면 batch size가 2인 경우에 ..

[논문 읽기] Big Transfer(BiT, 2019), General Visual Representation Learning

안녕하세요, 오늘 읽은 논문은 Big Transfer(BiT): General Visual Representation Learning 입니다. BiT는 large supervised dataset에 대하여 pre-training을 한 뒤에 target task에 모델을 fine-tunning합니다. 300M 이미지를 갖고 있는 JFT dataset으로 pre-training 하고, 20개 dataset에 대해 fine-tunning하여 강력한 성능을 나타냅니다. 즉, 엄청난 크기의 dataset으로 학습된 모델을 여러 task에 transfer 합니다. Big Transfer (1) Upstream Pre-Training pre-training에서 dataset size, 모델 size가 미치는 역할을 ..

[논문 읽기] Colorful Image Colorization(2016)

안녕하세요, 오늘 읽은 논문은 Colorful Image Colorization 입니다. 해당 논문은 gray scale image를 입력받아 colorization을 합니다. lightness channel L이 주어지면, 모델은 그에 해당하는 color channels인 a와 b를 예측합니다. 색상은 CIE Lab colorspace를 사용합니다. 저자의 목적은 ground-truth와 동일한 colorization이 아니라, 사람을 속일 수 있는 colorization입니다. 저자는 colorization이 multimodal task라고 말합니다. 많은 객체들은 하나의 색상을 갖고 있는 것이 아니라, 여러 색상이 될 수 있습니다. 예를 들어, 사과는 항상 빨강색이 아니라 초록색, 노랑색 사과일 수..

[논문 읽기] MLP-Mixer(2021), An all-MLP Architecture for Vision

안녕하세요, 오늘 읽은 논문은 MLP-Mixer, An all-MLP Architecture for Vision 입니다. MLP-Mixer는 오직 MLP만을 사용합니다. MLP-Mixer는 두 타입의 레이어가 존재하는데, 하나는 channel-mixing MLP, 다른 하나는 token-mixing MLP 입니다. 이 두 타입의 레이어 블록을 반복적으로 적용합니다. channel-mixing MLP는 Xception에서 제안하는 1x1 conv로 채널간 연산을 수행하는 point-wise conv로 생각해볼 수 있습니다. 즉, CNN의 특별한 경우와 동일한 역할을 수행합니다. token-mixing MLP는 독립적인 채널에 1x1 conv를 spatial 에만 적용하는 depth-wise conv로 생각..

[논문 읽기] Jigsaw Puzzles(2016), Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles

안녕하세요, 오늘 읽은 논문은 Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles 입니다. 논문은 self-supervision 원리를 따르며 pretext task로써 Jigsaw puzzle을 풀기 위해 CNN을 학습시킵니다. Jigsaw puzzle을 풀면서 학습된 특징들을 transfer learning을 하여 classification, detection task에서 성능을 측정합니다. ImageNet으로 학습된 모델보다 성능은 뒤떨어지지만, Jigsaw 퍼즐 문제를 풀면서 학습된 특징들이 classification과 object detection 문제에서 유의미한 정보를 갖고 있다는 것을 보여줍니다. Solving..

[논문 읽기] Context Prediction(2015), Unsupervised Visual Representation Learning by Context Prediction

오늘 읽은 논문은 Unsupervised Visual Representation Learning by Context Prediction 입니다. Context Prediction은 self-supervised learning이며 image로부터 patch를 추출하여 patch간의 상대적인 위치를 예측하도록 학습합니다(사람도 맞추기 어려운 task를 신경망이 prediction 하도록 합니다. 실제로 이 상대적인 위치를 예측하는 task에 대하여 학습된 ConvNet은 낮은 성능(40%)을 나타냅니다). 이 방법으로 embedding을 학습하는데, 이 embedding은 동일한 object이면 가까운 거리(유사도), 다른 object 경우에는 먼 거리를 갖도록 합니다. 이렇게 학습된 ConvNet은 tra..

[논문 읽기] Vision Transformer(ViT, 2020), An Image is Worth 16x16 Words, Transformers for Image Recognition at Scale

안녕하세요, 오늘 읽은 논문은 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 입니다. 해당 논문은 transformer를 image patch의 sequence에 적용하여 classification을 수행합니다. transformer는 computational efficiency와 scalability한 속성을 갖고 있어 엄청난 크기의 파라미터를 가진 모델로 확장할 수 있습니다. 컴퓨터 비전에서도 이 transformer을 적용하여 VIT는 엄청난 크기의 데이터셋으로 학습하여 SOTA를 달성합니다. transformer를 computer vision에서 적용하기에 inductive bias를 갖고 있습니다. CNN은 ..

반응형