반응형

논문 읽기 255

[논문 읽기] (2021) Towards Reducing Labeling Cost in Deep Object Detection, Active Learning

안녕하세요, 오늘 읽은 논문은 Towards Reducing Labeling Cost in Deep Object Detection 입니다. 이 논문은 Object Detection분야에서 Active Learning을 활용한 논문입니다. object detection 모델을 학습하기 위해서는 label 된 dataset이 필요한데요, 이 label data에 대한 의존도를 낮추기 위한 다양한 active learning 전략이 연구되고 있습니다. 해당 논문에서는 이 active learning이 두 가지 문제점을 갖고 있다고 지적합니다. 기존의 Active Learning의 문제점 1. 신경망이 task에대해 well-trained된 경우에 acquisition function은 의미가 있습니다. 여기서..

[논문 읽기] SimCLR(2020), A Simple Framework for Contrastive Learning of Visual Representations

안녕하세요, 오늘 읽은 논문은 A Simple Framework for Contrastive Learning of Visual Representations 입니다. 해당 논문은 self supervised learning에서 major component를 연구합니다. 그리고 이 component를 결합하여 sota 성능을 달성합니다. 논문에서 설명하는 major component는 다음과 같습니다. (1) data augmentation contrastive learning은 batch내에 이미지를 추출하여 2개의 transformation을 적용해 각각 query와 key를 생성합니다. 동일한 image에 적용된 transformation은 similar이고, 나머지 batch에 존재하는 다르 이미지에..

[논문 읽기] MOCO(2019), Momentum Contrast for Unsupervised Visual Representation Learning

안녕하세요, 오늘 읽은 논문은 MoCo, Momentum Contrast for Unsupervised Visual Representation Learning 입니다. MoCo는 contrastive loss를 사용하는 self-supervised model 입니다. MoCo 이전의 contrastive loss mechanism은 end-to-end, memory bank 방식이 존재했습니다. Contrastive loss를 최대한 활용하려면 많은 수의 negative sample가 필요하고 negative sample의 encoder는 query encoder과 consistent 해야 합니다. end-to-end 방법은 mini-batch내에 존재하는 sample들을 negative sample로 ..

[논문 읽기] Swin Transforemr(2021), Hierarchical Vision Transformer using Shifted Windows

안녕하세요, 오늘 읽은 논문은 Swin Transformer: Hierarchical VIsion Transformer using Shifted Windows 입니다. Swin Transformer는 transformer 구조를 object detection에 적용한 모델입니다. text에 비해서 image는 어떻게 patch로 분할하느냐에 따라서 엄청나게 다양한 variant가 존재하고 이미지들의 resolution이 크다는 차이점이 있습니다. 이 차이첨을 다루기 위해 Sfited Windows를 사용하여 hierarchical transformer로 representation을 학습합니다. shifted window를 활용한 hierarchical transformer는 어떤 장점이 있을까요? 바로 ..

[논문 읽기] Group Normalization(2018)

안녕하세요, 오늘 읽은 논문은 Group Normalization 입니다. GN(Group Normalization)은 BN의 단점을 개선하기 위해 제안된 alternative입니다. BN은 batch size(1or2)를 작게 설정한 경우에 상당한 성능 약화가 발생합니다. OD나 Segmentation 같은 task 경우에 high-resolution image를 사용해야 하므로 batch-size를 작게 설정할 수 밖에 없습니다. 이 경우에 batch 통계값은 전체 분포를 부정확하게 추정하여 noise가 많이 생기고 성능 저하가 발생합니다. 이러한 BN의 단점을 개선하기 위하여 GN은 batch와 독립적으로 normalization을 수행합니다. 위 그림을 살펴보면 batch size가 2인 경우에 ..

[논문 읽기] Contrastive Loss(2006), Dimensionality Redution by Learning an Invariant Mapping

안녕하세요, 오늘 읽은 논문은 Dimensionality Reduction by Learning an Invariant Mapping 입니다. 해당 논문에서는 최초로 Contrastive Loss를 제안합니다. Contrastive Loss는 차원 축소를 수행하는 함수를 만들기 위해 제안되었습니다. 차원 축소는 고차원의 입력 데이터를 저차원의 매니폴드로 map하는 것입니다. 동일한 종류의 입력 데이터를 차원 축소하면 이 둘은 매니폴드 상에 근처의 점으로 map 됩니다. 기존의 차원 축소 방법(PCA, LLE)들은 새로운 데이터가 입력되면 차원 축소를 위해 전체 데이터셋에 대해 계산을 해야합니다. 또한 function이 아닙니다. 논문에서는 training sample사이에 이웃 관계를 활용하여 저차원 매..

[논문 읽기] Big Transfer(BiT, 2019), General Visual Representation Learning

안녕하세요, 오늘 읽은 논문은 Big Transfer(BiT): General Visual Representation Learning 입니다. BiT는 large supervised dataset에 대하여 pre-training을 한 뒤에 target task에 모델을 fine-tunning합니다. 300M 이미지를 갖고 있는 JFT dataset으로 pre-training 하고, 20개 dataset에 대해 fine-tunning하여 강력한 성능을 나타냅니다. 즉, 엄청난 크기의 dataset으로 학습된 모델을 여러 task에 transfer 합니다. Big Transfer (1) Upstream Pre-Training pre-training에서 dataset size, 모델 size가 미치는 역할을 ..

[논문 읽기] Colorful Image Colorization(2016)

안녕하세요, 오늘 읽은 논문은 Colorful Image Colorization 입니다. 해당 논문은 gray scale image를 입력받아 colorization을 합니다. lightness channel L이 주어지면, 모델은 그에 해당하는 color channels인 a와 b를 예측합니다. 색상은 CIE Lab colorspace를 사용합니다. 저자의 목적은 ground-truth와 동일한 colorization이 아니라, 사람을 속일 수 있는 colorization입니다. 저자는 colorization이 multimodal task라고 말합니다. 많은 객체들은 하나의 색상을 갖고 있는 것이 아니라, 여러 색상이 될 수 있습니다. 예를 들어, 사과는 항상 빨강색이 아니라 초록색, 노랑색 사과일 수..

[논문 읽기] MLP-Mixer(2021), An all-MLP Architecture for Vision

안녕하세요, 오늘 읽은 논문은 MLP-Mixer, An all-MLP Architecture for Vision 입니다. MLP-Mixer는 오직 MLP만을 사용합니다. MLP-Mixer는 두 타입의 레이어가 존재하는데, 하나는 channel-mixing MLP, 다른 하나는 token-mixing MLP 입니다. 이 두 타입의 레이어 블록을 반복적으로 적용합니다. channel-mixing MLP는 Xception에서 제안하는 1x1 conv로 채널간 연산을 수행하는 point-wise conv로 생각해볼 수 있습니다. 즉, CNN의 특별한 경우와 동일한 역할을 수행합니다. token-mixing MLP는 독립적인 채널에 1x1 conv를 spatial 에만 적용하는 depth-wise conv로 생각..

[논문 읽기] Jigsaw Puzzles(2016), Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles

안녕하세요, 오늘 읽은 논문은 Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles 입니다. 논문은 self-supervision 원리를 따르며 pretext task로써 Jigsaw puzzle을 풀기 위해 CNN을 학습시킵니다. Jigsaw puzzle을 풀면서 학습된 특징들을 transfer learning을 하여 classification, detection task에서 성능을 측정합니다. ImageNet으로 학습된 모델보다 성능은 뒤떨어지지만, Jigsaw 퍼즐 문제를 풀면서 학습된 특징들이 classification과 object detection 문제에서 유의미한 정보를 갖고 있다는 것을 보여줍니다. Solving..

반응형