반응형

논문 읽기/Classification 50

[논문 읽기] Big Transfer(BiT, 2019), General Visual Representation Learning

안녕하세요, 오늘 읽은 논문은 Big Transfer(BiT): General Visual Representation Learning 입니다. BiT는 large supervised dataset에 대하여 pre-training을 한 뒤에 target task에 모델을 fine-tunning합니다. 300M 이미지를 갖고 있는 JFT dataset으로 pre-training 하고, 20개 dataset에 대해 fine-tunning하여 강력한 성능을 나타냅니다. 즉, 엄청난 크기의 dataset으로 학습된 모델을 여러 task에 transfer 합니다. Big Transfer (1) Upstream Pre-Training pre-training에서 dataset size, 모델 size가 미치는 역할을 ..

[논문 읽기] MLP-Mixer(2021), An all-MLP Architecture for Vision

안녕하세요, 오늘 읽은 논문은 MLP-Mixer, An all-MLP Architecture for Vision 입니다. MLP-Mixer는 오직 MLP만을 사용합니다. MLP-Mixer는 두 타입의 레이어가 존재하는데, 하나는 channel-mixing MLP, 다른 하나는 token-mixing MLP 입니다. 이 두 타입의 레이어 블록을 반복적으로 적용합니다. channel-mixing MLP는 Xception에서 제안하는 1x1 conv로 채널간 연산을 수행하는 point-wise conv로 생각해볼 수 있습니다. 즉, CNN의 특별한 경우와 동일한 역할을 수행합니다. token-mixing MLP는 독립적인 채널에 1x1 conv를 spatial 에만 적용하는 depth-wise conv로 생각..

[논문 읽기] Vision Transformer(ViT, 2020), An Image is Worth 16x16 Words, Transformers for Image Recognition at Scale

안녕하세요, 오늘 읽은 논문은 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 입니다. 해당 논문은 transformer를 image patch의 sequence에 적용하여 classification을 수행합니다. transformer는 computational efficiency와 scalability한 속성을 갖고 있어 엄청난 크기의 파라미터를 가진 모델로 확장할 수 있습니다. 컴퓨터 비전에서도 이 transformer을 적용하여 VIT는 엄청난 크기의 데이터셋으로 학습하여 SOTA를 달성합니다. transformer를 computer vision에서 적용하기에 inductive bias를 갖고 있습니다. CNN은 ..

[논문 읽기] (2021) Knowledge distillation: A good teacher is patient and consistent

안녕하세요, 오늘 읽은 논문은 Knowledge distillation: A good teacher is patient and consitent 입니다. 논문을 직역해보자면 '지식 증류: 좋은 선생님은 참을성이 있고 일관성이 있다.' 입니다. 논문에서 하고 싶은 말이 논문 제목에 다 담겨져 있습니다. 참을성 = 오랜 시간 학습, 일관성 = teacher와 student 동일한 augmentation 적용하기 입니다. 해당 논문은 model compression을 목적으로 knowledge distillation을 사용합니다. knowledge distillation을 function matching으로 보는데, 해당 논문이 제안하는 function matching 방법으로 knowledge distill..

[논문 읽기] PyTorch 구현 코드로 살펴보는 Knowledge Distillation(2014), Distilling the Knowledge in Neural Network

안녕하세요, 오늘 읽은 논문은 Distilling the Knoeledge in a Neural Network 입니다. 해당 논문은 Knowledge Distillation을 제안합니다. Knowledge Distillation은 teacher model이 갖고 있는 지식을 더 작은 모델인 student model에 transfer 하는 것을 의미합니다. 사이즈가 큰 teacher model이 갖고 있는 지식을 사이즈가 작은 student model에 지식을 transfer한다면, model compression의 효과가 있습니다. 즉, 실제 모델을 배포할 때, 더 작은 모델을 사용하여 예측 속도도 높이고, 정확도도 높일 수 있습니다. 이 외에도 knowledge distillation은 model을 g..

[논문 읽기] (2020) Noise or Signal: The Role of Image Backgrounds in Object Recognition

안녕하세요 ㅎㅎ!, 오늘 읽은 논문은 Noise or Signal: The Role of Image Backgrounds in Object Recognition 입니다. 해당 논문은 image classification 모델이 이미지 배경으로부터 오는 signal에 의존적인 정도를 실험합니다. 실험 결과를 잠깐 살펴보면, 모델은 객체 뿐만 아니라 배경에서도 정보를 얻어 객체를 분류합니다. 이미지에서 객체를 제거하고, 배경만 있는 dataset으로 학습 한 후 원래 dataset으로 test를 진행하면 모델이 40~50% 정도의 정확도를 보여줍니다. 또한, 객체와 배경이 서로 다른 class로 합성한 이미지로 test 한 경우에, 모델이 오분류를 합니다. 이는 모델이 배경에 depend 하다는 것을 보여줍..

[논문 읽기] SKNet(2019), Selective Kernel Networks

안녕하세요, 오늘 읽은 논문은 Selective Kernel Networks 입니다. 일반적으로 CNN 모델은 각 레이어에서 동일한 크기의 kernel_size를 지닌 conv 연산을 수행합니다. 예를 들어, ResNet은 1x1 conv와 3x3conv를 반복해서 사용합니다. SKNet은 kernel_size를 고정시키지 않고, 입력 이미지의 정보에 따라 kernel_size가 변화하도록 설계한 모델입니다. 입력 이미지 내의 객체 크기가 커지면 kernel_size도 마찬가지로 커지는 것을 실험적으로 증명하며 논문에서 제안하는 selective kernel convolution을 다른 모델에 적용해 성능이 향상된다는 것을 보여줍니다. selective kernel convolution은 split, f..

[논문 읽기] CBAM(2018), Convolutional Block Attention Module

안녕하세요, 오늘 읽은 논문은 CBAM(2018), Convolutional Block Attention Module 입니다. 일반적으로 CNN 모델의 성능을 향상시키는 방법은 depth, width, cardinality 세 가지 요소가 있습니다. depth는 층을 의미하고, width는 필터 수를 의미하며 cardinality는 xepction과 resnext에서 제안된 group convolution에서 group의 수를 의미합니다. CBAM은 위 세가지 요소를 제외하고 attention module을 사용하여 모델의 성능을 향상시킵니다. channel attention module과 spatial attention module로 구성되어 있으며, 각각의 attention module은 채널과 공간..

[논문 읽기] Bag of Tricks(2019) 리뷰, Bag of Tricks for Image Classification with Convolutional Networks

안녕하세요! 이번에 읽어볼 논문은 Bag of Tricks for Image Classification with Convolutional Networks 입니다. Bag of Tricks는 정확도를 높일 수 있는 여러 가지 학습 tricks를 소개합니다. 모델 구조를 변경하는 것이 아니라 tricks를 사용해서 성능을 높이는 것입니다. classification 분야를 공부하시는 분들이라면 이 논문에서 제시하는 방법들을 사용해보면 좋을 꺼 같네요ㅎㅎ 우선 결과부터 확인하겠습니다. ResNet-50에 tricks를 사용했더니 정확도가 75.3%에서 79.29%로 상승했네요. 어떤 tricks를 사용했는지 살펴보겠습니다. Large-batch training 큰 batch를 사용하면 gradient의 var..

[논문 읽기] EfficientNetV2(2021) 리뷰, Smaller Models and Faster Training

안녕하세요! 이번에 읽어볼 논문은 2019년에 등장한 EfficientNetV1의 후속작 EfficientNetV2, Smaller Models and Faster Training 입니다. EfficientNetV2는 빠른 학습에 집중한 모델입니다. 데이터셋의 크기가 커질수록 빠른 학습의 중요성도 높아지는데요. 자연어 처리 분야에서 GPT-3은 엄청 큰 데이터셋으로 학습시켜서 뛰어난 성능을 보이고 있습니다. 하지만 GPT-3은 수천개의 TPU로 몇주일간 학습시켰기 때문에 retrain과 개선이 어렵다는 단점이 있습니다. training efficiency는 최근에 큰 관심을 받고 있는데요. 예를 들어, NFNet(2021), BotNet(2021), ResNet-Rs(2021) 등 모두 training ..

반응형