반응형

논문 읽기 255

[논문 읽기] RON(2017) 리뷰, Reverse Connection with Objectness Prior Networks for Object Detection

안녕하세요! 이번에 읽어볼 논문은 RON, Reverse Connection with Objectness Prior Networks for Object Detection 입니다. RON은 (1) multi-scale object localization을 위해 reverse connection과 (2) object와 non-object 사이의 불균형을 개선하기 위한 objectness prior을 제안합니다. 즉, object detection의 고질적인 문제인 작은 객체를 탐지하는 것의 어려움을 reverse connection을 통해 해결하고, 소수의 anchor box에만 object가 할당되어 발생하는 positive, negative sample의 불균형 문제를 objectness prior로 해..

[논문 읽기] Mask R-CNN(2017) 리뷰

이번에 읽어볼 논문은 Mask R-CNN 입니다. Mask R-CNN은 instance segmentation을 수행할 목적으로 Faster R-CNN에 mask brancch를 추가한 것입니다. 그리고 기존에 object detection을 목적으로 사용하는 RoI pool을 RoI Align로 대체합니다. 또한 좀 더 다양한 scale의 proposals를 얻기 위해, FPN이 추가되었습니다. 아래 그림에서 전체 구조를 확인해보실 수 있습니다. Loss function Mask R-CNN은 2-stage 기법입니다. 첫 번째 stage는 RPN에서 RoI를 생성합니다. 두 번째 stage는 생성한 RoI를 이용하여 class, boxx offset, binary mask를 출력합니다. mask bra..

[논문 읽기] R-FCN(2016) 리뷰, Object Detection via Region-based Fully Convolutional Networks

이번에 읽어볼 논문은 R-FCN, Object Detection via Region-based Fully Convolutional Networks 입니다. R-FCN은 position-sensitive score map를 제안합니다. 이 position-sensitive score map은 classification에서의 translation-invariance와 object detection에서의 translation-variance 사이의 딜레마를 해결하기 위해 제안되었습니다. translation-invariance vs translation-variance Classification에서는 translation-invariance가 중요합니다. 이미지 내에서 물체의 위치와 관계없이 class만을 예..

[논문 읽기] Bag of Tricks(2019) 리뷰, Bag of Tricks for Image Classification with Convolutional Networks

안녕하세요! 이번에 읽어볼 논문은 Bag of Tricks for Image Classification with Convolutional Networks 입니다. Bag of Tricks는 정확도를 높일 수 있는 여러 가지 학습 tricks를 소개합니다. 모델 구조를 변경하는 것이 아니라 tricks를 사용해서 성능을 높이는 것입니다. classification 분야를 공부하시는 분들이라면 이 논문에서 제시하는 방법들을 사용해보면 좋을 꺼 같네요ㅎㅎ 우선 결과부터 확인하겠습니다. ResNet-50에 tricks를 사용했더니 정확도가 75.3%에서 79.29%로 상승했네요. 어떤 tricks를 사용했는지 살펴보겠습니다. Large-batch training 큰 batch를 사용하면 gradient의 var..

[논문 읽기] EfficientNetV2(2021) 리뷰, Smaller Models and Faster Training

안녕하세요! 이번에 읽어볼 논문은 2019년에 등장한 EfficientNetV1의 후속작 EfficientNetV2, Smaller Models and Faster Training 입니다. EfficientNetV2는 빠른 학습에 집중한 모델입니다. 데이터셋의 크기가 커질수록 빠른 학습의 중요성도 높아지는데요. 자연어 처리 분야에서 GPT-3은 엄청 큰 데이터셋으로 학습시켜서 뛰어난 성능을 보이고 있습니다. 하지만 GPT-3은 수천개의 TPU로 몇주일간 학습시켰기 때문에 retrain과 개선이 어렵다는 단점이 있습니다. training efficiency는 최근에 큰 관심을 받고 있는데요. 예를 들어, NFNet(2021), BotNet(2021), ResNet-Rs(2021) 등 모두 training ..

[논문 읽기] DSSD(2017) 리뷰, Deconvolutional Single Shot Detector

안녕하세요! 이번에 읽어볼 논문은 DSSD, Deconvolutional Single Shot Detector 입니다. DSSD는 SSD에 세 가지 변화를 주었습니다. 첫 번째는 base network를 VGG가 아닌 ResNet-101을 사용합니다. SSD에서는 base network를 VGG를 사용했었죠. 두 번째는 SSD에 Deconvolution network을 추가합니다. 이 아이디어는 semantic segmentation 분야의 DeConvNet에서 영감을 받았다고 하네요. Deconvolution network를 사용하면 좀 더 세밀한 정보를 포착할 수 있다는 장점이 있습니다. 세 번째는 prediction layer를 수정합니다. 기존의 SDD는 conv layer로 예측을 수행했는데요...

[논문 읽기] DeConvNet(2015) 리뷰, Learning Deconvolution Network for Semantic Segmentation

이번에 읽어볼 논문은 DeepConvNet, 'Learning Deconvolution Network for Semantic Segmentation' 입니다. DeepConvNet은 Convolution network와 Deconvolution network, 두 파트로 구성되어 있습니다. Convolution network로 feature을 추출하고, Deconvolution network로 feature에 대한 object segmentation을 생성합니다. 이 DeepConvNet은 FCN의 한계를 개선하기 위해 제안되었는데요. 우선 FCN의 한계를 먼저 살펴보겠습니다. Limitations of FCN FCN는 심각한 단점을 갖고 있습니다. 첫 번째는 fixed-size receptive fie..

[논문 읽기] DeepLabV1(2014) 리뷰, Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

두 번째 semantic segmentation 논문입니다. semantic segmentation 논문은 읽어도 이해가 잘 안되네요. 배경지식이 부족해서 그런 것 같습니다. 논문을 많이 읽을수록 배경지식이 쌓이므로, 열심히 읽도록 하겠습니다. Astract Deep Convolutional Neural Networks(DCNNs)를 pixel-level classification 문제를 해결하기 위해 사용합니다. DCNNs의 마지막 레이어에서의 특징은 정확한 object segmentation을 포착하기에 부족합니다. 이것은 DCNNs의 invariance 특징 때문입니다. 부정확한 localization문제를 DCNNs의 마지막 레이어에서의 responses와 fully connected Condit..

[논문 읽기] FCN(2015) 리뷰, Fully Convolutional Networks for Semantic Segmentation

공부 목적으로 FCN 논문을 읽어보았습니다. Abstract FCN은 end-to-end, pixels-to-pixels 학습이 되는 convolutional network입니다. 핵심 아이디어는 임의의 크기로 입력 값을 받고, 그에 해당하는 출력값을 생성하는 'fully convolutional network' 입니다. AlexNet, GoogLeNet, VGGnet과 같은 classification 신경망을 사용하고, 이들을 segmentation task에 맞게 fine-tunning 합니다. 그리고나서 shallow의 정보와 deep의 정보를 결합하는 새로운 구조를 정의합니다. 1. Introduction Semantic segmentation은 coarse부터 fine까지 inference를 통..

[논문 읽기] Meta Pseudo Labels(2020)

안녕하세요! 이번에 읽어볼 논문은 현재, Classification 분야에서 SOTA를 차지하고 있는 Meta Pseudo Labels 입니다. Meta Pseudo Labels는 semi-supervised learning 기법으로 SOTA를 달성했습니다. Noisy Student에서의 단점을 개선했는데요. Noisy Student가 무엇인지 살펴보겠습니다. Noisy Student Noisy Student에는 labeled image로 teacher를 학습시키고, teacher로 unlabeled image에 대한 pseudo label를 생성합니다. teacher로 생성한 pseudo labeled image와 labeled image로 student를 학습합니다. 이 student를 teacher..

반응형