반응형

object detection 48

[논문 읽기] RON(2017) 리뷰, Reverse Connection with Objectness Prior Networks for Object Detection

안녕하세요! 이번에 읽어볼 논문은 RON, Reverse Connection with Objectness Prior Networks for Object Detection 입니다. RON은 (1) multi-scale object localization을 위해 reverse connection과 (2) object와 non-object 사이의 불균형을 개선하기 위한 objectness prior을 제안합니다. 즉, object detection의 고질적인 문제인 작은 객체를 탐지하는 것의 어려움을 reverse connection을 통해 해결하고, 소수의 anchor box에만 object가 할당되어 발생하는 positive, negative sample의 불균형 문제를 objectness prior로 해..

[논문 읽기] Mask R-CNN(2017) 리뷰

이번에 읽어볼 논문은 Mask R-CNN 입니다. Mask R-CNN은 instance segmentation을 수행할 목적으로 Faster R-CNN에 mask brancch를 추가한 것입니다. 그리고 기존에 object detection을 목적으로 사용하는 RoI pool을 RoI Align로 대체합니다. 또한 좀 더 다양한 scale의 proposals를 얻기 위해, FPN이 추가되었습니다. 아래 그림에서 전체 구조를 확인해보실 수 있습니다. Loss function Mask R-CNN은 2-stage 기법입니다. 첫 번째 stage는 RPN에서 RoI를 생성합니다. 두 번째 stage는 생성한 RoI를 이용하여 class, boxx offset, binary mask를 출력합니다. mask bra..

[논문 읽기] R-FCN(2016) 리뷰, Object Detection via Region-based Fully Convolutional Networks

이번에 읽어볼 논문은 R-FCN, Object Detection via Region-based Fully Convolutional Networks 입니다. R-FCN은 position-sensitive score map를 제안합니다. 이 position-sensitive score map은 classification에서의 translation-invariance와 object detection에서의 translation-variance 사이의 딜레마를 해결하기 위해 제안되었습니다. translation-invariance vs translation-variance Classification에서는 translation-invariance가 중요합니다. 이미지 내에서 물체의 위치와 관계없이 class만을 예..

[논문 읽기] DSSD(2017) 리뷰, Deconvolutional Single Shot Detector

안녕하세요! 이번에 읽어볼 논문은 DSSD, Deconvolutional Single Shot Detector 입니다. DSSD는 SSD에 세 가지 변화를 주었습니다. 첫 번째는 base network를 VGG가 아닌 ResNet-101을 사용합니다. SSD에서는 base network를 VGG를 사용했었죠. 두 번째는 SSD에 Deconvolution network을 추가합니다. 이 아이디어는 semantic segmentation 분야의 DeConvNet에서 영감을 받았다고 하네요. Deconvolution network를 사용하면 좀 더 세밀한 정보를 포착할 수 있다는 장점이 있습니다. 세 번째는 prediction layer를 수정합니다. 기존의 SDD는 conv layer로 예측을 수행했는데요...

[논문 읽기] YOLOv3(2018) 리뷰

이번에 읽어볼 논문은 'YOLOv3: An Incermetal Improvement' 입니다. YOLOv3은 YOLOv2에서 개선된 버전입니다. 예를 들어, FPN을 사용하여 multi-scale에서 feature을 추출하고, shortcut connection을 활용한 DarkNet-53, class 예측시에 softmax 대신 개별 클래스 별로 logistic regression을 사용합니다. 기본 작동방식은 YOLOv2와 동일하므로 YOLOv2 논문을 읽고, YOLOv3을 살펴보는 것을 추천드립니다. 큰 변화가 일어나지 않았으며, YOLOv2에 최신 기법을 적용하여 성능을 끌어올렸습니다. YOLov3의 성능입니다. RetinaNet 논문에서 사용한 figure에서 YOLOv3을 추가했습니다. YOL..

[논문 읽기] RetinaNet(2017) 리뷰, Focal Loss for Dense Object Detection

RetinaNet 논문은 모델이 예측하기 어려운 hard example에 집중하도록 하는 Focal Loss를 제안합니다. ResNet과 FPN을 활용하여 구축된 one-stage 모델인 RetinaNet은 focal loss를 사용하여 two-stage 모델 Faster R-CNN의 정확도를 능가했습니다. 클래스 불균형 문제(Class imbalance proplem) R-CNN과 같은 two-stage detector이 one-stage detector보다 높은 정확도를 나타내는 것은 일반적입니다. 하지만 one-stage detector(YOLO, SSD)는 속도가 빠르다는 장점이 있습니다. RetinaNet 저자는 one-stage detector의 낮은 정확도의 원인은 객체와 배경 클래스 불균형..

[논문 읽기] OHEM(2016) 리뷰, Training Region-based Object Detectors with Online Hard Example Mining

안녕하세요! 이번에 읽어볼 논문은 OHEM, Training Region-based Object Detectors with Online Hard Example Mining 입니다. 모델 구조를 개선시켜 성능을 향상시킨 논문이 아니라, 샘플링 방법을 개선하여 모델의 성능을 향상시킨 논문입니다. RetinaNet 논문을 읽다가 OHEM에 대한 내용이 이해가 안되서 OHEM을 읽어보게 되었네요ㅎㅎ Summary Fast R-CNN에서 mini-batch를 구성할 때, 두개의 이미지에서 각각 64개의 RoI를 positive, negative 1:3 비율로 샘플링하여 총 128개 RoI로 mini-batch를 구성합니다. OHEM은 loss가 높은 RoI를 선별하여 negative sample를 샘플링하는 알고..

[PyTorch] Single Object Detection 모델 생성하기

Single object detection을 위한 간단한 모델을 생성하겠습니다. convolutional layer, pooling layer, skip connection을 활용한 모델입니다. # implement the model class import torch.nn as nn import torch.nn.functional as F # define the bulk of the model class class Net(nn.Module): def __init__(self, params): super(Net, self).__init__() C_in, H_in, W_in = params['input_shape'] init_f = params['initial_filters'] num_outputs = pa..

[PyTorch] data augmentation(resize, flip, shift, brightness, contrast, gamma) 함수 정의하기

파이토치로 data augmentation 함수를 정의해보겠습니다. transformation.Compose 함수로 정의하면 쉽게 data augmentation을 사용할 수 있지만, 이 경우에 모든 dataset에 적용이 됩니다. custum dataset을 train과 val로 나눈뒤에 각각에 다른 transformation을 적용하기 위해 함수를 정의해서 사용합니다. 이번 포스팅에서 정의할 data augmentation은 resize, horizontally flip, vertically flip, shift, brightness, contrast, gamma, scale label) 입니다. 1. 이미지 resize 이미지를 resize 해줌과 동시에 label도 갱신해줘야 합니다. import..

[논문 읽기] Feature Pyramid Net, FPN(2017) 리뷰

FPN, Feature Pyramid Networks for Object Detection 논문을 읽어보고, 내용을 정리한 포스팅입니다. Abstract 스케일 불변성(scale-invariance)를 얻기 위해 Feature Pyramids를 사용하는 것은 필수적입니다. 하지만 Feature Pyramids는 많은 연산량과 메모리가 필요하여, detection 속도가 느려지는 문제점이 있습니다. 이를 개선하기 위해 제안된 방법이 FPN입니다. FPN을 Faster R-CNN에 사용하여 최고 성능을 얻었습니다. Different Architectures for Detection object detection 방법은 image를 CNN에 전달시켜 생성된 feature map을 이용합니다. 이미지의 해상도가..

반응형