반응형

논문 읽기 255

[논문 읽기] Faster R-CNN (2015) 리뷰

이번에 읽어볼 논문은 'Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks' 입니다. Fast R-CNN과 R-CNN에서 region proposals는 selective search로 생성되었습니다. Faster R-CNN에서는 region proposals를 생성하는 작업과 object detection이 동일한 CNN에서 수행됩니다. 즉, region proposal을 생성하는 알고리즘과 detection 알고리즘이 하나로 통합된 신경망이 탄생된 것입니다. 이러한 설계 덕분에 detection 속도가 빨라지게 됩니다. Faster R-CNN은 region proposal를 생성하는 신경망인 RPN(region ..

[논문 읽기] Fast R-CNN(2014) 리뷰

Fast R-CNN Fast R-CNN은 R-CNN과 SPPnet의 단점을 개선한 모델입니다. end-to-end learning이 가능하며, 2000개의 proposals이 모두 CNN에 통과하지 않도록 구조를 개선하여 detecting 속도를 높였습니다. R-CNN 단점 1. 학습이 여러 단계로 나뉘어져 있습니다. R-CNN은 3가지 단계의 학습 과정을 거쳐야 합니다. (1) CNN fine-tuning (2) SVM fine-tuning (3) learn bounding-box regression 2. 학습하는데에 시간이 오래 걸리고 메모리 공간도 많이 차지합니다. SVM과 bounding-box regression은 각 이미지에서 각 proposal로 추출된 특징으로 학습되기 때문입니다. 3. 느..

[논문 리뷰] SPPnet (2014) 리뷰, Spatial Pyramid Pooling Network

이번에 리뷰할 논문은 SPPnet 'Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition' 입니다. SPPnet 등장 배경 SPPnet은 CNN 구조가 고정된 입력 이미지 크기를 입력으로 취하는 데에서 발생한 문제점을 개선하기 위해 고안되었습니다. 기존 CNN은 고정된 입력 크기를 맞춰주기 위해서 crop, wrap을 적용합니다. 참고로, crop과 warp은 classification에서는 data augmentation, detection에서는 region proposal을 입력 사이즈에 맞춰주기 위해 이용합니다. crop과 warp을 적용하면 문제점이 발생합니다. crop을 적용하면 crop된 구역만 CNN을 통과..

[논문 리뷰] YOLO v2 (2017) 리뷰

이번에 소개할 논문은 'YOLO9000: Betterm Faster, Stronger' 입니다. 논문에서는 YOLO v2와 YOLO9000을 소개하고 있습니다. YOLO v2는 YOLO v1을 개선한 버전이고, YOLO9000은 9000개의 카테고리를 탐지할 수 있도록 학습된 신경망입니다. YOLO9000는 classification dataset 'ImageNet'과 detection dataset 'COCO' 를 동시에 학습시켰습니다. 어떤 방법으로 학습을 시켰고, YOLO v1에서 어떤 점을 개선시켰는지 알아보도록 하겠습니다. 논문은 3가지 파트로 나뉘어져 있습니다. Better : YOLO v1에서 개선된 내용 Faster : YOLO v2의 신경망인 Darknet-19 Stronger : 900..

[논문 리뷰] YOLO v1 (2016) 리뷰

이번에 리뷰할 논문은 'You Only Look Once: Unified, Real-Time Object Detection' 입니다. Deep Learning을 이용한 object detection 접근법은 크게 두 가지로 나눠볼 수 있습니다. Object Detection의 두 가지 접근법 1. 2-stage Detector 2-stage Detector은 특징 추출과 객체 분류, 두 가지 과정을 거쳐 객체를 탐지합니다. 특징 추출과 객체 분류라는 두 가지 문제를 순차적으로 해결하는 것입니다. 역할을 분담하여 문제를 처리하므로 정확도는 높지만, 속도가 느리다는 단점이 있습니다. 2-stage Detector에는 대표적으로 Fast R-CNN, OverFeat, DPM 등이 있습니다. 논문에서 2-sta..

[논문 리뷰] 배치 정규화, Batch Normalization(2015)

안녕하세요! 이번에 리뷰할 논문은 'Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift' 입니다! 배치 정규화는 2015년에 제안된 방법입니다. 배치 정규화는 많은 사람들이 사용하고 있으며, 주목 받는 이유는 다음과 같습니다. 학습을 빠르게 진행할 수 있습니다.(높은 학습률을 적용 가능합니다) 초깃값에 크게 의존하지 않습니다.(초깃값 선택 장애를 개선했습니다) 오버피팅을 억제합니다.(드랍아웃의 필요성을 감소했습니다.) 비선형 함수(sigmoid 등)을 이용할 때, saturated regime(기울기가 0인 부분)에 빠지는 것을 방지합니다. 따라서 기울기 소실과 saturation probl..

[논문 리뷰] An overview of gradient descent optimization algorithm

안녕하세요! 이번에 리뷰할 논문은 'An overviw of gradient descent optimization' 입니다. 이 논문은 독자에게 optimization algorithm에 대한 직관력을 제공할 목적으로 작성했다고 합니다. optimization에 대해 이해도가 높아지면 설계한 모델에 적합한 algorithm을 선택할 수 있다고 합니다. 이해도를 높이기 위해, gradient descent의 3가지 변종을 살펴보고 해결해야 할 문제점을 제시하고 이 문제점을 해결하기 위해 제시된 8가지 algorithms(Adam, RMSprop, Adagad 등등)를 소개합니다. 경사 하강법(Gradient descent) 논문의 Introduction에 경사 하강법(gradient descent)에 대해..

[논문 리뷰] R-CNN (2013) 리뷰

안녕하세요! 2021년이 시작함과 동시에 Object detection 논문을 읽게 되었습니다. 첫 번째로 읽어볼 논문은 R-CNN 'Rich feature hierarchies for accurate object detection and semantic segmentation' 입니다. R-CNN은 region proposals와 CNN이 결합된 Regions with CNN의 약자입니다. R-CNN이 등장하기 전 HOG와 SHIFT를 활용한 Object detection 성능은 몇년 동안 정체되어 있었습니다. R-CNN은 이전까지 최고의 성능을 나타낸 기법의 mAP보다 30% 높은 53.3%를 달성하여 detection 분야에 새로운 방향을 제시하게 됩니다. (object detection의 성능 평..

[Object Detection] mAP(mean Average Precision)을 이해하고 파이토치로 구현하기

안녕하세요 mAP(mean Average Precision)는 Faster R-CNN, SSD와 같은 object detector의 정확도를 측정하는 유명한 평가지표 입니다. 이번 포스팅에서는 mAP가 무엇인지 알아보고 파이토치로 구현해보도록 하겠습니다. mAP를 알아보기 전에 precision(정밀도), recall(재현율), IoU(intersection of union)에 대한 개념을 알아야 합니다. Precision(정밀도)와 recall(재현율) Precision은 모델이 True라고 예측한 것 중 정답도 True인 것의 비율을 의미합니다. recall은 실제 정답이 True인 것중에서 모델이 True라고 예측한 것의 비율입니다. Precision과 recall의 공식은 다음과 같습니다. TP,..

[Object Detection] 비-최대 억제(NMS, Non-maximum Suppression)를 이해하고 파이토치로 구현하기

안녕하세요! 이번 포스팅에서는 비-최대 억제(NMS,Non-maximum Suppression)을 알아보도록 하겠습니다. 비최대 억제를 이해하기 위해서는 IoU(intersection over unio)에 대한 개념을 알아야합니다. IoU에 대한 내용은 아래 링크에 있습니다. [Object Detection] IoU(Intersection over Union)를 이해하고 파이토치로 구현하기 안녕하세요 이번 포스팅에서는 IoU에 대해 알아보도록 하겠습니다. IoU(Intersection over Union)은 무엇일까요? Intersection over Union은 object detector의 정확도를 측정하는데 이용되는 평가 지표입니다.. deep-learning-study.tistory.com 비-최..

반응형