반응형

논문 107

[논문 리뷰] SPPnet (2014) 리뷰, Spatial Pyramid Pooling Network

이번에 리뷰할 논문은 SPPnet 'Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition' 입니다. SPPnet 등장 배경 SPPnet은 CNN 구조가 고정된 입력 이미지 크기를 입력으로 취하는 데에서 발생한 문제점을 개선하기 위해 고안되었습니다. 기존 CNN은 고정된 입력 크기를 맞춰주기 위해서 crop, wrap을 적용합니다. 참고로, crop과 warp은 classification에서는 data augmentation, detection에서는 region proposal을 입력 사이즈에 맞춰주기 위해 이용합니다. crop과 warp을 적용하면 문제점이 발생합니다. crop을 적용하면 crop된 구역만 CNN을 통과..

[논문 리뷰] YOLO v2 (2017) 리뷰

이번에 소개할 논문은 'YOLO9000: Betterm Faster, Stronger' 입니다. 논문에서는 YOLO v2와 YOLO9000을 소개하고 있습니다. YOLO v2는 YOLO v1을 개선한 버전이고, YOLO9000은 9000개의 카테고리를 탐지할 수 있도록 학습된 신경망입니다. YOLO9000는 classification dataset 'ImageNet'과 detection dataset 'COCO' 를 동시에 학습시켰습니다. 어떤 방법으로 학습을 시켰고, YOLO v1에서 어떤 점을 개선시켰는지 알아보도록 하겠습니다. 논문은 3가지 파트로 나뉘어져 있습니다. Better : YOLO v1에서 개선된 내용 Faster : YOLO v2의 신경망인 Darknet-19 Stronger : 900..

[논문 리뷰] YOLO v1 (2016) 리뷰

이번에 리뷰할 논문은 'You Only Look Once: Unified, Real-Time Object Detection' 입니다. Deep Learning을 이용한 object detection 접근법은 크게 두 가지로 나눠볼 수 있습니다. Object Detection의 두 가지 접근법 1. 2-stage Detector 2-stage Detector은 특징 추출과 객체 분류, 두 가지 과정을 거쳐 객체를 탐지합니다. 특징 추출과 객체 분류라는 두 가지 문제를 순차적으로 해결하는 것입니다. 역할을 분담하여 문제를 처리하므로 정확도는 높지만, 속도가 느리다는 단점이 있습니다. 2-stage Detector에는 대표적으로 Fast R-CNN, OverFeat, DPM 등이 있습니다. 논문에서 2-sta..

[논문 리뷰] 배치 정규화, Batch Normalization(2015)

안녕하세요! 이번에 리뷰할 논문은 'Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift' 입니다! 배치 정규화는 2015년에 제안된 방법입니다. 배치 정규화는 많은 사람들이 사용하고 있으며, 주목 받는 이유는 다음과 같습니다. 학습을 빠르게 진행할 수 있습니다.(높은 학습률을 적용 가능합니다) 초깃값에 크게 의존하지 않습니다.(초깃값 선택 장애를 개선했습니다) 오버피팅을 억제합니다.(드랍아웃의 필요성을 감소했습니다.) 비선형 함수(sigmoid 등)을 이용할 때, saturated regime(기울기가 0인 부분)에 빠지는 것을 방지합니다. 따라서 기울기 소실과 saturation probl..

[논문 리뷰] R-CNN (2013) 리뷰

안녕하세요! 2021년이 시작함과 동시에 Object detection 논문을 읽게 되었습니다. 첫 번째로 읽어볼 논문은 R-CNN 'Rich feature hierarchies for accurate object detection and semantic segmentation' 입니다. R-CNN은 region proposals와 CNN이 결합된 Regions with CNN의 약자입니다. R-CNN이 등장하기 전 HOG와 SHIFT를 활용한 Object detection 성능은 몇년 동안 정체되어 있었습니다. R-CNN은 이전까지 최고의 성능을 나타낸 기법의 mAP보다 30% 높은 53.3%를 달성하여 detection 분야에 새로운 방향을 제시하게 됩니다. (object detection의 성능 평..

[논문 리뷰] GoogLeNet (2014) 리뷰와 파이토치 구현

공부 목적으로 논문을 읽어보고 요약한 뒤에 파이토치로 구현해보았습니다 이번에 공부할 논문은 'Going deeper with convolutions' (GoogLeNet)입니다. LeNet-5를 시작으로 CNN은 이미지 분류에서 일반적인 구조가 되었습니다. CNN 구조에 dropout, pooling, ReLu, GPU 기법이 적용된 AlexNet이 ILSVRC 2012년 대회에서 우승을 차지하고 CNN을 세상에 알리게 됩니다(이전까진 머신러닝 기법이 대회를 우승했습니다). 2년 뒤 Inception block을 적용한 CNN 모델인 GoogLeNet이 ILSVRC 2014년 대회에서 우승을 차지하게 됩니다. GoogLeNet을 우승으로 이끈 Inception block에 대해 알아보고, 추가적으로 적용..

[논문 리뷰] LeNet-5 (1998), 파이토치로 구현하기

가장 기본적인 CNN 구조인 LeNet-5 논문을 읽어보고 파이토치로 직접 구현해보면서 CNN에 대한 이해도를 높여보겠습니다. LeNet-5은 1998년 Yann LeCun의 논문 'Gradient-Based Learning Applied to Document Recognition' 에 담겨있는 CNN 신경망의 구조를 의미합니다. 위 논문은 46page에 달하는 논문으로 문자 인식 업무에 CNN이 효과적인 이유에 대해 기술되어 있어, 읽어본다면 CNN에 대한 이해도를 높일 수 있을 것이라고 생각 합니다. 이제, 논문을 요약해보고 PyTorch로 구현해보겠습니다. 1. LeNet-5 등장 배경 LeNet-5은 Yann LeCun이 손으로 적힌 우편 번호를 전통적인 방법보다 효율적으로 확인하기 위해 고안된 ..

반응형