반응형

논문 읽기 255

[논문 읽기] WRN(2016) 리뷰, Wide Residual Networks

이번에 읽어볼 논문은 WRN, Wide Residual Networks 입니다. WRN은 residual netowrk의 넓이를 증가시키고 깊이를 감소시킨 모델입니다. 16 layer로 이루어진 WRN은 1000-layer ResNet 같은 깊은 신경망을 제치고 SOTA를 달성했습니다. 신경망의 넓이를 증가한다는 의미는 filter수를 증가시킨다는 것을 의미합니다. 즉, WRN은 residual block을 구성하는 convolution layer의 filter 수를 증가시켜서 신경망의 넓이를 증가시켰습니다. 등장 배경 지금까지, CNN은 깊이를 증가시키는 방향으로 발전해왔습니다. 예를 들어, AlexNet, VGG, Inception, ResNet과 같은 모델이 있습니다. 모델의 깊이가 깊어지는 만큼 ..

[논문 읽기] Inception-v3(2015) 리뷰, Rethinking the Inception Architecture for Computer Vision

이번에 읽어볼 논문은 Rethinking the Inception Architecture for Computer Vision 입니다. 본 논문에서는 Inception-v2와 Inception-v3을 소개합니다. 일반적으로, 모델 크기를 증가시키면 정확도와 연산량이 증가합니다. 예를들어, ResNet은 skip connection을 활용해서 모델의 깊이를 증가시켜 성능을 끌어올렸습니다. 하지만 깊어진 만큼 연산량이 많아져 학습하는데에 시간이 오래 걸립니다. 이처럼 모델 크기를 증가시키면 연산량이 증가하게 되는데, 이는 mobile이나 제한된 메모리에서 활용해야 할때, 단점으로 작용합니다. 저자는 convolution 분해를 활용해서 연산량이 최소화 되는 방향으로 모델의 크기를 키우는데 집중합니다. 그리고 ..

[논문 읽기] Pre-Activation ResNet(2016) 리뷰, Identity Mappings in Deep Residual Networks

이번에 소개할 논문은 Pre-Activation ResNet, Identity Mappings in Deep Residual Networks 입니다. ResNet은 skip connection을 활용해 신경망이 수렴이 잘 되도록 하여 층을 깊게 쌓아 정확도를 높인 모델입니다. Pre-Activation ResNet은 기존의 residual block 구조에 활성화 함수의 순서를 바꿔 성능을 끌어올렸습니다. 입력값을 BN과 활성화 함수를 거친 뒤에 convolution layer에 전달한 것입니다. 아래 그림에서 기존 residual block과 pre-activation residual block을 확인할 수 있습니다. 학습곡선에서 점선은 training loss, 굵은 선은 test error 입니다...

[논문 읽기] YOLOv3(2018) 리뷰

이번에 읽어볼 논문은 'YOLOv3: An Incermetal Improvement' 입니다. YOLOv3은 YOLOv2에서 개선된 버전입니다. 예를 들어, FPN을 사용하여 multi-scale에서 feature을 추출하고, shortcut connection을 활용한 DarkNet-53, class 예측시에 softmax 대신 개별 클래스 별로 logistic regression을 사용합니다. 기본 작동방식은 YOLOv2와 동일하므로 YOLOv2 논문을 읽고, YOLOv3을 살펴보는 것을 추천드립니다. 큰 변화가 일어나지 않았으며, YOLOv2에 최신 기법을 적용하여 성능을 끌어올렸습니다. YOLov3의 성능입니다. RetinaNet 논문에서 사용한 figure에서 YOLOv3을 추가했습니다. YOL..

[논문 읽기] RetinaNet(2017) 리뷰, Focal Loss for Dense Object Detection

RetinaNet 논문은 모델이 예측하기 어려운 hard example에 집중하도록 하는 Focal Loss를 제안합니다. ResNet과 FPN을 활용하여 구축된 one-stage 모델인 RetinaNet은 focal loss를 사용하여 two-stage 모델 Faster R-CNN의 정확도를 능가했습니다. 클래스 불균형 문제(Class imbalance proplem) R-CNN과 같은 two-stage detector이 one-stage detector보다 높은 정확도를 나타내는 것은 일반적입니다. 하지만 one-stage detector(YOLO, SSD)는 속도가 빠르다는 장점이 있습니다. RetinaNet 저자는 one-stage detector의 낮은 정확도의 원인은 객체와 배경 클래스 불균형..

[논문 읽기] OHEM(2016) 리뷰, Training Region-based Object Detectors with Online Hard Example Mining

안녕하세요! 이번에 읽어볼 논문은 OHEM, Training Region-based Object Detectors with Online Hard Example Mining 입니다. 모델 구조를 개선시켜 성능을 향상시킨 논문이 아니라, 샘플링 방법을 개선하여 모델의 성능을 향상시킨 논문입니다. RetinaNet 논문을 읽다가 OHEM에 대한 내용이 이해가 안되서 OHEM을 읽어보게 되었네요ㅎㅎ Summary Fast R-CNN에서 mini-batch를 구성할 때, 두개의 이미지에서 각각 64개의 RoI를 positive, negative 1:3 비율로 샘플링하여 총 128개 RoI로 mini-batch를 구성합니다. OHEM은 loss가 높은 RoI를 선별하여 negative sample를 샘플링하는 알고..

[논문 읽기] Feature Pyramid Net, FPN(2017) 리뷰

FPN, Feature Pyramid Networks for Object Detection 논문을 읽어보고, 내용을 정리한 포스팅입니다. Abstract 스케일 불변성(scale-invariance)를 얻기 위해 Feature Pyramids를 사용하는 것은 필수적입니다. 하지만 Feature Pyramids는 많은 연산량과 메모리가 필요하여, detection 속도가 느려지는 문제점이 있습니다. 이를 개선하기 위해 제안된 방법이 FPN입니다. FPN을 Faster R-CNN에 사용하여 최고 성능을 얻었습니다. Different Architectures for Detection object detection 방법은 image를 CNN에 전달시켜 생성된 feature map을 이용합니다. 이미지의 해상도가..

[논문 읽기] SSD(2016) 리뷰, Single Shot MultiBox Detector

SSD: Single Shot MultiBox Detector 논문을 읽어보고 정리했습니다. Faster R-CNN은 region proposal network(RPN)을 사용하여 객체가 있을 법한 구역(300개)를 제안하고, detection network를 통해 각 구역의 객체를 검출합니다. 2가지 과정을 걸쳐서 object detection이 수행되며, 이를 2-stage라고 합니다. SSD는 region proposal 과정을 제거하여 1-stage 방식으로 객체를 검출합니다. 이미지를 CNN 모델에 전달하면 객체를 검출할 수 있는 것입니다. 따라서, SSD는 2-stage 방식보다 더 빠릅니다. SSD300은 74.3% mAP, 59FPS 성능으로 Faster R-CNN(73.2% mAP, 7F..

[논문 읽기] ResNet(2015) 리뷰

이번에 읽어볼 논문은 ResNet, 'Deep Residual Learning for Image Recognition' 입니다. ResNet은 residual repesentation 함수를 학습함으로써 신경망이 152 layer까지 가질 수 있습니다. ResNet은 이전 layer의 입력을 다음 layer로 전달하기 위해 skip connection(또는 shorcut connection)을 사용합니다. 이 skip connection은 깊은 신경망이 가능하게 하고 ResNet은 ILSVRC 2015 우승을 했습니다. Plain Network의 문제점 Plain network는 skip/shortcut connection을 사용하지 않은 일반적인 CNN(AlexNet, VGGNet) 신경망을 의미합니다..

반응형