반응형

논문 읽기/Object Detection 40

[논문 읽기] Cascade R-CNN(2018), Delving into High Quality Object Detection

안녕하세요! 이번에 읽어볼 논문은 Cascade R-CNN, Delving into High Quality Object Detection 입니다. Object Detection을 수행할 때, IoU는 RPN에서 생성한 region proposals가 positive인지 negative인지 결정하는 하이퍼 파라미터로 이용합니다. 일반적으로 낮은 IoU를 설정하면 detection 바운딩 박스 위치 결과값이 부정확하고, 높은 IoU를 설정하면, 바운딩 박스 위치 결과값이 정확한 대신에 detection의 전체 성능이 감소합니다.(많은 proposals를 검출하지 못하기 때문에, recall이 감소해 AP가 감소합니다.) 이처럼 IoU는 detection의 성능에 큰 영향을 미칩니다. Cascade R-CNN..

[논문 읽기] CoupleNet(2017), Coupling Global Structure with Local Parts for Object

안녕하세요! 거의 한달 만에 논문을 읽어보네요..ㅎㅎ 그동안 다른 공부를 하느라 논문 읽기에 소흘했었습니다! 다시 열심히 논문을 읽도록 하겠습니다ㅎㅎ! 이번에 읽어볼 논문은 Object Detection 분야에서 2017년에 제안된 CoupleNet입니다! 2017년까지 Object Detection의 발전 방향을 보면, Faster R-CNN과 R-FCN이 좋은 결과를 성취합니다. CoupleNet은 R-FCN에서 제안하는 position-sensitive RoI Pooling(PSRoI)의 문제점을 지적합니다. PSRoI는 region proposals에서 local 정보를 활용하여 성능을 향상시키지만, 이는 Global 정보와 context를 훼손시킨다고 말합니다. CoupleNet은 local과 ..

[논문 읽기] DCN(2017) 리뷰, Deformable Convolution Networks

안녕하세요! 이번에 읽어볼 논문은 DCN, Deformable Convolution Networks 입니다! DCN은 (1) deformable convolution, (2) deformable RoI pooling 두 가지 방법을 제시합니다. 기존 CNN 구조 모델은 고정된 구조만을 사용했었습니다. 예를 들어, 3x3 conv filter를 사용하면 3x3 수용 영역에서만 특징을 추출하는 것입니다. 이 경우에 translation-invariance가 생겨 object detection과 segmentation에 안좋은 영향을 줍니다. 이 논문은 고정된 수용 영역에서만 특징을 추출하는 것이 아니라, 좀 더 flexible한 영역에서 특징을 추출하는 방법을 제안합니다. 즉, 피쳐맵에서 규직적인 grid ..

[논문 읽기] RON(2017) 리뷰, Reverse Connection with Objectness Prior Networks for Object Detection

안녕하세요! 이번에 읽어볼 논문은 RON, Reverse Connection with Objectness Prior Networks for Object Detection 입니다. RON은 (1) multi-scale object localization을 위해 reverse connection과 (2) object와 non-object 사이의 불균형을 개선하기 위한 objectness prior을 제안합니다. 즉, object detection의 고질적인 문제인 작은 객체를 탐지하는 것의 어려움을 reverse connection을 통해 해결하고, 소수의 anchor box에만 object가 할당되어 발생하는 positive, negative sample의 불균형 문제를 objectness prior로 해..

[논문 읽기] R-FCN(2016) 리뷰, Object Detection via Region-based Fully Convolutional Networks

이번에 읽어볼 논문은 R-FCN, Object Detection via Region-based Fully Convolutional Networks 입니다. R-FCN은 position-sensitive score map를 제안합니다. 이 position-sensitive score map은 classification에서의 translation-invariance와 object detection에서의 translation-variance 사이의 딜레마를 해결하기 위해 제안되었습니다. translation-invariance vs translation-variance Classification에서는 translation-invariance가 중요합니다. 이미지 내에서 물체의 위치와 관계없이 class만을 예..

[논문 읽기] DSSD(2017) 리뷰, Deconvolutional Single Shot Detector

안녕하세요! 이번에 읽어볼 논문은 DSSD, Deconvolutional Single Shot Detector 입니다. DSSD는 SSD에 세 가지 변화를 주었습니다. 첫 번째는 base network를 VGG가 아닌 ResNet-101을 사용합니다. SSD에서는 base network를 VGG를 사용했었죠. 두 번째는 SSD에 Deconvolution network을 추가합니다. 이 아이디어는 semantic segmentation 분야의 DeConvNet에서 영감을 받았다고 하네요. Deconvolution network를 사용하면 좀 더 세밀한 정보를 포착할 수 있다는 장점이 있습니다. 세 번째는 prediction layer를 수정합니다. 기존의 SDD는 conv layer로 예측을 수행했는데요...

[논문 읽기] YOLOv3(2018) 리뷰

이번에 읽어볼 논문은 'YOLOv3: An Incermetal Improvement' 입니다. YOLOv3은 YOLOv2에서 개선된 버전입니다. 예를 들어, FPN을 사용하여 multi-scale에서 feature을 추출하고, shortcut connection을 활용한 DarkNet-53, class 예측시에 softmax 대신 개별 클래스 별로 logistic regression을 사용합니다. 기본 작동방식은 YOLOv2와 동일하므로 YOLOv2 논문을 읽고, YOLOv3을 살펴보는 것을 추천드립니다. 큰 변화가 일어나지 않았으며, YOLOv2에 최신 기법을 적용하여 성능을 끌어올렸습니다. YOLov3의 성능입니다. RetinaNet 논문에서 사용한 figure에서 YOLOv3을 추가했습니다. YOL..

[논문 읽기] RetinaNet(2017) 리뷰, Focal Loss for Dense Object Detection

RetinaNet 논문은 모델이 예측하기 어려운 hard example에 집중하도록 하는 Focal Loss를 제안합니다. ResNet과 FPN을 활용하여 구축된 one-stage 모델인 RetinaNet은 focal loss를 사용하여 two-stage 모델 Faster R-CNN의 정확도를 능가했습니다. 클래스 불균형 문제(Class imbalance proplem) R-CNN과 같은 two-stage detector이 one-stage detector보다 높은 정확도를 나타내는 것은 일반적입니다. 하지만 one-stage detector(YOLO, SSD)는 속도가 빠르다는 장점이 있습니다. RetinaNet 저자는 one-stage detector의 낮은 정확도의 원인은 객체와 배경 클래스 불균형..

[논문 읽기] OHEM(2016) 리뷰, Training Region-based Object Detectors with Online Hard Example Mining

안녕하세요! 이번에 읽어볼 논문은 OHEM, Training Region-based Object Detectors with Online Hard Example Mining 입니다. 모델 구조를 개선시켜 성능을 향상시킨 논문이 아니라, 샘플링 방법을 개선하여 모델의 성능을 향상시킨 논문입니다. RetinaNet 논문을 읽다가 OHEM에 대한 내용이 이해가 안되서 OHEM을 읽어보게 되었네요ㅎㅎ Summary Fast R-CNN에서 mini-batch를 구성할 때, 두개의 이미지에서 각각 64개의 RoI를 positive, negative 1:3 비율로 샘플링하여 총 128개 RoI로 mini-batch를 구성합니다. OHEM은 loss가 높은 RoI를 선별하여 negative sample를 샘플링하는 알고..

[논문 읽기] Feature Pyramid Net, FPN(2017) 리뷰

FPN, Feature Pyramid Networks for Object Detection 논문을 읽어보고, 내용을 정리한 포스팅입니다. Abstract 스케일 불변성(scale-invariance)를 얻기 위해 Feature Pyramids를 사용하는 것은 필수적입니다. 하지만 Feature Pyramids는 많은 연산량과 메모리가 필요하여, detection 속도가 느려지는 문제점이 있습니다. 이를 개선하기 위해 제안된 방법이 FPN입니다. FPN을 Faster R-CNN에 사용하여 최고 성능을 얻었습니다. Different Architectures for Detection object detection 방법은 image를 CNN에 전달시켜 생성된 feature map을 이용합니다. 이미지의 해상도가..

반응형