[논문 읽기] ResNext(2017) 리뷰, Aggregated Residual Transformations for Deep Neural Networks

논문 읽기/Classification

[논문 읽기] ResNext(2017) 리뷰, Aggregated Residual Transformations for Deep Neural Networks

AI 꿈나무 2021. 3. 18. 20:46

이번에 읽어볼 논문은 Aggregated Residual Transformations for Deep Neural Networks 입니다.

ResNext는 ILSVRC 2016 대회에서 2등을 차지한 모델입니다. 1등 팀인 Trimps-Soushen은 Inception-v3, Inception-v4, Inception-ResNet-v2, ResNet-200, WRN-68-3 5가지 모델을 적절히 양상블하여 1위를 달성했다고 하네요. 3등은 다음 포스팅에서 리뷰할 PolyNet입니다.

ResNext

ResNext는 ResNet의 bottle neck을 아래 그림과 같이 수정한 것입니다.

왼쪽은 ResNet의 BottleNeck이고, 오른쪽은 ResNext의 BottleNeck 입니다. ResNext의 BottleNeck 연산과정을 살펴보겠습니다.

256 채널의 입력값이 BottleNeck으로 전달되고 1x1 conv를 거쳐서 128개의 채널을 갖습니다. 여기서 128개의 채널을 32개의 그룹으로 분할하여 각 그룹당 4개(128/32)의 채널이 됩니다. 그리고 32개의 conv는 4개의 채널 입력값에 대해서만 연산을 수행하여 4채널의 피쳐맵을 생성합니다. 32개의 그룹에서 생성한 4개의 피쳐맵을 연결(concatenate)하여 128개의 채널을 만듭니다. 다음에 1x1 conv를 거쳐서 256개의 채널이 됩니다. 그리고 이 32는 cardinality라는 하이퍼파라미터로 조절 가능한 변수입니다.

왜 이렇게 변경했을까요??

논문에서는 이 방식을 Grouped convolution이라고 합니다. VGGnet에서 GPU의 한계로인해 신경망의 채널 수를 두 개로 쪼개서 2개의 GPU로 연산했었습니다. 이렇게 연산을 했더니 아래 그림과 같이 서로 다른 특징(흑백, 컬러)에 집중하여 학습이 되었습니다. 그리고 이는 모델의 성능을 향상시켰습니다.

BottleNeck에 Grouped convolution을 적용하였더니 마찬가지로 성능이 향상되었습니다. 저자는 cardinality를 증가시키는 것이 넓이(채널 수)나 깊이를 증가시키는 것보다 효과적이라고 합니다. 그리고 여러가지 실험을 합니다.

Cardinality vs Width

Cardinality는 채널 수를 몇 개의 그룹으로 분할하는지를 조절하는 하이퍼파라미터입니다. Width는 채널 수를 의미합니다. WRN(wide residual network)에서 모델의 width를 증가시키면 성능이 향상된다는 것을 밝혀냈습니다. ResNext에서는 Width보다 Cardinality를 증가시키는 것이 더 효율적이라고 합니다. 효율적이라는 말은 동일한 파라미터 수를 갖지만 더 좋은 성능을 나타내는 것을 의미합니다.

아래 표를 살펴보면 d는 각 그룹의 width(채널 수)를 의미합니다. 32(=cardinality)개의 그룹으로 나눠서 각 그룹이 4개의 채널(=width)을 갖도록 했더니 성능향상이 있었습니다.

Increasing Cardinality vs Deeper/Wider

모델의 깊이나 넓이를 증가시키는 것보다 Cardinality를 증가시키는 것이 더 효율적입니다.

ResNet-200보다, ResNet-101 wider의 성능이 더 좋고, ResNet-101 wider보다 ResNext-101의 성능이 더 좋습니다. 이 표를 통해 성능 향상은 cardinality > width > deep 인것을 확인할 수 있습니다.

ResNext Architecture

ResNext는 수정된 bottleneck으로 구성된 ResNet입니다.

Comparisions with state-of-the-art result

최신 모델과의 성능 비교입니다.

참고자료

[1] arxiv.org/abs/1611.05431

[2] towardsdatascience.com/review-resnext-1st-runner-up-of-ilsvrc-2016-image-classification-15d7f17b42ac

[3] hoya012.github.io/blog/deeplearning-classification-guidebook-3/

'논문 읽기 > Classification' 카테고리의 다른 글

[논문 읽기] Residual Attention Network(2017) 리뷰 (0)	2021.03.19
[논문 읽기] PolyNet(2017) 리뷰, PolyNet: A Pursuit of Structural Diversity in Very Deep Networks (0)	2021.03.19
[논문 읽기] MobileNet(2017) 리뷰, Efficient Convolutional Neural Networks for Mobile Vision Applications (0)	2021.03.18
[논문 읽기] Xception(2017) 리뷰, Deep Learning with Depthwise Separable Convolutions (1)	2021.03.17
[논문 읽기] DenseNet(2017) 리뷰, Densely Connected Convolutional Networks (1)	2021.03.17

현재글[논문 읽기] ResNext(2017) 리뷰, Aggregated Residual Transformations for Deep Neural Networks

딥러닝 공부방