논문 읽기/Classification

[논문 읽기] SENet(2018) 리뷰, Squeeze-and-Excitation Networks

AI 꿈나무 2021. 3. 20. 22:30
반응형

 이번에 읽어볼 논문은 SENet, Squeeze-and-Excitation Networks 입니다.

 

 SENet은 ILSVRC 2017에서 1등을 한 모델입니다.

 

출처 : https://bskyvision.com/425

 

 SENet은 채널간의 상호작용에 집중하여 성능을 끌어올린 모델입니다. 채널 간의 상호작용은 가중치로 생각해볼 수 있습니다. 가중치가 큰 채널은 중요한 특징을 담고있다는 의미로 해석할 수 있습니다. 피쳐맵의 각 채널마다 가중치를 부여하여 피쳐맵의 각 채널에 곱합니다. 즉, SENet은 채널 간의 가중치를 계산하여 성능을 끌어올린 모델로 생각해 볼 수 있습니다. 이제 이 가중치를 어떻게 계산하는지 알아보도록 하겠습니다.

 

 

 위 그림은 SB Block(Squeeze(압축) + Excitation(재조정))을 통해 채널별 가중치를 계산하고 피쳐맵에 곱해지는 모습을 나타냅니다. 색으로 표현된 가중치가 피쳐맵과 곱해져 피쳐맵의 색도 바뀌었네요ㅎㅎ 

SE Block

 SENet은 SE Block을 활용하는 모델입니다. SE Block은 CNN 기반 모델에 부착하여 사용합니다. residual 모델 또는 Inception 모델과 함께 사용할 수 있습니다. 또한 VGGnet에도 부착하여 사용할 수 있습니다. 이처럼 SE Block은 유연성을 지니고 있습니다. 재밌는 점은 low-level에서 SE Block은 클래스 상관없이 중요한 특징을 추출하고, High-level에서는 클래스와 관련있는 특징들을 추출한다네요.

 

 SE Block을 살펴보겠습니다. SE Block은 Squeeze(압축), Excitation(재조정) 두 과정으로 구성됩니다

 

출처: https://wolfy.tistory.com/246

 

(1) Squeeze(압축)

 각 채널별 가중치를 계산하기 위해서는 우선, 각 채널을 1차원으로 만들어야 합니다. 예를 들어, 3채널이 있으면 [0.6, 0.1, 0.7]로 표기를 해야 가중치를 나타낼 수 있습니다. Squeeze는 각 채널을 1차원으로 만드는 역할(압축)을 합니다.

 

 

 Squeeze는 conv 연산을 통해 생성된 피쳐맵을 입력으로 받습니다. HxWxC 크기의 피쳐맵을 global average pooling 연산을 통해 (1x1xC)로 압축합니다. 피처맵의 한 채널에 해당하는 픽셀 값을 모두 다 더한 다음에, HXW로 나누어 1x1x1로 압축합니다. 피쳐맵은 C개의 채널을 갖고 있으므로 다 연결하면 (1x1xC)가 됩니다.

 

 생성된 (1x1xC) 벡터는 Excitation으로 전달됩니다.

(2) Excitation(재조정)

  Excitation은 Squeeze에서 생성된 (1x1xC)벡터를 정규화하여 가중치를 부여하는 역할을 합니다.

 

 Excitation은 FC1 - ReLU - FC2 - Sigmoid로 구성됩니다. FC1에 (1x1xC)백터가 입력되어, C 채널을 C/r개 채널로 축소합니다. r은 하이퍼파라미터 입니다. 연산량 제한과 일반화효과 떄문에 bottleneck 구조를 선택했다고 하네요. C/r개 채널로 축소되어 (1x1xC/r)가 된 벡터는 ReLU로 전달되고, FC2를 통과합니다. FC2는 채널 수를 다시 C로 되돌립니다. 그리고 Sigmoid를 거쳐서 [0~1) 범위의 값을 지니게 됩니다. 마지막으로, 피쳐맵과 곱해져 피쳐맵의 채널에 가중치를 가합니다. 

 

SENet

 SENet 구조입니다. ResNext-50에 부착하여 사용되었네요.

 

Experiment

 여러 모델에 SE Block을 부착했을 때와 부착하지 않았을 때의 성능을 비교합니다.

 

 ShuffleNet과 MobileNet에 SE block을 사용한 결과입니다.

 

 state-of-the-art와 SENet 비교입니다. SENet의 backbone은 ResNext를 사용했습니다.

 


참고자료 및 그림 출처

[1] arxiv.org/pdf/1709.01507.pdf

[2] wolfy.tistory.com/246

반응형