반응형
Pyramid Scene Parsing Network
PDF, Semantic Segmentation, Hengshuan Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, Jiaya Jia, arXiv 2016
Summary
Semantic Segmentation을 위한 모델입니다.
위 그림을 보면 강가에 있는 보트를 FCN은 car로 예측한 것을 확인할 수 있습니다. 이 error의 원인을 논문은 global Context를 고려하지 않았기 때문이라고 말합니다.
이 문제를 해결하기 위해 global context를 보고 예측을 할 수 있는 모델을 제안합니다.
Pooling 연산으로 여러 크기의 feature map을 만든 후에 concat하여 global context 정보를 취합하여 prediction을 수행합니다.
4 scale pyramid를 사용하는데 image의 global, half, part 정보를 추출합니다.
논문은 추가적으로 ResNet을 optimization하는 방법을 제안합니다.
auxiliary loss를 사용하는데, 실험 결과를 보니 효과가 좋네요.
Experiment
my github
반응형