PWC-Net, CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume
PDF, Optical Flow, Deqing Sun, Xiaodong Yang, Ming-Yu Liu, Jan Kautz, arXiv 2017
GIST 컴퓨터 비전 과제로 제출한 결과물 입니다.
Summary
해당 논문은 Optical Flow를 prediction 하기 위한 딥러닝 모델입니다. 위 그림을 보면 빠른 running time, 적은 파라미터 수로 낮은 error를 달성하는 것을 살펴볼 수 있는데, 그 만큼 효과적인 모델을 제안합니다.
저자의 아이디어는 고전적인 optical flow 알고리즘의 세 가지 원칙을 CNN 모델에 적용하는 것입니다. 세 가지 원칙은 (1) pyramidal processing, (2) warping, (3) cost volume 인데, 이를 적용하여 model size를 감소할 뿐만 아니라 성능 또한 증가합니다. 이 세 가지 원칙을 어떻게 구현했는지 살펴보겠습니다.
1. Learnable feature pyramids
Raw image는 빛 변화와 그림자에 의해 variant 하기 때문에 learnable feature pyramids를 사용합니다. 두 개의 입력 이미지가 주어지면 Conv layer를 사용하여 down-sampling을 하면서 feature representation의 L-level pyramid를 형성합니다.
2. Warping layer
이전 level의 pyramid로부터의 flow를 upsampling 하여 두 번째 image에 더해주어 warp을 합니다. Warping operation은 large motion을 추정하고 geometric distortion을 보상할 수 있습니다.
3. Cost volume layer
다음 frame에 해당하는 pixel과 관련된 pixel을 위한 matching costs를 저장하는 cost volume을 만듭니다. Cost volume은 raw image보다 더 discriminative representation 정보를 갖고 있습니다. Cost volume을 만들기 위해 첫 번째 이미지의 feature와 두 번째 이미지의 feature 사이의 correlation을 계산합니다.
4. Optical flow estimator
Optical flow estimator는 첫 번째 이미지, cost volume, upsampled flow를 입력 받아서 피라미드의 각 level의 optical flow를 예측합니다.
5. Context network
Context network를 사용하여 Optical flow 정제합니다. 고전적인 방법에서 optical flow를 후처리 하기 위해 median filtering 같은 방법을 사용하는데 context network는 이에 해당합니다. 아마 multi-level에서 생성한 optical flow를 하나로 합쳐주는 역할을 하지 않나 싶네요.
6. Training Loss
Loss는 FlowNet에서 제안된 loss를 약간 수정하여 사용합니다.