논문 읽기/Image Processing

[논문 읽기] PWC-Net(2017), CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume

AI 꿈나무 2021. 10. 1. 21:28
반응형

PWC-Net, CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume

 PDFOptical Flow, Deqing Sun, Xiaodong Yang, Ming-Yu Liu, Jan Kautz, arXiv 2017

 

GIST 컴퓨터 비전 과제로 제출한 결과물 입니다.

Summary

 


 해당 논문은 Optical Flowprediction 하기 위한 딥러닝 모델입니다. 위 그림을 보면 빠른 running time, 적은 파라미터 수로 낮은 error를 달성하는 것을 살펴볼 수 있는데, 그 만큼 효과적인 모델을 제안합니다.

 

 

 저자의 아이디어는 고전적인 optical flow 알고리즘의 세 가지 원칙을 CNN 모델에 적용하는 것입니다. 세 가지 원칙은 (1) pyramidal processing, (2) warping, (3) cost volume 인데, 이를 적용하여 model size를 감소할 뿐만 아니라 성능 또한 증가합니다. 이 세 가지 원칙을 어떻게 구현했는지 살펴보겠습니다.

 

1. Learnable feature pyramids

 Raw image는 빛 변화와 그림자에 의해 variant 하기 때문에 learnable feature pyramids를 사용합니다. 두 개의 입력 이미지가 주어지면 Conv layer를 사용하여 down-sampling을 하면서 feature representationL-level pyramid를 형성합니다.

 

2. Warping layer

 이전 levelpyramid로부터의 flowupsampling 하여 두 번째 image에 더해주어 warp을 합니다. Warping operationlarge motion을 추정하고 geometric distortion을 보상할 수 있습니다.

 

3. Cost volume layer

 다음 frame에 해당하는 pixel과 관련된 pixel을 위한 matching costs를 저장하는 cost volume을 만듭니다. Cost volumeraw image보다 더 discriminative representation 정보를 갖고 있습니다. Cost volume을 만들기 위해 첫 번째 이미지의 feature와 두 번째 이미지의 feature 사이의 correlation을 계산합니다.

 

 

4. Optical flow estimator

 Optical flow estimator는 첫 번째 이미지, cost volume, upsampled flow를 입력 받아서 피라미드의 각 leveloptical flow를 예측합니다.

 

5. Context network

 Context network를 사용하여 Optical flow 정제합니다. 고전적인 방법에서 optical flow를 후처리 하기 위해 median filtering 같은 방법을 사용하는데 context network는 이에 해당합니다. 아마 multi-level에서 생성한 optical flow를 하나로 합쳐주는 역할을 하지 않나 싶네요.

 

6. Training Loss

 Loss는 FlowNet에서 제안된 loss를 약간 수정하여 사용합니다.

반응형