논문 읽기/Zero shot

[논문 읽기] Consistent Structural Relation Learning for Zero-Shot Segmentation(2020)

AI 꿈나무 2021. 10. 15. 22:22
반응형

Consistent Structural Relation Learning for Zero-Shot Segmentation

 PDFZero-Shot Segmentation, Peike et al, neurips 2020

 

Summary

 

 seen과 unseen 사이의 structural relation을 사용하여 생성된 unseen visual feature를 제한한다. seen과 unseen에 대한 word embedding이 갖고 있는 관계 정보를 이용하여 unseen 을 제한한다면, generator는 더 좋은 unseen visual feature를 생성할 것이다.

 

 

Generator

 generator는 생성모델이 아니라 L개의 layer로 이루어져 있다. 그래프 구조를 사용하여 word embedding의 structural relation을 생성된 visual feature로 전이한다.

 

 그래프 초기값은 다음과 같다. a는 word embedding, z는 random noise

 

node
edge

 

 이 node와 edge가 L개의 layer를 거쳐서 학습되는 과정이다. 마지막 레이어의 출력 노드는 생성된 visual feature가 된다.

 

 feature aggregation과 relation aggregation으로 이루어져 있다.

 

 feature aggregation은 prototype을 생성하는데 category에 해당하는 모든 sample의 노드(visual feature)의 평균으로 계산된다.

 

 

 각 레이어를 거치면서 노드는 다음과 같이 갱신된다.

 

 

 relation aggregation은 edge를 업데이트 한다.

 

 

 마지막 레이어의 출력 노드가 생성된 visual feature가 된다.

 

 지금까지 generator를 살펴보았고 앞으로 어떻게 structural relation을 이용하여 generator를 제한하는지 살펴본다.

 

loss

 loss는 3가지 term으로 구성된다

 

 point-wise consistency는 seen categories 사이의 real visual feature와 generated visual feature의 분포가 같아지도록 한다.

 

 

 pair-wise consistency는 seen과 unseen 사이의 관계를 추출하여 semantic space와 visual feature space 사이의 pair-wise relation consistency를 유지시킨다.

 

 relation matrix를 추출해야하는데 generator의 첫 번째 레이어와 마지막 레이어의 relation matrix를 추출해서 KL divergence로 loss를 가한다.

 

 

 list-wise consistency는 이해를 잘 못했다. 관계 사이의 ranking이 존재하는데 이 정보를 주입하는 거 같다

 

 


my github

 

Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch

공부 목적으로 논문을 리뷰하고 해당 논문 파이토치 재구현을 합니다. Contribute to Seonghoon-Yu/Paper_Review_and_Implementation_in_PyTorch development by creating an account on GitHub.

github.com

 

반응형