반응형

논문 읽기 255

[논문 읽기] Masked Autoencoders Are Scalable Vision Learners(2021)

Masked Autoencoders Are Scalable Vision Learners PDF, Self-supervised Learning, He, et al, arXiv 2021 Summary 이미지를 패치로 짤라서 패치의 일부분을 mask 한다. mask 되지 않은 패치를 encoder로 입력하여 latent representation을 추출한다. 이 latent representation에 mask token을 추가하여 decoder로 전달한다. decoder은 mask token을 채우는 reconstruction 태스크를 수행한다. 인코더와 디코더 각각의 입력값에 포지셔널 인코딩이 적용된다. masked patch는 제외하고 인코더로 전달하는데 이 덕분에 encoder의 연산량이 감소한다. 패..

[논문 읽기] A Generative Adversarial Approach for Zero-Shot Learning from Noisy Texts(2017)

A Generative Adversarial Approach for Zero-Shot Learning from Noisy Texts PDF, Zero-Shot Classification, Zhu et al, arXiv 2017 Summary generative based zero shot classification이다. generator이 생성한 feature은 disparse하고 cluster structure를 망가뜨린다. 그래서 visual pivot regularization을 제안한다. 위 loss를 사용하는데, train distribution에 접근할 수 없으므로 sythesized feature의 평균을 계산해서 단일 feature가 이에 가까워 지도록 한다. 또, wiki에서 긁어온 te..

[논문 읽기] Seesaw Loss for Long-Tailed Instance Segmentation(2020)

Seesaw Loss for Long-Tailed Instance Segmentation PDF, long-tail, Wang et al, arXiv 2020 Summary Instance segmentation에서 long tail distribution을 다루는 논문이다. 아이디어가 재미있다. 기존의 Cross-entropy loss에 두 가지 factor르 추가한다. mitigation factor mitigation factor는 샘플 수가 많은 head 클래스가 샘플 수가 적은 tail 클래스를 억제하는 것을 완화해준다. 이게 뭔말이냐면 head class의 샘플이 입력될때마다 이에 해당하는 loss는 tail 클래스를 억제시킨다. tail 클래스에 대한 soft max 출력값이 낮아져야 hea..

[논문 읽기] Object-Contextual Representations for Semantic Segmentation(2019)

Object-Contextual Representations for Semantic Segmentation PDF, Semantic Segmentation, Yuhui et al, arXiv 2019 Summary segmentation에서 pixel의 class는 pixel이 위치한 object class 입니다. object region 정보를 활용해서 pixel의 representation을 증가시키는 방법을 제안합니다. 즉, object region을 구성하고 각 pixel과 object region 관계를 이용하여 contextual 정보를 활용합니다. 이 OCR 모듈은 backbone network 끝 단에 추가하여 사용합니다. 우선 soft object region을 계산합니다. 이미지를 K..

[논문 읽기] Generative Moment Matching Network(2015)

Generative Moment Matching Network PDF, Generative Model, Yujia et al, arXiv 2015 Summary GAN은 generator와 discriminator 두 모델을 사용하여 minmax 손실 함수를 통해 학습이 진행됩니다. 논문에서 제안하는 GMMN은 하나의 신경망을 이용하며 Maximym Mean Discrepancy loss를 최소화하면서 학습을 진행합니다. 그러면 Maximum Mean Discrepancy loss(MMD loss)는 무엇일 까요? data sample과 generated sample 사이의 통계값이 같아지도록 학습을 진행합니다. 만약 통계값이 같다면 동일한 분포에서 추출된 샘플이라고 가정합니다. 신경망은 다음과 같이 구..

논문 읽기/GAN 2021.10.20

[논문 읽기] Zero-Shot Instance Segmentation(2021)

Zero-Shot Instance Segmentation PDF, Zero-Shot Segmentation, Ye et al, CVPR 2021 Summary 해당 논문은 zero shot instance segmentation task를 제안하는 논문이다. zero shot instance segmentation(ZSI)의 베이스 라인을 제공하고 논문에서 제안하는 방법이 zero shot object detection(ZSD)에서 SOTA 성능을 달성한다. 5가지 구성요소가 존재한다. (1) backbone, (2) BA-RPN, (3) Sync-bg, (4) zero-shot detector, (5) semantic mask head zero-shot detection RoI Align을 거쳐서 vi..

[논문 읽기] Learning unbiased zero-shot semantic segmentation networks via transductive transfer(2020)

Learning unbiased zero-shot semantic segmentation networks via transductive transfer PDF, Zero-Shot Segmentation, Haiyang et al, IEEE 2020 Summary self-traning process를 model의 prediction 값을 pseudo label로 사용하는 대신에, unseen image로 진행한다. transfuctive zero-shot은 unseen image를 사용하는 분야 중 하나이다. true image를 self-training에 사용하기 때문에 부정확한 pseudo label로 인해 발생하는 negative transfer 문제를 해결할 수 있다. source data(see..

[논문 읽기] Language-Driven Semantic Segmentation(2021)

Language-Driven Semantic Segmentation PDF, Zero-Shot Segmentation, Anonymous, ICLR 2022 open review Summary CLIP을 segmentation에 적용한 페이퍼이다. Inference시에 label를 flexible하게 넣어줄 수 있다. 즉, 이미지에서 원하는 객체만 찾을 수 있다는 말. class를 dog와 other만 넣어주면 나머지는 other로 분류한다. Text encoder은 pre-trained CLIP을 freezing하여 사용한다. image encoder은 DPT를 사용하는데 DPT는 pretrained ViT를 encoder로 사용하고 decoder DPT를 random 초기화하여 학습시킨다. text ..

[논문 읽기] Recursive Training for Zero-Shot Semantic Segmentation(2021)

Recursive Training for Zero-Shot Semantic Segmentation PDF, Zero-Shot Segmentation, Ce et al, arXiv 2021 Summary generative 방법을 사용하는 Zero shot semantic segmentation은 generator가 얼마나 unseen image를 잘 생성하는지에 따라 성능이 좌우된다. generator가 seen data로만 학습이 되기 때문에 seen에 bias가 되어있는데, 해당 논문은 그 문제점을 해결하기 위한 method를 제안한다. generator를 recursive training하는건데, generator가 생성한 이미지를 classifier로 전달하여 confidence를 추출한다. 그러..

[논문 읽기] Consistent Structural Relation Learning for Zero-Shot Segmentation(2020)

Consistent Structural Relation Learning for Zero-Shot Segmentation PDF, Zero-Shot Segmentation, Peike et al, neurips 2020 Summary seen과 unseen 사이의 structural relation을 사용하여 생성된 unseen visual feature를 제한한다. seen과 unseen에 대한 word embedding이 갖고 있는 관계 정보를 이용하여 unseen 을 제한한다면, generator는 더 좋은 unseen visual feature를 생성할 것이다. Generator generator는 생성모델이 아니라 L개의 layer로 이루어져 있다. 그래프 구조를 사용하여 word embeddin..

반응형