반응형

논문 읽기 255

[논문 읽기] ReCo(2021), Bootstrapping Semantic Segmentation with Regional Contrast

Bootstrapping Semantic Segmentation with Regional Contrast PDF, Segmentation Contrastive learning in semi supervision, Shikun, et al, arXiv 2021 Summary 해당 논문은 segmentation에 contrastive learning을 적용하여 supervised or semi learning을 수행합니다. contrative learning은 positive 와 negative를 정의해주고 loss를 설계하는데 segmentation에서는 어떻게 positive와 negative를 정의하는지 확인해보면 좋을 듯 싶네요 또 봐야할 점은 image 내의 모든 pixel에 대하여 similari..

[논문 읽기] Panoptic Feature Pyramid Networks(2019)

Panoptic Feature Pyramid Networks PDF, Panoptic Segmentation, Alexander, et al. arXiv 2019 Summary Panoptic segmentation task를 수행하기 위한 semantic, instance seg task에 대한 single network 입니다. semantic branch와 instance branch로부터 출력값을 얻어 heuristic하게 panoptic format을 만들어주는데, 해당 논문은 Feature Pyramid Network(FPN)을 활용합니다. Instance branch는 Mask RCNN을 사용합니다. Semantic branch는 FPN의 multi-feature를 add하여 하나의 sema..

[논문 읽기] Pix2Seq(2021), A Language Modeling Framework for Object Detection

Pix2Seq: A Language Modeling Framework for Object Detection PDF, Object Detection, Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, Geoffrey Hinton, arXiv 2021 Summary Object Detection을 language task의 관점에서 푸는 모델입니다. Language framework를 사용하므로 기존 object detection 알고리즘의 복잡한 앵커 박스, nms의 필요성이 사라집니다. 바운딩 박스와 클래스를 토큰으로 나타내어 prediction을 수행하는데 기존 모델과 비슷한 성능을 보여줍니다. encoder-decoder 구조를 사용하는데 이미지를 입력 받아..

[논문 읽기] IMP(2019), Instance Mask Projection for High Accuracy Semantic Segmentation of Things

IMP: Instance Mask Projection for High Accuracy Semantic Segmentation of Things PDF, Panoptic Segmentation, Cheng-Yang Fu, Tamara L. Berg, Alexander C. Berg, arXiv 2019 Summary detector로 object를 검출하고 instance branch로 mask를 추출한다. 추출한 mask를 Canvas에 project하여 새로운 피쳐맵을 생성한다. project는 canvas와 detection score * instance mask의 값중 높은 값을 선택한다. 새로운 feature map을 canvas와 concat한 뒤에 semantic branch로 전달하여 sem..

[논문 읽기] PSPNet(2016), Pyramid Scene Parsing Network

Pyramid Scene Parsing Network PDF, Semantic Segmentation, Hengshuan Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, Jiaya Jia, arXiv 2016 Summary Semantic Segmentation을 위한 모델입니다. 위 그림을 보면 강가에 있는 보트를 FCN은 car로 예측한 것을 확인할 수 있습니다. 이 error의 원인을 논문은 global Context를 고려하지 않았기 때문이라고 말합니다. 이 문제를 해결하기 위해 global context를 보고 예측을 할 수 있는 모델을 제안합니다. Pooling 연산으로 여러 크기의 feature map을 만든 후에 concat하여 global contex..

[논문 읽기] Single Network Panoptic Segmentation for Street Scene Understanding(2019)

Single Network Panoptic Segmentation for Street Scene Understanding PDF, Panoptic Segmentation, Dann de Geus, Panagiotis Meletis, Gijs Dubbelman, arXiv 2019 Summary semantic branch와 instance branch로 구성된 single network를 사용하여 panoptic segmentation을 수행합니다. 해당 논문은 (1) Inter-branch information exchange, (2) improved heuristics을 제안하여 이전 방법보다 성능을 향상시킵니다. (1) Inter-branch information exchange Segmantic ..

[논문 읽기] Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network(2018)

Panoptic Segmentation with a Joint Semantic and Instance Segmentation Network PDF, Panoptic Segmentation, Daan de Geus, Panagiotis Meletis, arXiv 2018 Summary 해당 논문은 Panoptic Segmentation task를 위한 모델입니다. Instance network와 Semantic network를 joint 학습시켜서 결과값을 heuristics하게 병합합니다. ResNet-50으로 특징을 추출한뒤에 추출된 특징은 semantic, instance branch로 전달됩니다. (1) Semantic branch semantic segmentation branch는 Pyramid..

[논문 읽기] Panoptic Segmentation(2018)

Panoptic Segmentation PDF, Segmentation, Alexander Kirillov, Kaiming He, Ross Girshick, Carsten Rother, Piotr Dollar, arXiv 2018 Summary 오랜만에 업로드하는 segmentation 논문 입니다 ㅎㅎ segmentation을 연구하게 될 것 같아서 앞으로 자주 업로드 할꺼 같네요 해당 논문은 Panoptic Segmentation을 정의하고 metric을 제안합니다. 왜 새로운 task를 정의하는 걸까요? 논문은 The proposed task requires generating a coherent scene segmentation that is rich and complete, an importan..

[논문 읽기] Towards Training Stronger Video Vision Transformers for EPIC-KITCHENS-100 Action Recognition(2021)

Towards Training Stronger Video Vision Transformers for EPIC-KITCHENS-100 Action Recognition PDF, VIdeo Recognition, Ziyuan Huang, Zhiwu Qing, Xiang Wang, Yutong Feng, Shiwei Zhang, arXiv 2021 Summary 해당 논문은 21.06에 arxiv에 올라온 논문입니다. Video Recognition 모델을 EPIC-KITCHENS-100 데이터셋에 여러가지 학습 방법을 실험합니다. 모델을 학습시킬시에 여러 가지를 고려해야 하는데 이 논문이 참고 사항이 될 수 있을 것 같네요 ㅎㅎ 우선 ViViT를 kinetics400, 700, SSV2로 pre-train ..

[논문 읽기] VLF(2021), VideoLightFormer: Lightweight Action Recognition using Transformers

VideoLightFormer: Lightweight Action Recognition using Transformers PDF, Video Recognition, Raivo Koot, Haiping Lu, arXiv 2021 Summary efficient한 Video Recognition 모델입니다. VTN의 확장 버전이며 CNN 백본으로 각 frame을 저차원의 ebedding으로 압축한 뒤에 각 embedding에 spatial transformer를 적용하고, spatial-time transformer를 적용합니다. 해당 모델의 가장 큰 장점은 latent가 낮다는 것입니다. 저자의 목표가 efficient 모델을 추구하여 각 요소를 최대한 high-efficiency되도록 설계합니다. 실험 ..

반응형