반응형

논문 107

[Paper review] Mean teachers are better role models(2017)

Mean teachers are better role models: Weight-averaged consistency targets imporve semi-supervised deep learning results Antti Tarvainen, Harri Valpola, arxiv 2017 PDF, Semi Supervised Learning By SeonghoonYu July 18th, 2021 Summary Previous best performance model of semi-supervised learning is Temporal Ensembling having a problem. Since each target is updated only once per epoch, the learned inf..

[논문 읽기] (2014) Learning Spatiotemporal Features with 3D Convolutional Networks

안녕하세요, 오늘 읽은 논문은 Learning Spatiotemporal Features with 3D Convolutional Networks 입니다. 한줄 정리 video task를 3D Convolution, 3D Pooling을 사용하여 Sota 성능을 기록합니다. Motivation 다음 4가지 성질을 만족하는 효과적인 video descriptor를 개발하려 합니다. (1) generic, (2) compact, (3) efficient, (4) Simple Contribution (1) 3D Conv가 appearance와 motion을 동시에 포착하여 good feature을 학습합니다. (2) 3x3x3 Conv 구조가 효과가 좋다는 것을 실험적으로 발견합니다. (3) 4개의 task와 ..

[논문 읽기] Non-local Neural Networks(2017)

안녕하세요, 오늘 읽은 논문은 Non-local Neural Networks 입니다. deep neural network에서 long-range dependency를 포착하는 것은 매우 중요합니다. 예를 들어, language 모델에서 long-range deprendency를 포착하기 위해 LSTM을 하용하고, image data에서는 convolutional layer를 쌓아 receptive field를 확장하여 long-range depencdency를 포착합니다. convolution과 recurrent operation은 공간 또는 시간에 대한 local neighborhood에 연산을 수행합니다. 그리고 이 local operation을 반복적으로 수행하는데 이는 다음과 같은 문제점을 초래합..

[논문 읽기] DETR(2020), End-to-End Object Detection with Transformers

안녕하세요, 오늘 읽은 논문은 End-to-End Object Detection with Transformers 입니다. 해당 논문은 direct set prediction을 위한 transformer eocoder-decoder 구조와 set prediction을 위한 bipartite matching loss를 제안합니다. set prediction은 object detection 모델이 각 object에 대하여 set of bounding boxes와 category labels을 예측하는 task를 의미합니다. 기존 방법들은 이 set prediction은 proposals를 사용하여 간접적으로 문제를 해결해 왔습니다. 기존 object detection 성능은 (1) postprocessing ..

[논문 읽기] MoCov3(2021), An Empirical Study of Training Self-Supervised Vision Transformers

안녕하세요, 오늘 읽은 논문은 An Empirical Study of Training Self-Supervised Vision Transformers 입니다. 해당 논문은 MoCov1/2보다 좋은 성능을 갖는 MoCov3을 제안하고, 이 MoCov3을 Vision Transfermers(ViT)에 적용하는 실험을 합니다. CNN 구조에 SSL을 적용하는 많은 연구가 이루어져 있지만 ViT 모델에는 어떻게 self-supervised learning을 적용해야하는지에 대해 많은 연구가 이루어지지 않았습니다. 저자는 다양한 실험을 통해 self-supervised ViT의 효과를 조사합니다. 또한 기존 self-supervised transformer 보다 좋은 성능을 보여줍니다. 실험을 위해 batch s..

[논문 읽기] SimSiam(2020), Exploring Simple Siamese Represent

안녕하세요, 오늘 읽은 논문은 Exploring Simple Siamese Represent 입니다. 두 representation을 비교하기 위해 Siamese network 구조는 자연스러운 선택입니다. Siamese network는 모든 출력값이 상수로 무너지는 문제점이 존재하는데, 이 문제점을 해결하기 위해 많은 노력이 존재합니다. 예를 들어, SimCLR은 different image(negative pair)는 밀어내고 positive pair는 서로 당기도록 학습합니다. 해당 논문에서는 Siamese network의 출력값이 상수로 무너지는 문제점을 해결하기 위하여 (1) same encoder, (2) prediction MLP, (3) stop-gradient 방법을 제안합니다. 다른 방..

[논문 읽기] MoCov2(2020), Improved Baselines with Momentum Contrastive Learning

안녕하세요, 오늘 읽은 논문은 Improved Baselines with Mometum Contrastive Learning 입니다. 해당 논문은 MoCo v1에서 SimCLR의 두 가지 아이디어를 적용한 모델입니다. SimCLR은 contrastive learning에서 세 가지 핵심 요소를 제안하는데요, (1) 많은 negative sample을 사용하기 위한 large batch, longer training, (2) stronger augmentation(color distortion, random resize crop, blur), (3) MLP projection head 가 contrastive learning의 성능을 높일 수 있다는 것을 실험적으로 보여줍니다. MoCov2는 SimCLR에..

[논문 읽기] YOLOr(2021), You Only Learn One Representation: Unified Network for Multiple Tasks

안녕하세요, 오늘 읽은 논문은 YOLOr, You Only Learn One Representation: Unified Network for Multiple Tasks 입니다. 해당 논문은 explicit knowledge와 implicit knowledge를 함께 사용하여 예측하는 모델을 제안합니다. 사람은 촉각, 시각, 청각과 과거의 경험을 통해 세상을 이해합니다. 사람의 경험은 일반적인 학습(explicit knowledge) 또는 subconsciously(implicit knowledge)에 의해 학습합니다. 그리고 이 두 경험은 뇌에 저장되고, 이 경험을 결합하여 이전에 보지 않았던 상황을 예측합니다. 위 강아지 그림을 보고 사람은 두 가지 경험을 활용하여 여러 질문에 답변할 수 있습니다. 저..

[논문 읽기] (2019), Consistency-based Semi-supervised Learning for Object Detection

안녕하세요, 오늘 읽은 논문은 Consistency-based Semi-supervised Learning for Object Detection 입니다. object detection task는 많은 수의 annotated sample이 필요합니다. 그리고 이를 사람이 직접 annotate하는 데에는 많은 비용이 필요합니다. 해당 논문에서는 unlabeled data를 활용하기 위한 semi-supervised learning 방법을 제안합니다. unlabeled data를 활용하기 위해 (1) consistency loss를 제안하고, back-ground class가 성능에 악영향을 주는 것을 방지하기 위해 (2) Background Elimination(BE)를 제안합니다. labeleing cos..

[논문 읽기] (2021) Towards Reducing Labeling Cost in Deep Object Detection, Active Learning

안녕하세요, 오늘 읽은 논문은 Towards Reducing Labeling Cost in Deep Object Detection 입니다. 이 논문은 Object Detection분야에서 Active Learning을 활용한 논문입니다. object detection 모델을 학습하기 위해서는 label 된 dataset이 필요한데요, 이 label data에 대한 의존도를 낮추기 위한 다양한 active learning 전략이 연구되고 있습니다. 해당 논문에서는 이 active learning이 두 가지 문제점을 갖고 있다고 지적합니다. 기존의 Active Learning의 문제점 1. 신경망이 task에대해 well-trained된 경우에 acquisition function은 의미가 있습니다. 여기서..

반응형