반응형

논문 읽기 255

[Paper review] Understanding the Behaviour of Contrastive Loss(2020)

Understanding the Behaviour of Contrastive Loss Feng Wang, Huaping Liu, arxiv 2020 PDF, Self-Supervised Learning By SeonghoonYu July 15th, 2021 Summary There exists a uniformity-tolerance dilemma in unsupervised contrastive learning. and the temporature plays a key role in controlling the local separation and global uniformity of embedding distribution. So the choice of temperature is important ..

[논문 읽기] (2014) Learning Spatiotemporal Features with 3D Convolutional Networks

안녕하세요, 오늘 읽은 논문은 Learning Spatiotemporal Features with 3D Convolutional Networks 입니다. 한줄 정리 video task를 3D Convolution, 3D Pooling을 사용하여 Sota 성능을 기록합니다. Motivation 다음 4가지 성질을 만족하는 효과적인 video descriptor를 개발하려 합니다. (1) generic, (2) compact, (3) efficient, (4) Simple Contribution (1) 3D Conv가 appearance와 motion을 동시에 포착하여 good feature을 학습합니다. (2) 3x3x3 Conv 구조가 효과가 좋다는 것을 실험적으로 발견합니다. (3) 4개의 task와 ..

[논문 읽기] AdamW(2017), Decoupled Weight Decay Regularization

안녕하세요, 오늘 읽은 논문은 AdamW(2017), Decoupled Weight Decay Regularization 입니다. 핵심 정리 weight decay는 loss function에 L2 regularization를 추가하여 구현할 수 있으며 딥러닝 라이브러리가 optimization 함수에 동일한 방법으로 적용되어 있습니다. SGD의 경우에는 weight decay = L2 reg 가 성립하지만 Adam의 경우에 파라미터마다 학습률을 다르게 적용하여 L2 reg로 weight decay를 구현한다면 동일하지 않아 성능이 하락합니다. 이 문제를 해결하기 위해 weight decay를 분리하여 따로 구현합니다. Motivation 여러 task에 test를 진행할때, SGD with moment..

[논문 읽기] Non-local Neural Networks(2017)

안녕하세요, 오늘 읽은 논문은 Non-local Neural Networks 입니다. deep neural network에서 long-range dependency를 포착하는 것은 매우 중요합니다. 예를 들어, language 모델에서 long-range deprendency를 포착하기 위해 LSTM을 하용하고, image data에서는 convolutional layer를 쌓아 receptive field를 확장하여 long-range depencdency를 포착합니다. convolution과 recurrent operation은 공간 또는 시간에 대한 local neighborhood에 연산을 수행합니다. 그리고 이 local operation을 반복적으로 수행하는데 이는 다음과 같은 문제점을 초래합..

[논문 읽기] DETR(2020), End-to-End Object Detection with Transformers

안녕하세요, 오늘 읽은 논문은 End-to-End Object Detection with Transformers 입니다. 해당 논문은 direct set prediction을 위한 transformer eocoder-decoder 구조와 set prediction을 위한 bipartite matching loss를 제안합니다. set prediction은 object detection 모델이 각 object에 대하여 set of bounding boxes와 category labels을 예측하는 task를 의미합니다. 기존 방법들은 이 set prediction은 proposals를 사용하여 간접적으로 문제를 해결해 왔습니다. 기존 object detection 성능은 (1) postprocessing ..

[논문 읽기] MoCov3(2021), An Empirical Study of Training Self-Supervised Vision Transformers

안녕하세요, 오늘 읽은 논문은 An Empirical Study of Training Self-Supervised Vision Transformers 입니다. 해당 논문은 MoCov1/2보다 좋은 성능을 갖는 MoCov3을 제안하고, 이 MoCov3을 Vision Transfermers(ViT)에 적용하는 실험을 합니다. CNN 구조에 SSL을 적용하는 많은 연구가 이루어져 있지만 ViT 모델에는 어떻게 self-supervised learning을 적용해야하는지에 대해 많은 연구가 이루어지지 않았습니다. 저자는 다양한 실험을 통해 self-supervised ViT의 효과를 조사합니다. 또한 기존 self-supervised transformer 보다 좋은 성능을 보여줍니다. 실험을 위해 batch s..

[논문 읽기] SimSiam(2020), Exploring Simple Siamese Represent

안녕하세요, 오늘 읽은 논문은 Exploring Simple Siamese Represent 입니다. 두 representation을 비교하기 위해 Siamese network 구조는 자연스러운 선택입니다. Siamese network는 모든 출력값이 상수로 무너지는 문제점이 존재하는데, 이 문제점을 해결하기 위해 많은 노력이 존재합니다. 예를 들어, SimCLR은 different image(negative pair)는 밀어내고 positive pair는 서로 당기도록 학습합니다. 해당 논문에서는 Siamese network의 출력값이 상수로 무너지는 문제점을 해결하기 위하여 (1) same encoder, (2) prediction MLP, (3) stop-gradient 방법을 제안합니다. 다른 방..

[논문 읽기] MoCov2(2020), Improved Baselines with Momentum Contrastive Learning

안녕하세요, 오늘 읽은 논문은 Improved Baselines with Mometum Contrastive Learning 입니다. 해당 논문은 MoCo v1에서 SimCLR의 두 가지 아이디어를 적용한 모델입니다. SimCLR은 contrastive learning에서 세 가지 핵심 요소를 제안하는데요, (1) 많은 negative sample을 사용하기 위한 large batch, longer training, (2) stronger augmentation(color distortion, random resize crop, blur), (3) MLP projection head 가 contrastive learning의 성능을 높일 수 있다는 것을 실험적으로 보여줍니다. MoCov2는 SimCLR에..

[논문 읽기] YOLOr(2021), You Only Learn One Representation: Unified Network for Multiple Tasks

안녕하세요, 오늘 읽은 논문은 YOLOr, You Only Learn One Representation: Unified Network for Multiple Tasks 입니다. 해당 논문은 explicit knowledge와 implicit knowledge를 함께 사용하여 예측하는 모델을 제안합니다. 사람은 촉각, 시각, 청각과 과거의 경험을 통해 세상을 이해합니다. 사람의 경험은 일반적인 학습(explicit knowledge) 또는 subconsciously(implicit knowledge)에 의해 학습합니다. 그리고 이 두 경험은 뇌에 저장되고, 이 경험을 결합하여 이전에 보지 않았던 상황을 예측합니다. 위 강아지 그림을 보고 사람은 두 가지 경험을 활용하여 여러 질문에 답변할 수 있습니다. 저..

[논문 읽기] (2019), Consistency-based Semi-supervised Learning for Object Detection

안녕하세요, 오늘 읽은 논문은 Consistency-based Semi-supervised Learning for Object Detection 입니다. object detection task는 많은 수의 annotated sample이 필요합니다. 그리고 이를 사람이 직접 annotate하는 데에는 많은 비용이 필요합니다. 해당 논문에서는 unlabeled data를 활용하기 위한 semi-supervised learning 방법을 제안합니다. unlabeled data를 활용하기 위해 (1) consistency loss를 제안하고, back-ground class가 성능에 악영향을 주는 것을 방지하기 위해 (2) Background Elimination(BE)를 제안합니다. labeleing cos..

반응형