반응형

읽기 11

[논문 읽기] Centroid Transformer(2021)

Centroid Transformers: Learning to Abstract with Attention Lemeng Wu, Xingchao Liu, Qiang Liu, arXiv 2021 PDF, Transformer By SeonghoonYu August 02th, 2021 Summary 센트로이드 트랜스포머는 N개의 입력값을 M개의 요소로 요약합니다. 이 과정에서 필요없는 정보를 버리고 트랜스포머의 계산 복잡도를 O(MN)으로 감소합니다. M개의 요소는 Clustering의 centroid로 생각해 볼 수 있는데, 이 M개의 요소를 어떻게 선정하는 지가 핵심 아이디어로 생각해볼 수 있습니다. M개의 centroid를 선정하기 위해 입력값 x와 centroid 사이의 유사도를 측정하고 손실함수를 설계..

[논문 읽기] SKNet(2019), Selective Kernel Networks

안녕하세요, 오늘 읽은 논문은 Selective Kernel Networks 입니다. 일반적으로 CNN 모델은 각 레이어에서 동일한 크기의 kernel_size를 지닌 conv 연산을 수행합니다. 예를 들어, ResNet은 1x1 conv와 3x3conv를 반복해서 사용합니다. SKNet은 kernel_size를 고정시키지 않고, 입력 이미지의 정보에 따라 kernel_size가 변화하도록 설계한 모델입니다. 입력 이미지 내의 객체 크기가 커지면 kernel_size도 마찬가지로 커지는 것을 실험적으로 증명하며 논문에서 제안하는 selective kernel convolution을 다른 모델에 적용해 성능이 향상된다는 것을 보여줍니다. selective kernel convolution은 split, f..

[논문 읽기] DilatedNet(2016), Multi-Scale Context Aggregation by Dilated Convolutions

안녕하세요, 오늘 읽은 논문은 DilatedNet, Multi-Scale Context Aggregation by Dilated Convolutions 입니다. DilatedNet은 segmetation task를 위한 dilated convolution을 사용합니다. dilated convolution은 이미지의 해상도를 낮추지 않고, receptive field를 확장할 수 있습니다. 예를 들어, 기존의 CNN은 max pooling 연산 또는 stride=2인 conv 연산을 통하여 feature map의 크기를 축소한 뒤에 conv 연산을 적용하여 receptive field를 확장합니다. dilated conv는 이과정을 거치지 않아 공간적인 정보 훼손 없이 receptive field를 확장할..

[논문 읽기] 코드로 살펴보는 GAN(2014), Generative Adversarial Nets

오늘 읽은 논문은 GAN, Generative Adversarial Nets 입니다. 파이토치 코드와 함께 살펴보도록 하겠습니다. GAN은 Generator, Discriminator 두 개의 신경망으로 이루어져 있습니다. Generator Generator은 무작위로 생성한 noise로 가짜 이미지를 생성합니다. Generator PyTorch 구현 코드 # generator: noise를 입력받아 이미지를 생성합니다. class Generator(nn.Module): def __init__(self, params): super().__init__() self.nz = params['nz'] # 입력 노이즈 벡터 수, 100 self.img_size = params['img_size'] # 이미지 크기..

논문 읽기/GAN 2021.05.17

[논문 읽기] PANet(2018), Path Aggregation Network for Instance Segmentation

안녕하세요, 오늘 읽은 논문은 PANet, Path Aggregation Network for Instance Segmentation 입니다. PANet은 Mask R-CNN을 기반으로 Instance Segmentation을 위한 모델입니다. 이 논문에서 제안하는 Bottom-up path augmentation과 Adaptive feature pooling 방법은 YOLOv4에서 사용할 만큼 효과적인 성능을 나타내고 있습니다. PANet PANet은 (1) Bottom-up Path Augmentation, (2) Adaptive Feature Pooling, (3) Fully-connected Fusion 세 가지 방법을 제안합니다. 1. Bottom-up Path Augmentation Botto..

[논문 읽기] CSPNet(2020), A new backbone that can enhance learning capability of cnn

안녕하세요, 오늘 읽은 논문은 'CPSNet: A new backbone that can enhance learning capability of cnn' 입니다. 이번 논문은 모델 구조를 gradient information 관점에서 설명하므로, 이해하는데에 오랜 시간이 걸렸습니다. 새로운 정보를 많이 담고 있는 만큼 다른 논문보다 좀 더 자세히 리뷰 하도록 하겠습니다. Cross Stage Partial Network(CSPNet)은 이미지를 추론하는 과정에서 backbone의 무거운 inference computation을 감소하려 합니다. 저자는 백본에서의 무거운 추론 연산량이 optimization 내에 있는 duplicate gradient information에 의해 발생한다고 결론을 짓습니다..

[논문 읽기] DropBlock(2018), A regularization method for convolutional networks

안녕하세요, 오늘 읽은 논문은 DropBlock, A regularization method for convolutional networks 입니다. 딥러닝 모델은 훈련 데이터에 과적합 하지 않도록 어느 정도 학습을 방해하는 요소가 필요합니다. 예를 들어, 데이터에 노이즈를 가하거나 패널티를 가하는 weight decay, drop out 방법을 사용할 경우에 더 높은 정확도를 갖습니다. fc layer에서 큰 효과를 나타내는 drop out 방법은 convolutional layer에서 영향력이 감소합니다. convolutional layer에서 활성화 함수는 공간적으로 연관되어 있기 때문에, drop out을 적용하더라도 입력에 대한 정보는 다음 layer로 전달될 수 있습니다. 이는 과적합을 초래합..

[논문 읽기] FCOS(2019), Fully Convolutional One-Stage Object Detection

안녕하세요, 오늘 읽은 논문은 FCOS, Fully Convolutional One-Stage Object Detection 입니다. FCOS는 앵커 박스를 사용하지 않는 one-stage detector 입니다. 바운딩 박스의 4면으로부터 중심점 까지의 거리(l, t, r, b)를 예측하고, FPN의 각 level마다 거리 (l,t,r,b)를 제한하여 multi-level prediction을 합니다. 또한 낮은 퀄리티의 바운딩 박스를 제거하기 위해 center-ness를 제안합니다. anchor-based detector의 단점 FCOS는 anchor-based detector에서 발생하는 단점을 개선하기 위해 제안되었습니다. (1) 디텍션 성능이 앵커 박스의 크기, 종횡비, 개수에 예민합니다. 앵커..

[논문 읽기] Gaussian YOLOv3(2019), An Accurate and Fast Object Detection Using Localization Uncertainty for Autonomous Driving

안녕하세요! 오늘 읽은 논문은 Gaussian YOLOv3, An Accurate and Fast Object Detection Using Localization Uncertainty for Autonomous Driving 입니다. YOLOv3을 기반으로 한 Gaussian YOLOv3은 바운딩 박스 좌표의 불확실성을 측정하여 불확실성, object score, class을 기준으로 최종 바운딩 박스를 선택합니다. 기존의 YOLOv3은 object score와 class만을 최종 바운딩 박스를 선택했기 때문에, 불확실성이 추가된 Gaussian YOLOv3이 더 좋은 정확도를 나타냅니다. 실제로 YOLOv3보다 FP(False Positive)를 낮추고 TP(True Positive)를 높이는 결과를 ..

[논문 읽기] CornerNet(2018), Detecting Objects as Paired Keypoints

안녕하세요! 오늘 읽은 논문은 CornerNet, Detecting Objects as Paired Keypoints 입니다. CornerNet은 두 쌍의 특징점(keypoints)를 사용하여 객체의 바운딩 박스를 예측하는 모델입니다. 두 쌍의 특징점은 좌촉 상단 모서리, 우측 하단 모서리를 의미합니다. 특징점을 기반으로 바운딩 박스를 생성하기 때문에 앵커 박스를 사용할 필요가 없습니다. 앵커 박스가 없는 detection 모델이라니..!! 신기하네요. ㅎㅎ CornerNet은 앵커박스를 사용하지 않고도 다른 모델을 뛰어넘는 성능을 보여줍니다. 특징점을 검출하기 위해 pose estimation에서 사용하는 hourglass를 backbone으로 사용합니다. hourglass의 출력값에 좌측 상단 특징점..

반응형