반응형

논문 읽기/Normalization 3

[논문 읽기] Group Normalization(2018)

안녕하세요, 오늘 읽은 논문은 Group Normalization 입니다. GN(Group Normalization)은 BN의 단점을 개선하기 위해 제안된 alternative입니다. BN은 batch size(1or2)를 작게 설정한 경우에 상당한 성능 약화가 발생합니다. OD나 Segmentation 같은 task 경우에 high-resolution image를 사용해야 하므로 batch-size를 작게 설정할 수 밖에 없습니다. 이 경우에 batch 통계값은 전체 분포를 부정확하게 추정하여 noise가 많이 생기고 성능 저하가 발생합니다. 이러한 BN의 단점을 개선하기 위하여 GN은 batch와 독립적으로 normalization을 수행합니다. 위 그림을 살펴보면 batch size가 2인 경우에 ..

[논문 읽기] CBN(2020), Cross-Iteration Batch Normalization

안녕하세요, 오늘 읽은 논문은 CBN, Cross-Iteration Batch Normalization 입니다. CBN은 small batch size에서 발생하는 BN의 문제점을 개선하기 위해 이전 Iteration에서 사용한 sample 데이터로 평균과 분산을 계산합니다. 현재 가중치와 이전 가중치가 다르기 때문에 단순하게 이전 Iteration 에서 사용된 sample을 활용하면 추정된 통계값이 부정확 하여 성능에 악영향을 줍니다. CBN은 테일러 시리즈를 사용해 이전 가중치와 현재 가중치의 차이만큼 compensation하여 근사화 합니다. 매 반복마다 변화하는 가중치 값이 매우 작다고 가정하기 때문에 테일러 시리즈를 사용할 수 있습니다. Batch Normalization(BN) BN은 딥러닝에..

[논문 리뷰] 배치 정규화, Batch Normalization(2015)

안녕하세요! 이번에 리뷰할 논문은 'Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift' 입니다! 배치 정규화는 2015년에 제안된 방법입니다. 배치 정규화는 많은 사람들이 사용하고 있으며, 주목 받는 이유는 다음과 같습니다. 학습을 빠르게 진행할 수 있습니다.(높은 학습률을 적용 가능합니다) 초깃값에 크게 의존하지 않습니다.(초깃값 선택 장애를 개선했습니다) 오버피팅을 억제합니다.(드랍아웃의 필요성을 감소했습니다.) 비선형 함수(sigmoid 등)을 이용할 때, saturated regime(기울기가 0인 부분)에 빠지는 것을 방지합니다. 따라서 기울기 소실과 saturation probl..

반응형