반응형

수학 251

[딥러닝] 매개변수 갱신 - Adam, 어느 갱신 방법을 이용할 것인가?

사이토고키의 을 공부하고 정리하였습니다. 매개변수 갱신 - Adam 모멘텀은 공이 그릇 바닥을 구르는 듯한 움직임을 보였습니다. AdamGrad는 매개벼수의 원소마다 적응적으로 갱신 정도를 조정했습니다. 두 기법을 융합한 기법이 바로 Adam입니다. 위 두 방법의 이점을 조합했으므로 매개변수 공간을 효율적으로 탐색해줄 것이라고 기대할 수 있습니다. 하이퍼파라미터의 '편향 보정'이 진행된다는 점도 Adam의 특징입니다. Adam에 의한 최적화 갱신 경로를 확인해보겠습니다. Adam 갱신 과정도 모멘텀과 비슷한 패턴으로 움직입니다. 이는 학습의 갱신 강도를 적응적으로 조정해서 얻는 혜택입니다. Adam은 하이퍼파라미터를 3개 설정합니다. 하나는 지금까지의 학습률, 나머지 두 개는 일차 모멘텀용 계수와 이차 ..

[딥러닝] 매개변수 갱신 - AdaGrad 기법

사이토고키의 을 공부하고 정리하였습니다. AdaGrad 신경망 학습에서는 학습률 값이 중요합니다. 이 값이 너무 작으면 학습 시간이 너무 길어지고, 반대로 너무 크면 발산하여 학습이 제대로 이뤄지지 않습니다. 이 학습률을 정하는 효과적 기술로 학습률 감소(learning rate decay)가 있습니다. 이는 학습을 진행하면서 학습률을 점차 줄여가는 방법입니다. 학습률을 서서히 낮추는 가장 간단한 방법은 매개변수 '전체'의 학습률 값을 일괄적으로 낮추는 것입니다. 이를 더욱 발전시킨 것이 AdaGrad입니다. AdaGrad는 '각각의' 매개변수에 '맞춤형'값을 만들어 줍니다. AdaGrad는 개별 매개변수에 적응적으로 학습률을 조정하면서 학습을 진행합니다. AdaGrad의 갱신 방법은 수식으로는 다음과 ..

[딥러닝] 매개변수 갱신 - 모멘텀(Momentum) 기법

사이토고키의 을 공부하고 정리해보았습니다. 모멘텀 - Momentum 모멘텀은 '운동량'을 뜻하는 단어로, 물리와 관계가 있습니다. 모멘텀 기법은 수식으로 다음과 같이 쓸 수 있습니다. SGD와 비교해보았을 때 v라는 변수가 새로 나옵니다. 이는 물리에서 말하는 속도에 해당합니다. 기울기 방향으로 힘을 받아 물체가 가속된다는 물리 법칙을 나타냅니다. 모멘텀 구현 코드 class Momentum: def __init__(self, lr=0.01, momentum=0.9): self.lr = lr self.momentum = momentum self.v = None def update(self, params, grads): if self.v is None: self.v = {} for key, val in ..

[딥러닝] 매개변수 갱신 - 확률적 경사 하강법(SGD) 개념과 단점

사이토고키의 을 공부하고 정리하였습니다. 신경망 학습의 목적은 손실 함수의 값을 가능한 한 낮추는 매개변수를 찾는 것 입니다. 이는 곧 매개변수의 최적값을 찾는 문제이며, 이를 최적화(optimization)이라고 합니다. 1. 확률적 경사 하강법(SGD) 매개변수의 기울기를 구해, 기울어진 방향으로 매개변수 값을 갱신하는 일을 몇 번이고 반복해서 점점 최적의 값에 다가가는 것이 확률적 경사 하강법(SGD)입니다. SGD는 수식으로 다음과 같이 쓸 수 있습니다. 여기에서 W는 갱신할 가중치 매개변수고 $\frac{\partial L}{\partial W}$은 W에 대한 손실 함수의 기울기 입니다. $\eta$는 학습률을 의미하는데, 0.01이나 0.001과 같은 값을 미리 정해서 사용합니다. SGD는 기..

[통계학] 30. 대응 표본을 통해 모집단의 평균을 비교하는 방법

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 두 모집단 평균 비교 대응표본을 통해 모집단의 평균을 비교하는 방법을 알아보겠습니다. 대응표본에서의 평균 차에 대한 중심축량과 이를 바탕으로 한 구간추정과 가설검정방법을 알아보겠습니다. 1. 대응표본을 통해 모집단의 평균비교 예시 약의 유효성 평가는 어떻게 하면 좋을까? 두 운동화의 내구성 비교를 어떻게 하면 좋을까? 이 두 가지 경우와 같은 상황일 때 대응표본을 통한 모집단의 평균을 비교할 수 있습니다. 동일한 개체를 대상으로 처리 전후를 비교하거나 유사한 두 대상을 쌍으로 만들어 서로 다른 처리하고 처리효과에 차이가 있는지를 알아봅니다. 관측값의 기저 차이에 의해 발생하는 변동을 제거하고 순수한 처리효과를 유도할 수 있습니..

[통계학] 29. 두 모집단 평균 비교 - 독립표본, 분산이 다른 경우

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 두 모집단 평균 비교 - 독립표본, 분산이 다른 경우 독립표본을 통해 분산이 다른 두 정규 모집단의 평균 비교하는 방법을 알아보겠습니다. 평균 차에 대한 중심축량과 이를 바탕으로 한 구간추정과 가설검정방법을 알아보겠습니다. 1. 정규모집단으로 가정한 경우 통계값 도출 (1) 두 개의 모집단에서 얻은 표본은 독립표본입니다. (2) 점추정은 표본평균의 차를 이용합니다. (3) 표본평균 차의 통계적 성질은 다음과 같습니다. (4) 정규확률변수의 선형결합도 정규분포를 따릅니다. 독립이기 때문에 공분산을 고려할 필요가 없습니다. (5) 표준화하면 다음과 같습니다. 2. 중심축량 구하기 두 모집단의 분산이 같은 경우와 다른 경우의 차이점..

[통계학] 29. 두 모집단 평균 비교 - 독립표본, 분산이 같은 경우

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 두 모집단 평균 비교 - 독립표본, 분산이 같은 경우 독립표본을 통해 분산이 같은 두 정규 모집단의 평균 비교하는 방법을 알아보겠습니다. 평균 차에 대한 중심축량과 이를 바탕으로 한 구간추정과 가설검정방법을 알아보겠습니다. 1. 두 모집단 비교에서의 가정 (1) 두 모집단 모두 정규 분포 형태를 갖는다. (2) 정규 분포라고 보기 어렵다. a. 표본크기가 큰 경우 정규 분포로 가정(대표본) b. 표본크기가 크지 않고 이상점이 존재(비 모수적 방법 이용) 크게 두 가지 경우로 가정해볼 수 있습니다. 2. 정규 모집단으로 가정한 경우 신뢰구간 신뢰구간 구하는 방법을 알아보겠습니다. 정규 모집단으로 가정한 경우 다음과 같습니다. 또..

[통계학] 28. 독립표본과 대응표본

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 독립표본과 대응표본 독립표본과 대응표본을 알아보기 위해 두 모집단을 비교하는 예시를 보겠습니다. [두 모집단 비교 예시] 1. 진통제를 복용한 그룹과 위약을 복용한 그룹을 대상으로 진통효과 비교 2. 고혈압약을 복용하기 전과 후의 혈압 감소 효과 비교 3. 다른 두 지역을 대상으로 국정운영 지지율을 비교 4. 일란성 쌍둥이를 대상으로 두 다이어트 방법의 효과 비교 1번과 3번은 별개의 두 집단을 비교이므로 독립표본이라고 할 수 있습니다. 2번과 4번은 쌍을 이룬 두 집단 비교이므로 대응표본(짝비교)이라고 할 수 있습니다. 이처럼 두 모집단이 독립표본인지, 대응표본인지 분류할 필요가 있습니다. 검정, 추정 방법이 달라지기 때문입..

[통계학] 27. 모비율 추론을 위한 표본크기 결정

(k-mooc 통계학의 이해2, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다. 구간추정에 기반한 표본크기결정 방법을 알아 보겠습니다. 가설검정에 기반한 표본크기결정 방법을 이해하겠습니다. 1. 구간추정에 의한 표본 크기 결정 구간추정에 기반한 표본크기결정 방법에 대해 알아보겠습니다. 모비율에서 $\delta$는 $\theta_1$ - $\theta_2$를 의미합니다. 100(1-a)% 신뢰수준에서 허용오차범위가 $\pm\delta$일 때 n(표본크기)은 다음과 같이 구할 수 있습니다. 표본의 크기는 모수추정의 정확도 및 신뢰도에 영향을 줍니다. 2. 예시 문제 이번 조사는 M**회사가 R**회사에 의뢰해 지난 20일 전국 19세 이상 성인남녀 1천명을 전화설문한 결과로 신뢰수준 95%에 표본오차는..

[통계학] 26. 모비율에 대한 통계적 추론

(k-mooc 통계학의 이해2, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다. 구간추정에 기반한 표본크기결정 방법을 알아보겠습니다. 모비율 추론을 하는데 있어 주의해야 할 사항을 알아보겠습니다. 1. 모비율 추론 모비율을 추론할 때는 성공확률에 관심을 갖는 베르누이 확률을 이용합니다. 점추정량은 다음과 같이 구할 수 있습니다. 모비율($\theta$)를 표본비율(P)로 추정한 것입니다. 또한 평균과 같은 형태이므로 표본크기가 클 때 중심극한정리를 이용할 수 있습니다. 정규근사는 다음과 같은 조건이 있습니다. 2. 모비율의 구간추정 모비율의 구간추정하는 방법을 알아보겠습니다. (1) 중심축량을 구합니다. (2) 신뢰기준을 설정하고 신뢰구간을 구합니다. (3) 미지모수($\theta$)가 포함되어 있..

반응형