반응형

수학 251

[Bayesian] 랜덤 프로세스(Random Process)

https://www.edwith.org/bayesiandeeplearning/joinLectures/14426 Bayesian Deep Learning 강좌소개 : edwith - 최성준 www.edwith.org 최성준 교수님의 Bayesian Deep Learning 강의를 정리합니다. Random Process 랜덤 프로세스는 랜덤 변수의 확장판 랜덤 벡터를 무한의 차원으로 확장하고 싶은 경우나 무한한 랜덤 변수를 설명하고 싶은 경우 Random process 이다.(주사위를 무한번 던지기) 즉, 무한 차원의 random variable을 정의하고 싶을 때 사용하는 것이 random process. 수학적으로 함수와 무한 차원은 같다. 함수의 공간에 확률을 부여한다고도 말할 수 있다. t에 따라 ..

수학/Bayesian 2021.07.28

[ISLR] Tree Pruning

Tree Pruning 트리를 구축하는 과정에서 이전 포스팅에서 살펴본 재귀이진분할은 데이터에 과적합할 위험이 있습니다. 이러한 문제를 해결하기 위한 적합한 대안은 Pruning 입니다. 가장 큰 트리를 만든 다음에 이것을 prune하여 서브트리를 얻는 것입니다. 그러면 tree를 어떤 기준으로 pruning 해야 할까요? 직관적으로 subtree를 선택하는 목적은 가장 낮은 test error를 도출하는 것입니다. 주어진 subtree에 대하여 cross-validation 혹은 validation set apporach를 사용하여 test error를 계산할 수 있습니다. 하지만 모든 가능한 subtree에 대하여 CV하는 것은 불가능해보입니다. 대신에 subtree를 선택하는 방법을 살펴보겠습니다...

[Bayesian] 측도론(Measure Theory)

https://www.edwith.org/bayesiandeeplearning/joinLectures/14426 Bayesian Deep Learning 강좌소개 : edwith - 최성준 www.edwith.org 최성준 교수님의 Bayesian Deep Learning 강의를 정리합니다. 측도론(Measure Theory) 주어진 Universal set U에 대하여 measuer은 U의 각 subset에 nonnegative real number를 할당합니다. Set function - set의 숫자를 할당하는 함수(Cardinality, length, area) $\sigma$-field $\beta$ - 면적을 주기 위해 필요한 최소 단위 - sigma field 내에 존재하는 부분 집합은 me..

수학/Bayesian 2021.07.26

[ISLR] 계단 함수(Step Functions)

계단 함수(Step Functions) X의 범위를 bins로 쪼개어 각 bin에 대한 서로 다른 상수로 적합합니다. 이는 연속 변수(continuous variable)을 순서범주형 범주(ordered categorical variable)로 전환합니다. X의 범위에서 절단점(cut point)을 사용하여 K+1개의 새로운 변수를 생성합니다. 여기서 I는 지시 함수이며 조건이 참이면 1, 그렇지 않으면 0을 반환합니다. 이는 더미 변수(dummy variable)이라고도 부릅니다. 주의할 점은 어느 X에 대하여 $C_0(X) + C_1(X) + ... + C_K(X) = 1$을 만족합니다. X가 K+1 구간중 하나에만 속하기 때문입니다. 위 더미 변수를 설명 변수로 사용하여 선형 모델을 최소 적합할 수..

[ISLR] 다항식 회귀(Polynomial Regression)

다항식 회귀(Polynomial Regression) 반응 변수(Y, response)와 설명 변수(X, predictors) 사이의 관계가 비선형인 상황에서 선형 회귀(Linear Regression)을 확장하는 방법은 다항식 함수(polynomial function)으로 대체하는 것입니다. 이 방법이 다항식 회귀이며 차수 d가 충분히 큰 경우에 다항식 회귀는 비선형 곡선을 나타냅니다. 위 식에서 계수들은 최소 제곱을 사용하여 쉽게 추정될 수 있습니다. d 가 3 또는 4보다 큰 경우에 다항 회귀는 과하게 flexible한 곡선을 만듭니다. 이 경우에 과적합이 발생할 수 있습니다. 위 그림은 나이에 따른 임금 데이터에서 차수가 4인 다항 회귀를 최소 제곱을 사용하여 적합한 결과입니다. 점선으로 된 곡선..

[Bayesian] 집합론(Set Theory)

https://www.edwith.org/bayesiandeeplearning/joinLectures/14426 Bayesian Deep Learning 강좌소개 : edwith - 최성준 www.edwith.org 최성준님의 Bayesian Deep Learning 강의를 정리합니다. 집합론(Set Theory) set, element, subset, universal set, set operations universal set - 전체 셋 set operation - 셋을 갖고 연산을 수행하는 것 disjoint sets - A $\cap$ B = $\phi$ - 두개의 셋사이에 겹치는 것이 없는것 partition of A - A = {1, 2, 3, 4}, partition of A: {{1,2}..

수학/Bayesian 2021.07.25

트랜스포머 정리

트랜스포머 헷갈리는 부분 정리 단어 토큰은 id 형태로 정수로 표현된다. one hot 으로 표현된 단어 토큰들을 concat하여 행렬을 만들어준다. 행렬을 nn.Embedding에 전달하여 정수를 벡터로 표현한다.(학습을 통해 단어의 분산 표현이 가능해짐. 분산 표현이 가능해지면 다른 단어들과 유사도를 측정 가능) 이제 단어 임베딩들을 nn.Linear에 전달하여 Key, Query, Value로 만들어줍니다. 단어 임베딩을 바로 사용하지 않고 별도의 K, Q, V로 만들어서 self-attention에 전달하는 이유는 K,Q,V의 의미가 다 다르기 떄문. Q : 현재 기준으로 삼는 단어의 정보 K : Q와 비교할 단어의 정보 V : 실제로 각 K 단어에서 가져올 정보 Q, K, V 모두 다르게 학습됌..

[ISLR] 부분 최소 제곱(PLS, Partial Least Squares)

부분 최소 제곱(PLS, Partial Least Squares) 부분 최소 제곱(PLS)는 PCR(주성분 회귀)의 supervised alternative 입니다. PLS는 기존 특징의 선형 결합으로 이루어진 새로운 특징 집합 ($Z_1, ... , Z_M$)을 식별합니다. 그리고나서 이 M개의 특징을 사용하여 최소 제곱 방법을 통해 선형 모델을 적합(fit) 합니다. PCR과 가장 큰 차이점은 supervised way 라는 것입니다. 반응 변수 Y를 사용하여 새로운 특징들을 식별하기 때문에 기존 특징들을 잘 설명할 뿐만아니라 반응 변수와 연관성이 있습니다. 즉, PLS는 반응 변수와 설명 변수 사이를 설명하는 방향을 찾습니다. 우선, p개의 설명 변수들을 standardizing 한 후에, 기존 변..

[벡터 미적분학] 라그랑주 승수법(Lagrange Multipliers)

제약조건(constraint) 또는 추가조건(side condition)이 주어진 상황에서 함수의 최대값이나 최소값을 구해야하는 경우가 있습니다. 예를 들어 $x^2 + y^2 = 1$ 조건에서 함수 f(x,y)의 최대값을 찾는 경우입니다. 이 경우에 (x,y)는 g(x,y) = 1 의 등위선(level curve) 입니다. 이번 포스팅에서 이런 종류의 문제를 다루는 방법에 대해 공부하겠습니다. 라그랑주 승수법(Lagrange Multipliers) S는 x가 g(x) = c를 만족하는 R^n의 집합이라고 하겠습니다. f의 정의역을 S로 제한할 때도 f의 극소값, 극대값은 유효하여 최대, 최소값은 극값이 됩니다. 다음 정리는 제약조건에서 극값을 구하는 데 필요조건을 제공합니다. flS는 함수 f의 정의역..

반응형