반응형

분류 전체보기 823

[정보 이론] 엔트로피에서 연쇄 법칙(Chain Rule for Entropy)

Chain Rule for Entropy 엔트로피에서도 연쇄 법칙이 성립합니다. 이전 포스팅에서의 entropy diagram을 생각해 보았을 때, H(1,2) = H(1) + H(2$\mid$1)은 당연합니다. Chain Rule for Conditional Entropy 조건부 엔트로피에 대해서도 연쇄 법칙이 성립합니다. Chain Rule for Mutual Information Chain Rule for Conditional Mutual Information 증명은 너무 어렵네요..ㅎㅎ 다른 증명입니다. 출처: Coursera Information Theory 강의 https://www.coursera.org/learn/information-theory/home/info Coursera | Onl..

수학/정보이론 2021.08.02

[ISLR] 서포트 벡터 분류기(Support Vector Classifiers)

서포트 벡터 분류기(Support Vector Classifiers) 위 그림 같은 경우에 training observation은 분리 초평면(separating hyperplane)에 의해 분류되지 않습니다. 이처럼 두 class에 속하는 관측치(observation)들이 항상 초평면에 의해 분류되는 것은 아닙니다. 또한 관측치가 하나 추가되면 위 그림처럼 초평면이 급격하게 변화될 수 있습니다. 마진이 급격하게 감소했는데 마진은 observation에 할당된 class의 확신을 의미하므로 문제가 발생할 수 있습니다. 이처럼 분리 초평면에 기반한 분류기는 하나의 개별 관측치에 민감하게 반응할 수 있습니다. 또한 과적합을 유발할 수 있습니다. 이 경우에 관측값들을 완벽하게 두 클래스로 분리하지 않는 초평면..

[ISLR] 최대 마진 분류기(The Maximal Margin Classifier)

최대 마진 분류기(The Maximal Margin Classifier) 데이터를 초평면을 사용하여 완벽하게 분류할 수 있다면 무한개의 초평면이 존재할 것입니다. 초평면이 어느 관측치와도 만나지 않으면서 약간 위 아래로 움직일 수 있기 때문입니다. 분리 초평면을 사용한 분류기를 구성하기 위하여 어떤 초평면을 사용해야 할지 합리적인 방법이 있어야 합니다. training observation으로부터 가장 멀리 떨어진 분리 초평면(separating hyperplane)인 최대 마진 초평면(maximal margin hyperplane)을 선택하는 것이 자연스럽습니다. 즉, 주어진 분리 초평면 부터 각 training observation 까지의 수직 거리를 계산하고 가장 작은 거리를 마진(margin)이라..

[ISLR] 초평면(Hyperplane)에 대하여, 분리 초평면(Separating hyperplane)

초평면(Hyperplane)에 대하여 p차원 공간에서, 초평면은 p-1 차원인 평평한 affine 부분 공간 입니다. 예를 들어, 2차원 공간에서 초평면은 평평한 1차원 부분공간 입니다. 즉, 선 입니다. 3차원에서 초평면은 평평한 2차원 부분공간이며 이는 평면입니다. p > 3인 경우에는 초평면을 시각화하기가 어렵지만 p-1 차원인 평평한 부분 공간인 것은 여전히 유효합니다. 2차원에서 초평면의 수학적인 정의는 다음의 방정식으로 정의합니다. 2차원의 초평면은 1차원 선입니다. 2차원 파라미터 $\beta _0, \beta _1, \beta_ 2$가 존재하며 $X_1, X_2$는 초평면 상 임의의 점입니다. 위 식은 임의의 p차원으로 확장할 수 있습니다. 즉 p차원에 대한 초평면은 아래의 식으로 정의합니..

카테고리 없음 2021.08.02

[논문 읽기] Centroid Transformer(2021)

Centroid Transformers: Learning to Abstract with Attention Lemeng Wu, Xingchao Liu, Qiang Liu, arXiv 2021 PDF, Transformer By SeonghoonYu August 02th, 2021 Summary 센트로이드 트랜스포머는 N개의 입력값을 M개의 요소로 요약합니다. 이 과정에서 필요없는 정보를 버리고 트랜스포머의 계산 복잡도를 O(MN)으로 감소합니다. M개의 요소는 Clustering의 centroid로 생각해 볼 수 있는데, 이 M개의 요소를 어떻게 선정하는 지가 핵심 아이디어로 생각해볼 수 있습니다. M개의 centroid를 선정하기 위해 입력값 x와 centroid 사이의 유사도를 측정하고 손실함수를 설계..

[영작] 20.08.02, 10문장

1. 그녀는 파티 손님 목록에 그녀의 친구 몇 명을 포함시켰습니다. - she included some of her friends on the party guest list. 2. 그녀는 자신을 재미있고 외향적이라고 묘사합니다. - She describes herself as funny and outgoing. 3. 여러분의 협조에 매우 감사드리며 이것으로 인해 야기될 수 있는 불편함에 대해 사과드립니다. - Thanks so much for your cooperation and we apologize for inconvenience this may cause. 4. 닭은 다른 새들과 마찬가지로 알을 낳습니다. - Chickens lay eggs as do other birds. 5. 강한 위약 효과가 ..

[정보 이론] Continuity of Shannon's Information Measures for Fixed Finite Alphabets

Continuity of Shannon's Information Measuers for Fixed Finite Alphabets All Shannon's information measures are continuous when the alphabets are fixed and finite. For countable alphabets, Shannon's information measures are everywhere discontinuous 이번 내용에서 배우는 내용은 이 책의 범위에 벗어나지만 어느정도 이해를 해야합니다. finite alphabets와 countable alphabets 사이에 큰 차이점이 존재합니다. finite alphabets에서는 shannon's information measu..

수학/정보이론 2021.08.01

[ISLR] 부스팅(Boosting)

부스팅(Boosting) 결정 트리의 예측을 향상시키는 또다른 방법은 부스팅(boosting) 입니다. 부트스트랩을 사용하여 다수의 training data 부분 집합을 생성하여 각 부분 집합에 대하여 각 트리를 적합하고 결과값을 평균하는 것이 배깅이었습니다. 각 트리는 부트스트랩 데이터셋을 기반으로 구축되고 트리는 서로 독립적입니다. 부스팅은 트리들이 순차적으로 만들어지는 것을 제외하고 이와 비슷한 방법으로 작동합니다. 각 트리는 이전에 만들어진 트리로부터 정보를 사용하여 만들어집니다. 부스팅은 부트스트랩 샘플링을 사용하지 않습니다. 대신에 각 트리를 original dtaset의 수정된 버전에 적합합니다. 우선 회귀 트리를 고려하겠습니다. bagging과 같이 부스팅은 많은 수의 결정 트리를 결합합니..

[ISLR] 랜덤 포레스트(Random Forests)

랜덤 포레스트(Random Forests) 랜덤 포레스트는 트리들의 상관성을 제거하는 방법(decorrelate)으로 bagged tree에 대해 성능 향상을 제공합니다. bagging을 수행하기 위하여 decision tree를 구축해야 합니다. decision tree를 구축할 때, 전체 p개의 변수들 중에서 무작위 m개의 변수들로 분할을 수행할 것인지 고려해야 합니다. 분할은 이 m개의 변수중 하나만을 사용하여 진행하고, 각 분할에서 새로운 m개의 변수를 추출합니다. 일반적으로 m = $\sqrt{q}$로 선정합니다. 예를 들어 p=13이면 m=4를 선택합니다. 다른 말로하면, random forest를 만드는 도중에 트리의 각 분할에서 알고리즘은 사용가능한 다수의 변수들을 고려하는 것이 허용되지 ..

[ISLR] 배깅(Bagging)

배깅은 강력한 예측 모델을 구축하기위해 트리를 buidling block으로 사용합니다. 배깅(Bagging) 이전에 공부했었던 부트스트랩(bootstrap)은 관심있는 양의 표준 편차를 계산하기 어려운 상황에서 사용하는 강력한 아이디어 입니다. 이 부트스트랩을 결정트리와 같은 통계 방법 성능을 향상시키기 위해 완전히 다른 맥락으로 사용할 수 있습니다. 결정트리(decision tree)는 high variance가 문제 됩니다. 이는 학습 데이터를 무작위로 두 부분으로 분할하고 의사 결정 트리를 두 부분에 적합하면 두 결과가 상당히 다를 수 있다는 것을 의미합니다. 반면에 low variance는 서로 다른 데이터셋에 반복적으로 적합을 진행해도 동일한 결과를 생성하는 것을 의미합니다. 부트스트랩 통합(..

반응형