반응형

bagging 2

[ISLR] 랜덤 포레스트(Random Forests)

랜덤 포레스트(Random Forests) 랜덤 포레스트는 트리들의 상관성을 제거하는 방법(decorrelate)으로 bagged tree에 대해 성능 향상을 제공합니다. bagging을 수행하기 위하여 decision tree를 구축해야 합니다. decision tree를 구축할 때, 전체 p개의 변수들 중에서 무작위 m개의 변수들로 분할을 수행할 것인지 고려해야 합니다. 분할은 이 m개의 변수중 하나만을 사용하여 진행하고, 각 분할에서 새로운 m개의 변수를 추출합니다. 일반적으로 m = $\sqrt{q}$로 선정합니다. 예를 들어 p=13이면 m=4를 선택합니다. 다른 말로하면, random forest를 만드는 도중에 트리의 각 분할에서 알고리즘은 사용가능한 다수의 변수들을 고려하는 것이 허용되지 ..

[ISLR] 배깅(Bagging)

배깅은 강력한 예측 모델을 구축하기위해 트리를 buidling block으로 사용합니다. 배깅(Bagging) 이전에 공부했었던 부트스트랩(bootstrap)은 관심있는 양의 표준 편차를 계산하기 어려운 상황에서 사용하는 강력한 아이디어 입니다. 이 부트스트랩을 결정트리와 같은 통계 방법 성능을 향상시키기 위해 완전히 다른 맥락으로 사용할 수 있습니다. 결정트리(decision tree)는 high variance가 문제 됩니다. 이는 학습 데이터를 무작위로 두 부분으로 분할하고 의사 결정 트리를 두 부분에 적합하면 두 결과가 상당히 다를 수 있다는 것을 의미합니다. 반면에 low variance는 서로 다른 데이터셋에 반복적으로 적합을 진행해도 동일한 결과를 생성하는 것을 의미합니다. 부트스트랩 통합(..

반응형