N221

결정트리 decision tree

회귀/분류문제에 모두 사용 가능한 데이터를 분할하는 알고리즘
분류과정을 트리구조로 직관적으로 확인 가능
- 노드(node)- 질문의 정담
- 엣지(edge)- 노드를 연결하는 선
- 뿌리(root) - 시작점. 1st Node
- 중간(internal) - 뿌리와 말단 사이에 있는 모든 노드들
- 말단(external, leaf, terminal) - 마지막 노드들

Untitled

결정트리 학습 알고리즘

결정트리를 학습하기 = 노드를 어떻게 분할하는가의 문제
결정트리의 비용함수를 최소화하게 분할하는 게 트리모델 학습 알고리즘
비용함수
- 지니불순도: 많은 범주들이 속할수록 값이 커짐
  - 불순도(impurity): 여러 범주가 섞여 있는 정도
    
    → 불순도 낮으면 지니불순도 값도 낮아짐
- 엔트로피: 한 노드에서 모든 변수들이 한 범주에 속할 경우 0으로 도출
  - 불순도가 낮은 경우 엔트로피는 낮은 값 가짐
⇒ 노드를 분할하는 시점에서 가장 비용함수를 줄이는 분할특성/분할지점을 찾아내는 프로세스 필요
- 분할에 사용할 특성이나 분할지점(값)은 타겟변수를 가장 잘 구별해 주는(=불순도의 감소가 최대가 되는=정보획득이 가장 큰)것을 선택함
  - 정보획득: 특정 특성을 사용해 분할할 때 엔트로피의 감소량

특성중요도

항상 양수값이며, 이 값으로 특성이 얼마나 일찍, 자주 분기에 사용될 지 결정
불순도 감소량이 클수록 그 특성으로 분기했을 때 1 or 0인지 분기를 더 잘 해줄 것이라고 예상되기 때문에 이 감소량이 클수록 중요한 특성

N222

결정트리 단점:
- 한 개의 트리만 사용하기 때문에 한 노드에서 생긴 에러가 하부 노드에서도 계속 영향
- 트리의 깊이에 따라 과적합되는 경향
→ 이러한 문제는 앙상블모델인 랜덤포레스트를 사용하면 쉽게 해결할 수 있음

Random Forest

랜덤포레스트는 결정트리를 기본모델로 사용하는 앙상블 방법

앙상블 방법: 한 종류의 데이터로 여러 머신러닝 학습모델(weak base learner, 기본모델)을 만들어 그 모델들의 예측결과를 다수결이나 평균을 내어 예측하는 방법

Untitled

기본모델 만드는 방법: bagging(=Bootstrap Aggregating)

bootstrap sampling→ 모델 학습 → 결과 합침 = “bagging”