
결정트리를 학습하기 = 노드를 어떻게 분할하는가의 문제
결정트리의 비용함수를 최소화하게 분할하는 게 트리모델 학습 알고리즘
비용함수
지니불순도: 많은 범주들이 속할수록 값이 커짐
불순도(impurity): 여러 범주가 섞여 있는 정도
→ 불순도 낮으면 지니불순도 값도 낮아짐

엔트로피: 한 노드에서 모든 변수들이 한 범주에 속할 경우 0으로 도출
불순도가 낮은 경우 엔트로피는 낮은 값 가짐

⇒ 노드를 분할하는 시점에서 가장 비용함수를 줄이는 분할특성/분할지점을 찾아내는 프로세스 필요
항상 양수값이며, 이 값으로 특성이 얼마나 일찍, 자주 분기에 사용될 지 결정
불순도 감소량이 클수록 그 특성으로 분기했을 때 1 or 0인지 분기를 더 잘 해줄 것이라고 예상되기 때문에 이 감소량이 클수록 중요한 특성
결정트리 단점:
→ 이러한 문제는 앙상블모델인 랜덤포레스트를 사용하면 쉽게 해결할 수 있음
랜덤포레스트는 결정트리를 기본모델로 사용하는 앙상블 방법

bootstrap sampling→ 모델 학습 → 결과 합침 = “bagging”