-
고유벡터(Eigenvector), 고유값(Eigenvalue)
- 변환은 벡터를 다른 위치로 옮긴다고 해석 가능. 이 때, 3차원 공간을 회전 변환한다고 할 때, 그에 영향을 받지 않는(방향이 변하지 않는) 회전축을 해당 공간의 고유벡터라고 함. 이 때, 크기는 변하는데 이 크기를 고유값(Eigenvalue)이라 함.
- 정의 : (변환 행렬) A의 고유벡터가 x, 고유값은 람다.


-
고차원의 문제 : 높은 차원(특성, 피처, 열의 개수가 많은) 데이터셋을 모델링하거나 분석할 때에 생기는 여러 문제점. 모든 특성이 동일하게 중요하지는 않기 때문에 이런 문제를 피하기 위해 더 적은 특성을 사용하는 게 효율적일 것.
- 특성 수 P, 표본 수 N일 때, 다음과 같은 경우 매우 높은 과적합(overfitting) 문제가 생김.
$$
P>=N
$$
-
특징 선택(Feature selection)과 특징 추출(Feature extraction)
- 특징 선택
- 장점 : 선택된 특징 해석이 쉬움.
- 단점 : 특성들 간의 연관성을 고려해야 함.
- LASSO, 유전 알고리즘
- 특징 추출
- 장점 : 특성 간 연관성 고려됨. 특성 수 많이 줄일 수 있음.
- 단점 : 특성 해석이 어려움.
- PCA, 오토인코더
-
주성분분석
- 여러 개의 양적 변수들 사이 분산-공분산 관계를 이용하여 변수들의 선형 결합으로 표시되는 주성분을 찾고, 2-3개의 주성분으로 전체 변동(variance)의 대부분을 설명하고자 하는 다변량분석법.
-
PCA(주성분분석)
- 고차원 데이터를 효과적으로 분석하기 위한 기법
- 저차원으로 차원축소
- 고차원 데이터를 효과적으로 시각화
- 원래 고차원 데이터의 정보(분산)를 최대한 유지하는 벡터를 찾고, 해당 벡터에 대해 데이터를 투영.
-
PCA 과정