• 분산 : 자료들이 불규칙하게 분포하는 정도를 나타내서 데이터가 얼마나 퍼져있는지 가늠해볼 수 있음.

    • (각 값들의 평균으로부터 차이)의 제곱의 평균 → 분산을 구하기 위해서 우선 평균을 계산

    Untitled

  • 표준편차 : 분산에 양의 제곱근 한 것

    • 자료들은 표준 편차가 작을수록 평균값 주변에 몰려 있게 되고, 표준 편차가 클수록, 평균값에서 떨어져 있게 됨.
  • 공분산(covariance) : 두 개의 확률변수 간 선형 관계를 나타내는 값. 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정하는 것.

    • 음의 공분산 : 변수 두 개 중 하나의 값이 상승하는 경향을 보일 때 다른 값이 하강하는 선형 상관성.
    • 0에 가까운 공분산.
    • 양의 공분산 : 변수 두 개 중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성.

    Untitled

    • 두 개의 확률 변수에 대해 공분산은 다음과 같이 정의된다.

    Untitled

    Untitled

    • 두 개의 확률 변수 A, B의 공분산 행렬은 각 변수 쌍에 대해 계산된 공분산 값으로 구성된 행렬

    Untitled

  • 상관계수(correlation)

    • 확률변수의 절대적 크기에 영향을 받지 않도록 단위화 시킨 것.
    • 분산의 크기만큼 나누었다고 생각하면 됨.
    • 정의

    Untitled

    • 성질
      1. 상관계수의 절대값은 1을 넘을 수 없다.
      2. 확률변수 X, Y가 독립이라면 상관계수는 0이다.
      3. X와 Y가 선형적 관계라면 상관계수는 1 혹은 -1이다. → 어떤 값이라도 가질 수 있는 공분산에 비해 값이 제한적이라 비교가 쉽다.
  • 직교성(orthogonality) : 벡터 혹은 행렬이 직교(수직으로 만남)하는 상태

    • 직교하는 두 벡터는 상관 관계가 전혀 없다!
  • 스팬(Span) : 두 벡터의 조합으로 만들 수 있는 모든 가능한 벡터의 집합. 그리고 그 벡터들이 이루는 공간.

  • 벡터 간 선형 관계

    • 두 벡터가 같은 선상에 있는 경우, 이 벡터들은 선형 관계에 있다(일차 종속, linearly dependent)고 표현.
    • 선형 관계가 없는(linearly independent, 일차 독립) 벡터는 같은 선상에 있지 않은 벡터들을 말함.
  • 기저(Basis) : 벡터 공간 V의 기저는 V를 채울 수 있는, 일차 독립인 벡터들의 모음.

    Untitled

  • 직교 기저(orthogonal basis) : 기저 중 직교하는 기저들

  • 표준 직교 기저(orthonormal basis) : 직교 기저를 표준화한 것. 길이가 1

  • 랭크(rank) : 행렬의 열을 이루고 있는 벡터들로 만들 수 있는 스팬의 차원

    • 가우스 소거법으로 확인을 많이 함
    • 행 사다리꼴(row-echelon form) : 다음과 같이 행렬 성분들이 계단형으로 배열

    Untitled

  • 선형 투영(정사영, linear projections)

    Untitled

  • 정사영을 공부하는 이유

    • 근사값을 구하기 위함.