메인 용어들:
대소문자 통일
lower, replace, ...)정규 표현식(Regular expression, Regex)
a-z(소문자), A-Z(대문자), 0-9(숫자)를 ^ 제외한 나머지 문자를 regex 에 할당한 후 .sub 메서드를 통해서 공백 문자열 "" 로 치환해줍니다.In [ ]:

불용어(Stop words) 처리
통계적 트리밍(Trimming)

어간 추출(Stemming) 혹은 표제어 추출(Lemmatization)
Document-Term Matrix (DTM) 문서-단어 행렬
Ex.

Bag of Words (BoW) : Term Frequency (TF)
CountVectorizer 적용
Bag of Words (BoW) : Term Frequency - Inverse Document Frequency (TF - IDF)
중요한/의미있는 단어에만 가중치를 두는 방법
TF- IDF 수식

TF(Term-Frequency)는 특정 문서에서 단어 w가 쓰인 빈도입니다. 분석할 문서에서 단어 w 가 등장하는 횟수를 구하게 됩니다.

IDF(Inverse Document Frequency)는 분류 대상이 되는 모든 문서의 수를 단어 w 가 들어있는 문서의 수로 나누어 준 뒤 로그를 취해준 값입니다.

실제 계산에서는 0으로 나누어 주는 것을 방지하기 위해서 분모에 1을 더해준 값을 사용합니다.분류대상이 되는 모든 문서의 수, 단어가 들어있는 문서의 수, 분류 대상이 되는 모든 문서의 수: n단어 w가 들어있는 문서의 수: df(w) 라 하면 IDF는 다음과 같이 구해집니다.
TfidfVectorizer 적용
유사도를 이용한 문서 검색