카운트 벡터에서는 빈도는 일종의 가중치로 작용하기에 빈도가 높을수록 중요한 단어로 취급 되는 경향이 있다.
그렇다면 어떤 단어가 모든 문서에 나타난다면 그 단어는 과연 중요한 단어일까?
모든 문서에 'the' 의 빈도수가 높다고 해서 중요하다고 생각하긴 어려울 것이다.
이걸 다시 얘기하면 모든 문서에 다 들어있는 단어는 별로 중요하지 않다.
이러한 의미를 카운트 벡터에 반영한 것이 바로 TF-IDF 이다.
1. TF-IDF 란?
용어 그대로 해석하면 단어빈도(Term Frequency) - 역문서빈도(Inverse Document Frequency) 인데,
카운트 대신 단어의 빈도에 그 단어가 출현한 문서 수의 역수를 곱했다는 뜻이다.
TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하며,
특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단한다.
TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것이다.
즉, the나 a와 같이 불용어의 경우에는 모든 문서에 자주 등장하기 때문에
불용어의 TF-IDF의 값은 다른 단어의 TF-IDF에 비해서 낮아지게 된다.
2. 예제

위의 예제에서 카운트 벡터의 값(DTM)과 TF-IDF의 벡터 값이 다른것을 확인할 수 있다.
또한, DTM의 결과에서 값이 0인것은 TF-IDF의 결과에서도 값은 0이다.
REFERENCE
파이썬 텍스트 마이닝 완벽 가이드
'데이터 분석 > 자연어 처리' 카테고리의 다른 글
영문 텍스트(소설) 가지고 관계도 만들기 (0) | 2023.11.13 |
---|---|
2.8 코사인 유사도(Cosine Similarity) (2) | 2023.02.03 |
2.6 문서 단어 행렬(Document-Term Matrix, DTM) (1) | 2023.01.19 |
2.5 Bag of Words(BoW) (0) | 2023.01.16 |
2.4 품사 태깅(PoS Tagging) (0) | 2023.01.10 |