2.7 TF-IDF (Term Frequency-Inverse Document Frequency)

2023. 1. 25. 10:45

카운트 벡터에서는 빈도는 일종의 가중치로 작용하기에 빈도가 높을수록 중요한 단어로 취급 되는 경향이 있다.

그렇다면 어떤 단어가 모든 문서에 나타난다면 그 단어는 과연 중요한 단어일까?

모든 문서에 'the' 의 빈도수가 높다고 해서 중요하다고 생각하긴 어려울 것이다.

이걸 다시 얘기하면 모든 문서에 다 들어있는 단어는 별로 중요하지 않다.

이러한 의미를 카운트 벡터에 반영한 것이 바로 TF-IDF 이다.

1. TF-IDF 란?

용어 그대로 해석하면 단어빈도(Term Frequency) - 역문서빈도(Inverse Document Frequency) 인데,

카운트 대신 단어의 빈도에 그 단어가 출현한 문서 수의 역수를 곱했다는 뜻이다.

TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하며,

특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단한다.

TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것이다.

즉, the나 a와 같이 불용어의 경우에는 모든 문서에 자주 등장하기 때문에

불용어의 TF-IDF의 값은 다른 단어의 TF-IDF에 비해서 낮아지게 된다.

위의 예제에서 카운트 벡터의 값(DTM)과 TF-IDF의 벡터 값이 다른것을 확인할 수 있다.

또한, DTM의 결과에서 값이 0인것은 TF-IDF의 결과에서도 값은 0이다.

파이썬 텍스트 마이닝 완벽 가이드

영문 텍스트(소설) 가지고 관계도 만들기 (0)	2023.11.13
2.8 코사인 유사도(Cosine Similarity) (2)	2023.02.03
2.6 문서 단어 행렬(Document-Term Matrix, DTM) (1)	2023.01.19
2.5 Bag of Words(BoW) (0)	2023.01.16
2.4 품사 태깅(PoS Tagging) (0)	2023.01.10

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`