카운트 벡터에서는 빈도는 일종의 가중치로 작용하기에 빈도가 높을수록 중요한 단어로 취급 되는 경향이 있다.

     그렇다면 어떤 단어가 모든 문서에 나타난다면 그 단어는 과연 중요한 단어일까?

     모든 문서에 'the' 의 빈도수가 높다고 해서 중요하다고 생각하긴 어려울 것이다. 

     이걸 다시 얘기하면 모든 문서에 다 들어있는 단어는 별로 중요하지 않다.

     이러한 의미를 카운트 벡터에 반영한 것이 바로 TF-IDF 이다. 

 

    1. TF-IDF 란?

      용어 그대로 해석하면 단어빈도(Term Frequency) - 역문서빈도(Inverse Document Frequency) 인데,

      카운트 대신 단어의 빈도에 그 단어가 출현한 문서 수의 역수를 곱했다는 뜻이다.

 

      TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하며,

      특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단한다.

      TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것이다.

      즉, the나 a와 같이 불용어의 경우에는 모든 문서에 자주 등장하기 때문에

      불용어의 TF-IDF의 값은 다른 단어의 TF-IDF에 비해서 낮아지게 된다. 

 

    2. 예제

 

      위의 예제에서 카운트 벡터의 값(DTM)과 TF-IDF의 벡터 값이 다른것을 확인할 수 있다.

      또한, DTM의 결과에서 값이 0인것은 TF-IDF의 결과에서도 값은 0이다.

 

 

 

 

 

 

 

 

 

 

      REFERENCE  

     파이썬 텍스트 마이닝 완벽 가이드

     https://wikidocs.net/31698      

+ Recent posts