1. 정규화(Nomalization)란?

        같은 의미를 가진 동일한 단어이면서 다른 형태로 쓰여진 단어들을 통일해 표준 단어로 만드는 작업을 말한다.

        예를 들어 '간다', '갔다', '가려고 한다.' 등은 '가다'라는 기본형이 변환된 것이고  am, are, is는 서로 다른 스펠링이지만 

        기본형인 be가 변환된 것이다. 

        이처럼 이렇게 동일한 단어이지만 다른 형태로 쓰여진 단어를 표준 단어로 만드는 작업을 정규화라고 한다.

        정규화 방법에는 표제어 추출(Lemmatization)과 어간 추출(Stemming)이 있다.

 

     2. 표제어 추출(Lemmatization)

       표제어(Lemma)는 '기본 사전형 단어' 정도의 의미를 갖으며 표제어 추출은 단어들로부터 사전에 정의된 기본형을

       찾아가는 과정이다.

       표제어 추출은 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단한다.

       위에 예와 같이 am, are, is를 뿌리 형태인 be로 통합하는 방법을 말한다. 

 

     3. 어간 추출(Stemming)

       어간 추출은 '어형이 변형된 단어로부터 접사 등을 제거하고 그 단언의 어간을 분리해 내는 작업'을 말한다.

      a) 어형 : 단어의 형태
      b) 어간(stem) : 단어의 의미를 담고 있는 단어의 핵심 부분
      c) 접사(affix) : 단어에 추가적인 의미를 주는 부분

       

      예를들어 '간다', '갔다'에서 바뀌지 않는 부분인 '가'를, '작다', '작으니'에서 바뀌지 않는 부분인 '작'을 어간이라고 한다. 

      동사와 형용사가 서술의 시제나 묘사 의도에 따라 다양하게 변화할 때 변화하지 않는 부분을 어간이라고 하고,

      어간 추출은 그러한 어간을 분리하는 작업이다.

      어간 추출 알고리즘에는 포터 스테머(Porter Stemmer), 랭카스터 스테머(Lancaster Stemmer)가 있다.

       

        위의 결과와 같이 포터 스테머와 랭카스터 스테머의 결과가 다르다.

        어떤 스테머를 선택할지는 둘 다 수행해서 최종 결과를 비교해 보면 결정할 수 있다.

        분석 목적이나 대상에 따라 더 좋은 성능을 보이는 스테머가 달라질 수 있기 때문이다. 

 

 

 

 

 

 

      REFERENCE

      https://wikidocs.net/22530

      파이썬 텍스트 마이닝 완벽 가이드(2022)

'데이터 분석 > 자연어 처리' 카테고리의 다른 글

2.6 문서 단어 행렬(Document-Term Matrix, DTM)  (1) 2023.01.19
2.5 Bag of Words(BoW)  (0) 2023.01.16
2.4 품사 태깅(PoS Tagging)  (0) 2023.01.10
2.2 토큰화(Tokenization)  (0) 2023.01.09
2.1 정제(Cleaning)  (0) 2023.01.09

+ Recent posts