/ EXITEM, TIL

Stop Words

Stop Words 불용어

  • 자연어 처리(NLP)에서 ‘불용어(Stop Words)’는 분석하려는 문서에서 제거되는 일반적인 단어 또는 구문입니다.
  • 이러한 단어는 일반적으로 문장에서 나타나지만, 문서의 내용을 이해하는 데 큰 도움이 되지 않거나 분석에 불필요한 정보를 제공합니다.
  • 따라서 이러한 단어를 제거함으로써 분석의 정확성높일 수 있습니다.

예시

  • 영어에서는 ‘the’, ‘a’, ‘an’, ‘in’, ‘on’, ‘of’ 등이 일반적인 불용어입니다.

중요한 이유

  1. 불용어를 제거함으로써 모델링 과정에서 처리해야 하는 단어의 수를 줄일 수 있습니다.
    • 이는 모델링을 더 빠르고 효율적으로 만들 수 있습니다.
  2. 불용어를 제거하면 모델링 결과의 정확도가 향상됩니다.
    • 모델링을 수행하는 동안 고려해야 하는 단어의 수가 줄어들기 때문입니다.
  3. 예를 들어, 문서의 유사도를 계산한다고 가정합니다.
    • 불용어가 큰 영향을 미치지 않는다면, 문서의 길이다른 경우에도 문서 간의 유사도를 측정할 수 있습니다.
  4. 또 다른 예로, 감성 분석과 같은 작업을 한다고 가정합니다.
    • 문장에서 ‘그것’ 또는 ‘이것’과 같은 대명사불용어로 간주하고 제거함으로써 분석 결과를 더욱 정확하게 만들 수 있습니다.

주의

  • 불용어는 분석하려는 언어분석 목적에 따라 달라질 수 있습니다.
  • 따라서 분석하려는 데이터에 맞게 적절한 불용어 목록을 선정하는 것이 중요합니다.
  • 이러한 목록은 일반적으로 언어별로 구축되며, 대부분의 NLP 라이브러리에서는 불용어 목록을 제공하거나, 사용자 정의 불용어 목록을 지정할 수 있는 기능을 제공합니다.
  • 일부 상황에서는 불용어를 제거하지 않는 것이 더 나을 수 있습니다.
    • 예를 들어, 문서의 길이가 짧은 경우, 불용어가 전체적인 문맥을 파악하는 데 필수적일 수 있습니다.