13 March 2023 / EXITEM, TIL

Stop Words

Stop Words 불용어

불용어를 제거함으로써 모델링 과정에서 처리해야 하는 단어의 수를 줄일 수 있습니다.
- 이는 모델링을 더 빠르고 효율적으로 만들 수 있습니다.
불용어를 제거하면 모델링 결과의 정확도가 향상됩니다.
- 모델링을 수행하는 동안 고려해야 하는 단어의 수가 줄어들기 때문입니다.
예를 들어, 문서의 유사도를 계산한다고 가정합니다.
- 불용어가 큰 영향을 미치지 않는다면, 문서의 길이가 다른 경우에도 문서 간의 유사도를 측정할 수 있습니다.
또 다른 예로, 감성 분석과 같은 작업을 한다고 가정합니다.
- 문장에서 ‘그것’ 또는 ‘이것’과 같은 대명사를 불용어로 간주하고 제거함으로써 분석 결과를 더욱 정확하게 만들 수 있습니다.

불용어는 분석하려는 언어나 분석 목적에 따라 달라질 수 있습니다.
따라서 분석하려는 데이터에 맞게 적절한 불용어 목록을 선정하는 것이 중요합니다.
이러한 목록은 일반적으로 언어별로 구축되며, 대부분의 NLP 라이브러리에서는 불용어 목록을 제공하거나, 사용자 정의 불용어 목록을 지정할 수 있는 기능을 제공합니다.
일부 상황에서는 불용어를 제거하지 않는 것이 더 나을 수 있습니다.
- 예를 들어, 문서의 길이가 짧은 경우, 불용어가 전체적인 문맥을 파악하는 데 필수적일 수 있습니다.