14 March 2023 / EXITEM, TIL

TF-IDF

TF-IDF (용어 빈도 - 역 문서 빈도)

TF-IDF; Term Frequency-Inverse Document Frequency’
정보 검색에서 문서의 내용을 수치화하는 데에 사용되는 방법입니다.
단어의 빈도와 문서 내에서의 출현 빈도를 고려하여 각 단어에 대한 가중치를 계산합니다.
문서 검색, 정보 검색, 문서 분류 등의 분야에서 널리 사용되는 기법입니다.
다양한 자연어 처리 기술에서 활용됩니다.

개념

Term Frequency(TF)
- 문서에서 단어가 얼마나 자주 나타나는지를 측정합니다.
- 각 단어의 TF는 해당 단어가 문서에 나타나는 빈도를 나타냅니다.
Inverse Document Frequecncy(IDF)
- 전체 문서 집합에서 단어가 얼마나 희귀한지를 측정합니다.
- IDF는 문서 내에서 단어가 나타날 때마다 역수를 취하여 계산됩니다.
- 즉, 문서 집합에서 자주 나타나는 단어에는 낮은 가중치가 부여되고, 드물기 나타나는 단어에는 높은 가중치가 부여됩니다.

계산

각 단어의 TF와 IDF를 곱하여 계산됩니다.
- 이 값은 각 단어의 중요도를 나타냅니다.
높은 TF-IDF 값을 가지는 단어는 문서의 주요 특징을 잘 나타내는 단어라고 할 수 있습니다.
이를 통해 문서 검색 등에서 관련성이 높은 문서를 더 잘 찾을 수 있습니다.

예시

dog 라는 단어가 문서에서 5번 나타났습니다.
전체 문서 집합에서 dog 라는 단어가 드물게 나타났다면, TF-IDF 값은 높아집니다.
이는 단어가 문서의 특징을 잘 나타내는 중요한 단어라는 것을 나타내며, 이를 통해 이 문서가 dog과 관련이 높다는 것을 나타내는 검색 결과에서 상위에 나타날 수 있게 됩니다.

활용

단어의 빈도수를 고려하기 때문에, 자주 나타나는 단어에 대해서는 높은 가중치를 부여하고, 드물게 나타나는 단어에 대해서는 높은 가중치를 부여합니다.
- 이러한 방식은 다른 기술과 함께 사용될 때 좋은 결과를 낼 수 있습니다.
불용어 제거에도 사용할 수 있습니다.
- 자주 나타나지만 분석에 필요하지 않은 단어들을 제거하고, 중요한 단어들에 대해서만 TF-IDF 가중치를 계산하여 분석을 수행할 수 있습니다.
다른 기술과 결합하여 토픽 모델링이나 감성 분석 등의 작업에서도 활용됩니다.
- 이러한 분야에서도 TF-IDF를 활용하여 각 단어의 중요도를 계산하고, 이를 바탕으로 분석을 수행합니다.

한계

동음이의어나 유사어의 처리에 대해서는 한계가 있습니다.
- 이러한 문제를 해결하기 위해서는 단어 임베딩(word embedding) 등의 기술을 함께 사용해야 합니다.
긴 문서에서는 단어의 빈도수가 과도하게 높아져서, 가중치가 높은 단어가 특별한 의미를 가지지 않는 경우도 있습니다.

—

TF-IDF