/ EXITEM, TIL

TF-IDF

TF-IDF (용어 빈도 - 역 문서 빈도)

  • TF-IDF; Term Frequency-Inverse Document Frequency’
  • 정보 검색에서 문서의 내용수치화하는 데에 사용되는 방법입니다.
  • 단어의 빈도와 문서 내에서의 출현 빈도를 고려하여 각 단어에 대한 가중치를 계산합니다.
  • 문서 검색, 정보 검색, 문서 분류 등의 분야에서 널리 사용되는 기법입니다.
  • 다양한 자연어 처리 기술에서 활용됩니다.

개념

  • Term Frequency(TF)
    • 문서에서 단어가 얼마나 자주 나타나는지를 측정합니다.
    • 각 단어의 TF는 해당 단어문서나타나는 빈도를 나타냅니다.
  • Inverse Document Frequecncy(IDF)
    • 전체 문서 집합에서 단어가 얼마나 희귀한지를 측정합니다.
    • IDF는 문서 내에서 단어가 나타날 때마다 역수를 취하여 계산됩니다.
    • 즉, 문서 집합에서 자주 나타나는 단어에는 낮은 가중치가 부여되고, 드물기 나타나는 단어에는 높은 가중치가 부여됩니다.

계산

  • 각 단어의 TFIDF하여 계산됩니다.
    • 이 값은 각 단어의 중요도를 나타냅니다.
  • 높은 TF-IDF 값을 가지는 단어는 문서의 주요 특징을 잘 나타내는 단어라고 할 수 있습니다.
  • 이를 통해 문서 검색 등에서 관련성이 높은 문서를 더 잘 찾을 수 있습니다.

예시

  • dog 라는 단어가 문서에서 5번 나타났습니다.
  • 전체 문서 집합에서 dog 라는 단어가 드물게 나타났다면, TF-IDF 값은 높아집니다.
  • 이는 단어가 문서의 특징을 잘 나타내는 중요한 단어라는 것을 나타내며, 이를 통해 이 문서가 dog과 관련이 높다는 것을 나타내는 검색 결과에서 상위에 나타날 수 있게 됩니다.

활용

  • 단어의 빈도수를 고려하기 때문에, 자주 나타나는 단어에 대해서는 높은 가중치를 부여하고, 드물게 나타나는 단어에 대해서는 높은 가중치를 부여합니다.
    • 이러한 방식은 다른 기술과 함께 사용될 때 좋은 결과를 낼 수 있습니다.
  • 불용어 제거에도 사용할 수 있습니다.
    • 자주 나타나지만 분석에 필요하지 않은 단어들을 제거하고, 중요한 단어들에 대해서만 TF-IDF 가중치를 계산하여 분석을 수행할 수 있습니다.
  • 다른 기술과 결합하여 토픽 모델링이나 감성 분석 등의 작업에서도 활용됩니다.
    • 이러한 분야에서도 TF-IDF를 활용하여 각 단어의 중요도를 계산하고, 이를 바탕으로 분석을 수행합니다.

한계

  • 동음이의어유사어의 처리에 대해서는 한계가 있습니다.
    • 이러한 문제를 해결하기 위해서는 단어 임베딩(word embedding) 등의 기술을 함께 사용해야 합니다.
  • 긴 문서에서는 단어의 빈도수과도하게 높아져서, 가중치가 높은 단어가 특별한 의미가지지 않는 경우도 있습니다.