/ AI

머신러닝 워크플로우

AI(머신러닝, 딥러닝)


머신러닝 워크플로우

요약

  • 머신 러닝 워크플로우는 특정 도메인의 데이터를 수집해서 점검 및 탐색을 통해 데이터의 특징들을 파악한다. 그리고 파악된 정보로 전처리 및 정제를 통해 학습하기 위한 데이터로 변형 및 어떤 모델링으로 선택할지 파악한다. 특정 모델링으로 선택 했다면 모델링 훈련을 통해 테스트 데이터로 평가하여 하이퍼 파라미터 수정 등 성능을 높이는 작업을 반복해준다. 성능이 좋은 모델링으로 배포를 하고 그 데이터가 수집된다면 앞과 같은 과정을 반복하여 성능을 좋게 만드는 작업이다.

단계별 간단한 설명

수집

  • 머신러닝에 학습시킬 데이터를 수집하는 것이다.
  • 데이터는 컴퓨터에 기록될 수 있는 다양한 형태(텍스트, 음성, 영상 등)를 가지고 있다.

점검 및 탐색

  • 데이터를 점검하고 탐색하는 단계
  • 데이터 구조 파악
  • 잡음(노이즈), 특이치, 이상치, 데이터 파악
  • 머신러닝에 적용하기 위해 데이터를 어떻게 전처리 해야하는지 파악
  • 탐색적 데이터 분석 (Exploratory Data Analysis, EDA) 단계라고도 한다.

전처리 및 정제

  • 학습하기 위해 데이터를 특정 형태로 정리해주는 단계
  • 많은 단계를 다루고 있는데 실제 학습 데이터로 입출력에 넣을 수 있도록 변형하거나 값이 너무 커서 데이터의 스케일을 변형하는 등 원하는 작업에 따라 방법 또한 매우 다양한다.
  • 어떤 모델링을 선택할지에 따라 처리과정도 다르다.

모델링 및 훈련

  • 전처리가 완료된 데이터를 머신러닝 알고리즘을 통해 기계에 학습(train)한다.
  • 과적합을 방지하기 위해서
    • 단, 평가를 하기 위해 모든 데이터를 학습하는 것이 아닌 테스트(test) 데이터를 남겨두어야 한다.
    • 좀 더 평가를 확실하게 하려면 검증(dev) 데이터도 남겨 같이 평가에 활용한다.

평가

  • 학습된 모델의 성능을 평가한다.

배포

  • 평가에서 만족할만한 결과가 나왔다면 해당 모델을 배포하는 단계이다
  • 모델의 추후 전체적인 피드백이 있다면 수집단계로 돌아가 위와 같은 과정을 반복하게 된다.

수집

  • 머신러닝에 학습시킬 데이터
  • 자연어처리
    • 말뭉치, 코퍼스(corpus) : 조사나 연구 목적에 의해서 특정 도메인으로부터 수집된 텍스트 집합을 말합니다.
  • 텍스트 데이터의 파일 형식
    • txt파일
    • csv파일
    • xml파일
    • json파일 등
  • 출처
    • 음성 데이터
    • 웹 수집기를 통해 수집된 데이터
    • 영화 리뷰 등

점검 및 탐색, 탐색적 데이터 분석(EDA) 단계

  • 데이터를 점검하고 탐색하는 단계
    • 데이터의 구조
      • 데이터 타입(독립변수, 종속 변수, 변수 유형, 변수의 데이터 타입 등)
    • 노이즈 데이터
    • 머신러닝 적용을 위해서 데이터를 어떻게 정제해야하는지 등
    • 데이터의 특징과 내재하는 구조적 관계를 알아내는 과정을 의미

참조 사이트 및 책

딥 러닝을 이용한 자연어 처리 입문 책을 보고 복습할 겸 작성한 글로 깊고 자세한 공부는 해당 링크를 통해 공부하는 것을 추천드립니다.