머신러닝 워크플로우
AI(머신러닝, 딥러닝)
요약
-
머신 러닝 워크플로우는 특정 도메인의 데이터를 수집해서 점검 및 탐색을 통해 데이터의 특징들을 파악한다. 그리고 파악된 정보로 전처리 및 정제를 통해 학습하기 위한 데이터로 변형 및 어떤 모델링으로 선택할지 파악한다. 특정 모델링으로 선택 했다면 모델링 훈련을 통해 테스트 데이터로 평가하여 하이퍼 파라미터 수정 등 성능을 높이는 작업을 반복해준다. 성능이 좋은 모델링으로 배포를 하고 그 데이터가 수집된다면 앞과 같은 과정을 반복하여 성능을 좋게 만드는 작업이다.
단계별 간단한 설명
수집
- 머신러닝에 학습시킬 데이터를 수집하는 것이다.
- 데이터는 컴퓨터에 기록될 수 있는 다양한 형태(텍스트, 음성, 영상 등)를 가지고 있다.
점검 및 탐색
- 데이터를 점검하고 탐색하는 단계
- 데이터 구조 파악
- 잡음(노이즈), 특이치, 이상치, 데이터 파악
- 머신러닝에 적용하기 위해 데이터를 어떻게 전처리 해야하는지 파악
- 탐색적 데이터 분석 (Exploratory Data Analysis, EDA) 단계라고도 한다.
전처리 및 정제
- 학습하기 위해 데이터를 특정 형태로 정리해주는 단계
- 많은 단계를 다루고 있는데 실제 학습 데이터로 입출력에 넣을 수 있도록 변형하거나 값이 너무 커서 데이터의 스케일을 변형하는 등 원하는 작업에 따라 방법 또한 매우 다양한다.
- 어떤 모델링을 선택할지에 따라 처리과정도 다르다.
모델링 및 훈련
- 전처리가 완료된 데이터를 머신러닝 알고리즘을 통해 기계에 학습(train)한다.
- 과적합을 방지하기 위해서
- 단, 평가를 하기 위해 모든 데이터를 학습하는 것이 아닌 테스트(test) 데이터를 남겨두어야 한다.
- 좀 더 평가를 확실하게 하려면 검증(dev) 데이터도 남겨 같이 평가에 활용한다.
평가
- 학습된 모델의 성능을 평가한다.
배포
- 평가에서 만족할만한 결과가 나왔다면 해당 모델을 배포하는 단계이다
- 모델의 추후 전체적인 피드백이 있다면 수집단계로 돌아가 위와 같은 과정을 반복하게 된다.
수집
- 머신러닝에 학습시킬 데이터
- 자연어처리
- 말뭉치, 코퍼스(corpus) : 조사나 연구 목적에 의해서 특정 도메인으로부터 수집된 텍스트 집합을 말합니다.
- 텍스트 데이터의 파일 형식
- txt파일
- csv파일
- xml파일
- json파일 등
- 출처
- 음성 데이터
- 웹 수집기를 통해 수집된 데이터
- 영화 리뷰 등
점검 및 탐색, 탐색적 데이터 분석(EDA) 단계
- 데이터를 점검하고 탐색하는 단계
- 데이터의 구조
- 데이터 타입(독립변수, 종속 변수, 변수 유형, 변수의 데이터 타입 등)
- 노이즈 데이터
- 머신러닝 적용을 위해서 데이터를 어떻게 정제해야하는지 등
- 데이터의 특징과 내재하는 구조적 관계를 알아내는 과정을 의미
- 데이터의 구조
참조 사이트 및 책
딥 러닝을 이용한 자연어 처리 입문 책을 보고 복습할 겸 작성한 글로 깊고 자세한 공부는 해당 링크를 통해 공부하는 것을 추천드립니다.