3 February 2023 / AI

머신러닝 워크플로우

AI(머신러닝, 딥러닝)

머신러닝 워크플로우

요약

머신 러닝 워크플로우는 특정 도메인의 데이터를 수집해서 점검 및 탐색을 통해 데이터의 특징들을 파악한다. 그리고 파악된 정보로 전처리 및 정제를 통해 학습하기 위한 데이터로 변형 및 어떤 모델링으로 선택할지 파악한다. 특정 모델링으로 선택 했다면 모델링 훈련을 통해 테스트 데이터로 평가하여 하이퍼 파라미터 수정 등 성능을 높이는 작업을 반복해준다. 성능이 좋은 모델링으로 배포를 하고 그 데이터가 수집된다면 앞과 같은 과정을 반복하여 성능을 좋게 만드는 작업이다.

단계별 간단한 설명

수집

머신러닝에 학습시킬 데이터를 수집하는 것이다.
데이터는 컴퓨터에 기록될 수 있는 다양한 형태(텍스트, 음성, 영상 등)를 가지고 있다.

점검 및 탐색

데이터를 점검하고 탐색하는 단계
데이터 구조 파악
잡음(노이즈), 특이치, 이상치, 데이터 파악
머신러닝에 적용하기 위해 데이터를 어떻게 전처리 해야하는지 파악
탐색적 데이터 분석 (Exploratory Data Analysis, EDA) 단계라고도 한다.

전처리 및 정제

학습하기 위해 데이터를 특정 형태로 정리해주는 단계
많은 단계를 다루고 있는데 실제 학습 데이터로 입출력에 넣을 수 있도록 변형하거나 값이 너무 커서 데이터의 스케일을 변형하는 등 원하는 작업에 따라 방법 또한 매우 다양한다.
어떤 모델링을 선택할지에 따라 처리과정도 다르다.

모델링 및 훈련

전처리가 완료된 데이터를 머신러닝 알고리즘을 통해 기계에 학습(train)한다.
과적합을 방지하기 위해서
- 단, 평가를 하기 위해 모든 데이터를 학습하는 것이 아닌 테스트(test) 데이터를 남겨두어야 한다.
- 좀 더 평가를 확실하게 하려면 검증(dev) 데이터도 남겨 같이 평가에 활용한다.

평가

학습된 모델의 성능을 평가한다.

배포

평가에서 만족할만한 결과가 나왔다면 해당 모델을 배포하는 단계이다
모델의 추후 전체적인 피드백이 있다면 수집단계로 돌아가 위와 같은 과정을 반복하게 된다.

수집

머신러닝에 학습시킬 데이터
자연어처리
- 말뭉치, 코퍼스(corpus) : 조사나 연구 목적에 의해서 특정 도메인으로부터 수집된 텍스트 집합을 말합니다.
텍스트 데이터의 파일 형식
- txt파일
- csv파일
- xml파일
- json파일 등
출처
- 음성 데이터
- 웹 수집기를 통해 수집된 데이터
- 영화 리뷰 등

점검 및 탐색, 탐색적 데이터 분석(EDA) 단계

데이터를 점검하고 탐색하는 단계
- 데이터의 구조
  - 데이터 타입(독립변수, 종속 변수, 변수 유형, 변수의 데이터 타입 등)
- 노이즈 데이터
- 머신러닝 적용을 위해서 데이터를 어떻게 정제해야하는지 등
- 데이터의 특징과 내재하는 구조적 관계를 알아내는 과정을 의미

참조 사이트 및 책

딥 러닝을 이용한 자연어 처리 입문 책을 보고 복습할 겸 작성한 글로 깊고 자세한 공부는 해당 링크를 통해 공부하는 것을 추천드립니다.

—

머신러닝 워크플로우