/ AI

지도학습

지도학습 (Supervised Learning)

기본적으로 ChatGPT를 이용하여 틀을 잡고 만들어갈 것이며, 하나씩 해결해나가는 느낌으로 ML을 복습 및 검토한다.

지도학습 정의

  • 입력 데이터와 그에 상응하는 정답(라벨 또는 타겟)을 이용하여 모델을 학습하는 방법입니다.
  • 지도학습의 목표입력 데이터로부터 정답을 예측하는 것입니다.
  • 예를 들어, 스팸 메일 분류기를 만들 때
    • 입력 데이터 : 이메일의 특성(제목, 본문, 보내는 사람, 받는 사람 등)
    • 정답 데이터 : 스팸 메일인지 일반 메일인지에 대한 실제 정답
    • 학습된 모델로 새로운 데이터의 정답(스팸인지 아닌지)을 예측합니다.

해결 알고리즘 종류

회귀 문제

  • 선형 회귀 (Linear Regression)
    • 입력 변수와 출력 변수 사이의 선형 관계를 모델링하는 알고리즘
    • 일반적으로 최소제곱법을 이용하여 파라미터를 학습함
    • 입력 변수의 각각의 feature에 대한 가중치와 상수항을 찾아내어 예측값을 계산함
  • 의사결정트리 (Decision Tree)
    • 입력 변수들을 기반으로 하나의 결정트리를 구성하고 이를 통해 예측값을 계산하는 알고리즘
    • 각각의 노드에서는 하나의 feature를 선택하고 이를 기준으로 자식 노드들을 구성함
    • 일반적으로 정보 이득이나 지니계수 등의 기준을 이용하여 feature를 선택함
  • 랜덤 포레스트 (Random Forest)
    • 여러 개의 의사결정트리를 조합한 알고리즘
    • 각각의 의사결정트리는 bootstrap 샘플링으로 선택된 데이터를 이용하여 학습함
    • 각각의 의사결정트리에서 예측된 값들을 평균내어 최종 예측값을 계산함
  • 서포트 벡터 머신 (Support Vector Machine, SVM)
    • 입력 변수와 출력 변수 사이의 비선형적인 관계를 모델링할 수 있는 알고리즘
    • 기본적으로 선형 SVM은 선형 분리 가능한 경우, 비선형 SVM은 선형 분리 불가능한 경우에 사용됨
    • 커널 함수를 이용하여 입력 변수를 고차원 특징 공간으로 매핑하고 이를 기반으로 결정 경계를 찾아냄
  • 신경망 (Neural Network)
    • 입력 변수와 출력 변수 사이의 비선형적인 관계를 모델링할 수 있는 알고리즘
    • 인공 신경망의 각 층에는 여러 개의 뉴런이 존재하며, 입력 변수와 출력 변수를 연결하는 다양한 가중치를 학습함
    • 다층 퍼셉트론 (Multilayer Perceptron, MLP)과 같은 알고리즘을 이용하여 회귀문제를 해결할 수 있음

분류 문제

  • 로지스틱 회귀(Logistic Regression)
    • 이진 분류를 위한 지도학습 알고리즘
    • 선형 결정 경계를 이용해 데이터를 분류
  • 의사결정 나무(Decision Tree)
    • 특징들을 이용해 트리 형태의 결정 규칙을 생성해 데이터를 분류
    • 새로운 데이터에 대해 예측하기 쉽고, 설명력이 높음
  • k-최근접 이웃(K-Nearest Neighbor)
    • 새로운 데이터와 가장 가까운 k개의 데이터를 찾아 다수결 원칙을 이용해 데이터를 분류
    • k값에 따라 결과가 달라질 수 있으며, 대량의 데이터에서는 계산 비용이 많이 들어갈 수 있음
  • 나이브 베이즈(Naive Bayes)
    • 베이즈 정리를 이용해 데이터를 분류
    • 특징 간의 독립성을 가정하기 때문에 계산이 빠르고, 작은 데이터셋에서도 성능이 좋음
  • 서포트 벡터 머신(Support Vector Machine)
    • 선형 결정 경계를 이용해 데이터를 분류
    • 분류를 위한 결정 경계가 여러 개일 때 성능이 좋음
  • 인공신경망(Artificial Neural Network)
    • 다양한 형태의 신경망 구조를 가지며, 복잡한 문제를 해결할 수 있음
    • 대량의 데이터에서 성능이 우수하나, 학습에 많은 시간이 소요될 수 있음