/ AI

AI List

AI 목차

  • 지도 학습 (Supervised Learning)
    • 회귀 문제
      • 선형 회귀 (Linear Regression)
      • 의사결정트리 (Decision Tree)
      • 랜덤 포레스트 (Random Forest)
      • 서포트 벡터 머신 (Support Vector Machine, SVM)
      • 신경망 (Neural Network)
    • 분류 문제
      • 로지스틱 회귀(Logistic Regression)
      • 의사결정 나무(Decision Tree)
      • k-최근접 이웃(K-Nearest Neighbor)
      • 나이브 베이즈(Naive Bayes)
      • 서포트 벡터 머신(Support Vector Machine)
      • 인공신경망(Artificial Neural Network)
  • 비지도 학습 (Unsupervised Learning)
  • 강화 학습 (Reinforcement Learning)
  • 준지도 학습 (Semi-supervised Learning)
  • 전이 학습 (Transfer Learning)
  • 생성 모델 (Generative Models)
  • 딥 러닝 (Deep Learning)

  • Gradient Descent란?
  • Loss Surface란?
  • Attention이란?
  • Transformer란?
  • Collaborative filtering이란?
  • Few-Shot Learning이란?
  • Federated Learning이란?
  • SVD란?
  • 중심극한정리란?

  1. batch로 나누어서 학습하는 이유가 무엇인가요? 메모리가 무한이라면 모든 데이터를 한 batch로 만들어서 학습하는 게 좋을까요?
  2. dropout이 무엇인가요? dropout의 작동 방식이 학습 시와 inference 시 어떻게 다른가요?
  3. Transformer의 attention 알고리즘에 대해서 설명하시오. RNN과 다르게 Transformer는 대규모 병렬 연산이 가능한 이유?
  4. 딥러닝 모델에서 activation function의 기능은 무엇인가요? 딥러닝 모델에서 activation function을 모두 제거하면 어떻게 될까요?
  5. MPNN framework 하에서 message function, update function, readout function의 기능
  6. Diffusion model과 score-based model에 대해서 설명해주세요.
  7. 딥러닝에서 CPU보다 GPU가 더 좋은 성능을 보여주는 이유가 무엇인가요?

포스팅 됨

포스팀 안됨

이동하면서 볼 수 있도록 공부할만한 사이트 링크 걸어둔다.

자주 쓰이는 용어 적어봄

우선 적어놓고 겹치는 것을 제거해 나가고 추가적인 포스팅이 필요하면 위로 올린다.

  • 데이터셋 (Dataset): 머신러닝 모델의 학습을 위해 사용되는 데이터의 집합입니다.
  • 특성 (Feature): 머신러닝 모델의 입력값으로 사용되는 데이터의 특징을 나타내는 변수입니다.
  • 레이블 (Label): 지도학습에서 모델이 예측해야 하는 정답값입니다.
  • 모델 (Model): 머신러닝 알고리즘이 학습하여 만들어지는 예측 모형입니다.
  • 학습 (Training): 머신러닝 모델이 데이터를 이용하여 예측을 하기 위해 데이터에 적합한 가중치와 파라미터를 조정하는 과정입니다.
  • 평가 (Evaluation): 모델이 학습된 후에 모델의 예측 능력을 평가하기 위한 과정입니다.
  • 예측 (Prediction): 모델이 학습한 내용을 바탕으로 새로운 입력값에 대해 출력값을 예측하는 과정입니다.
  • 분류 (Classification): 지도학습에서 레이블이 범주형인 경우, 입력값을 범주형으로 분류하는 문제입니다.
  • 회귀 (Regression): 지도학습에서 레이블이 수치형인 경우, 입력값과 수치형 출력값 사이의 관계를 예측하는 문제입니다.
  • 군집화 (Clustering): 비지도학습에서 데이터를 유사한 그룹으로 나누는 문제입니다.
  • 차원 축소 (Dimensionality Reduction): 데이터의 특성을 유지하면서 데이터의 차원을 줄이는 방법입니다.
  • 과적합 (Overfitting): 학습 데이터에 과도하게 적합하게 모델이 학습되어 새로운 데이터에 대한 예측 능력이 떨어지는 상황입니다.
  • 일반화 (Generalization): 학습 데이터를 바탕으로 일반적인 규칙을 학습하여, 새로운 데이터에 대해서도 정확한 예측을 할 수 있는 능력입니다.
  • 하이퍼파라미터 (Hyperparameter): 모델의 학습과정을 제어하는 변수로, 학습 전에 설정되며, 학습과정에서는 수정되지 않는 파라미터입니다. 예를 들면 학습률, 배치 크기, 에포크 등이 있습니다.
  • 최적화 (Optimization): 모델의 성능을 향상시키기 위해 가중치나 하이퍼파라미터를 조정하는 과정
  • Loss function: 모델의 예측값과 실제 값의 차이를 나타내는 함수로, 모델의 성능을 측정하는 데 사용됩니다. 모델을 훈련시키는 데 사용됩니다.
  • Regularization: 모델이 과적합(overfitting)되지 않도록 제한하는 방법으로, L1 정규화(L1 regularization)와 L2 정규화(L2 regularization)가 있습니다.
  • Gradient descent: Loss function을 최소화하기 위한 최적화 알고리즘으로, 기울기를 계산하여 경사를 따라 최적값을 찾아가는 방법입니다.
  • Hyperparameters: 모델을 구성하는 파라미터가 아니라 모델의 학습에 사용되는 파라미터로, 예를 들어 학습률(learning rate)과 같은 하이퍼파라미터가 있습니다.
  • Ensemble learning: 여러 개의 모델을 조합하여 더 강력한 모델을 만드는 방법으로, 예를 들어 랜덤 포레스트(Random Forest)와 부스팅(Boosting)이 있습니다.
  • Transfer learning: 미리 학습된 모델을 가져와 새로운 문제에 대해 재사용하는 방법입니다.
  • Overfitting: 모델이 훈련 데이터에 너무 맞추어져서 새로운 데이터에 대해 일반화하기 어려워지는 현상입니다.
  • Underfitting: 모델이 너무 간단해서 데이터의 복잡성을 충분히 반영하지 못하는 현상입니다.
  • Validation set: 모델의 학습에 사용되는 데이터를 훈련 데이터와 검증 데이터로 나누는데, 검증 데이터를 validation set이라고 부릅니다. 모델의 학습에 사용되지 않고 검증에만 사용됩니다.
  • Cross-validation: 데이터를 여러 개의 폴드로 나누어 각 폴드를 검증 데이터로 사용하여 모델의 일반화 성능을 검증하는 방법입니다.
  • Early stopping: 모델이 과적합되는 것을 방지하기 위해 일정 epoch 이상 성능이 개선되지 않으면 학습을 중단하는 방법입니다.
  • One-hot encoding: 범주형 데이터를 수치형 데이터로 변환하는 방법 중 하나로, 각 범주를 나타내는 하나의 열(column)을 추가하여 0 또는 1의 값을 가지도록 합니다.
  • Bagging (Bootstrap Aggregating): 부트스트랩 샘플링을 통해 여러 개의 모델을 만들고, 이들의 예측값을 평균 또는 다수결 투표를 통해 결합하는 앙상블 방법입니다. 랜덤 포레스트(Random Forest)가 대표적인 예입니다.
  • Boosting: 약한 학습기를 여러 개 결합하여 강한 학습기를 만드는 앙상블 방법입니다. 이전 학습기가 잘못 예측한 샘플에 가중치를 높여 새로운 학습기에 보내는 방식입니다. 대표적인 예는 그래디언트 부스팅(Gradient Boosting)과 XGBoost(Extreme Gradient Boosting)가 있습니다.
  • Regularization: 과적합(Overfitting)을 방지하기 위한 기법입니다. L1, L2 규제와 같은 방법으로 모델의 가중치를 조정하거나, 드롭아웃(Dropout)처럼 무작위로 일부 노드를 제거하여 학습하는 방법 등이 있습니다.
  • Hyperparameter: 모델을 학습할 때 사전에 정해진 값으로써, 최적의 값이 모델의 성능에 큰 영향을 미칩니다. 예를 들어 의사결정트리에서는 최대 깊이(max depth)와 최소 분리 노드 수(min_samples_split) 등이 하이퍼파라미터입니다.
  • Cross-validation: 데이터를 학습용(train)과 검증용(validation)으로 나누어 학습을 진행하는 방식입니다. K-fold cross-validation은 데이터를 K개로 나누어 각각을 검증 데이터로 사용하며, 각 경우마다 모델을 다르게 학습시켜 평균값을 구하는 방식입니다.

  • 정보이득(IG)
  • 엔트로피