AI List
AI 목차
- 지도 학습 (Supervised Learning)
- 회귀 문제
- 선형 회귀 (Linear Regression)
- 의사결정트리 (Decision Tree)
- 랜덤 포레스트 (Random Forest)
- 서포트 벡터 머신 (Support Vector Machine, SVM)
- 신경망 (Neural Network)
- 분류 문제
- 로지스틱 회귀(Logistic Regression)
- 의사결정 나무(Decision Tree)
- k-최근접 이웃(K-Nearest Neighbor)
- 나이브 베이즈(Naive Bayes)
- 서포트 벡터 머신(Support Vector Machine)
- 인공신경망(Artificial Neural Network)
- 회귀 문제
- 비지도 학습 (Unsupervised Learning)
- 강화 학습 (Reinforcement Learning)
- 준지도 학습 (Semi-supervised Learning)
- 전이 학습 (Transfer Learning)
- 생성 모델 (Generative Models)
- 딥 러닝 (Deep Learning)
- Gradient Descent란?
- Loss Surface란?
- Attention이란?
- Transformer란?
- Collaborative filtering이란?
- Few-Shot Learning이란?
- Federated Learning이란?
- SVD란?
- 중심극한정리란?
- batch로 나누어서 학습하는 이유가 무엇인가요? 메모리가 무한이라면 모든 데이터를 한 batch로 만들어서 학습하는 게 좋을까요?
- dropout이 무엇인가요? dropout의 작동 방식이 학습 시와 inference 시 어떻게 다른가요?
- Transformer의 attention 알고리즘에 대해서 설명하시오. RNN과 다르게 Transformer는 대규모 병렬 연산이 가능한 이유?
- 딥러닝 모델에서 activation function의 기능은 무엇인가요? 딥러닝 모델에서 activation function을 모두 제거하면 어떻게 될까요?
- MPNN framework 하에서 message function, update function, readout function의 기능
- Diffusion model과 score-based model에 대해서 설명해주세요.
- 딥러닝에서 CPU보다 GPU가 더 좋은 성능을 보여주는 이유가 무엇인가요?
포스팅 됨
포스팀 안됨
이동하면서 볼 수 있도록 공부할만한 사이트 링크 걸어둔다.
- GridSearch
- 이진분류
- 다중분류
- 소프트맥스 함수
- 확률적경사하강법
- ML-데이터수집
- Log Loss
- 의사결정트리
- 엔트로피
- gini index
- bias and variance trade-off
- bagging;bootstrap aggregating
- [boosting]
- [out-of-bag]
- [앙상블;ensemble]
- 부스팅
- [adaboosting]
- [Gradient Boosting]
- 부스팅
- [ROC AUC]
자주 쓰이는 용어 적어봄
우선 적어놓고 겹치는 것을 제거해 나가고 추가적인 포스팅이 필요하면 위로 올린다.
- 데이터셋 (Dataset): 머신러닝 모델의 학습을 위해 사용되는 데이터의 집합입니다.
- 특성 (Feature): 머신러닝 모델의 입력값으로 사용되는 데이터의 특징을 나타내는 변수입니다.
- 레이블 (Label): 지도학습에서 모델이 예측해야 하는 정답값입니다.
- 모델 (Model): 머신러닝 알고리즘이 학습하여 만들어지는 예측 모형입니다.
- 학습 (Training): 머신러닝 모델이 데이터를 이용하여 예측을 하기 위해 데이터에 적합한 가중치와 파라미터를 조정하는 과정입니다.
- 평가 (Evaluation): 모델이 학습된 후에 모델의 예측 능력을 평가하기 위한 과정입니다.
- 예측 (Prediction): 모델이 학습한 내용을 바탕으로 새로운 입력값에 대해 출력값을 예측하는 과정입니다.
- 분류 (Classification): 지도학습에서 레이블이 범주형인 경우, 입력값을 범주형으로 분류하는 문제입니다.
- 회귀 (Regression): 지도학습에서 레이블이 수치형인 경우, 입력값과 수치형 출력값 사이의 관계를 예측하는 문제입니다.
- 군집화 (Clustering): 비지도학습에서 데이터를 유사한 그룹으로 나누는 문제입니다.
- 차원 축소 (Dimensionality Reduction): 데이터의 특성을 유지하면서 데이터의 차원을 줄이는 방법입니다.
- 과적합 (Overfitting): 학습 데이터에 과도하게 적합하게 모델이 학습되어 새로운 데이터에 대한 예측 능력이 떨어지는 상황입니다.
- 일반화 (Generalization): 학습 데이터를 바탕으로 일반적인 규칙을 학습하여, 새로운 데이터에 대해서도 정확한 예측을 할 수 있는 능력입니다.
- 하이퍼파라미터 (Hyperparameter): 모델의 학습과정을 제어하는 변수로, 학습 전에 설정되며, 학습과정에서는 수정되지 않는 파라미터입니다. 예를 들면 학습률, 배치 크기, 에포크 등이 있습니다.
- 최적화 (Optimization): 모델의 성능을 향상시키기 위해 가중치나 하이퍼파라미터를 조정하는 과정
- Loss function: 모델의 예측값과 실제 값의 차이를 나타내는 함수로, 모델의 성능을 측정하는 데 사용됩니다. 모델을 훈련시키는 데 사용됩니다.
- Regularization: 모델이 과적합(overfitting)되지 않도록 제한하는 방법으로, L1 정규화(L1 regularization)와 L2 정규화(L2 regularization)가 있습니다.
- Gradient descent: Loss function을 최소화하기 위한 최적화 알고리즘으로, 기울기를 계산하여 경사를 따라 최적값을 찾아가는 방법입니다.
- Hyperparameters: 모델을 구성하는 파라미터가 아니라 모델의 학습에 사용되는 파라미터로, 예를 들어 학습률(learning rate)과 같은 하이퍼파라미터가 있습니다.
- Ensemble learning: 여러 개의 모델을 조합하여 더 강력한 모델을 만드는 방법으로, 예를 들어 랜덤 포레스트(Random Forest)와 부스팅(Boosting)이 있습니다.
- Transfer learning: 미리 학습된 모델을 가져와 새로운 문제에 대해 재사용하는 방법입니다.
- Overfitting: 모델이 훈련 데이터에 너무 맞추어져서 새로운 데이터에 대해 일반화하기 어려워지는 현상입니다.
- Underfitting: 모델이 너무 간단해서 데이터의 복잡성을 충분히 반영하지 못하는 현상입니다.
- Validation set: 모델의 학습에 사용되는 데이터를 훈련 데이터와 검증 데이터로 나누는데, 검증 데이터를 validation set이라고 부릅니다. 모델의 학습에 사용되지 않고 검증에만 사용됩니다.
- Cross-validation: 데이터를 여러 개의 폴드로 나누어 각 폴드를 검증 데이터로 사용하여 모델의 일반화 성능을 검증하는 방법입니다.
- Early stopping: 모델이 과적합되는 것을 방지하기 위해 일정 epoch 이상 성능이 개선되지 않으면 학습을 중단하는 방법입니다.
- One-hot encoding: 범주형 데이터를 수치형 데이터로 변환하는 방법 중 하나로, 각 범주를 나타내는 하나의 열(column)을 추가하여 0 또는 1의 값을 가지도록 합니다.
- Bagging (Bootstrap Aggregating): 부트스트랩 샘플링을 통해 여러 개의 모델을 만들고, 이들의 예측값을 평균 또는 다수결 투표를 통해 결합하는 앙상블 방법입니다. 랜덤 포레스트(Random Forest)가 대표적인 예입니다.
- Boosting: 약한 학습기를 여러 개 결합하여 강한 학습기를 만드는 앙상블 방법입니다. 이전 학습기가 잘못 예측한 샘플에 가중치를 높여 새로운 학습기에 보내는 방식입니다. 대표적인 예는 그래디언트 부스팅(Gradient Boosting)과 XGBoost(Extreme Gradient Boosting)가 있습니다.
- Regularization: 과적합(Overfitting)을 방지하기 위한 기법입니다. L1, L2 규제와 같은 방법으로 모델의 가중치를 조정하거나, 드롭아웃(Dropout)처럼 무작위로 일부 노드를 제거하여 학습하는 방법 등이 있습니다.
- Hyperparameter: 모델을 학습할 때 사전에 정해진 값으로써, 최적의 값이 모델의 성능에 큰 영향을 미칩니다. 예를 들어 의사결정트리에서는 최대 깊이(max depth)와 최소 분리 노드 수(min_samples_split) 등이 하이퍼파라미터입니다.
-
Cross-validation: 데이터를 학습용(train)과 검증용(validation)으로 나누어 학습을 진행하는 방식입니다. K-fold cross-validation은 데이터를 K개로 나누어 각각을 검증 데이터로 사용하며, 각 경우마다 모델을 다르게 학습시켜 평균값을 구하는 방식입니다.
- 정보이득(IG)
- 엔트로피