[머신러닝 모델]
데이터 전처리/시각화 단계에 이어 본격적으로 모델 학습 단계에 들어서게 된다.
이에, 오늘은 머신러닝 모델의 종류와 그 특징에 대해 알아보려고 한다.
1. 랜덤 포레스트 (Random Forest)
- 여러 개의 결정 트리(Decision Tree)를 결합해 만든 앙상블 모델로, 이 방식은 각 트리의 예측을 종합해 최종 결과를 도출한다.
- 특징: 높은 정확도와 안정성을 제공하며, 비정형 데이터와 복잡한 문제에도 강한 모습을 보인다. 과적합(Overfitting)을 방지하는 데 효과적이다.
- 한계: 많은 트리를 사용하기 때문에 학습 및 예측 시간이 오래 걸릴 수 있으며, 대규모 데이터에서는 비효율적일 수 있다.
2. XGBoost (eXtreme Gradient Boosting)
- Gradient Boosting을 개선한 알고리즘으로, 모델의 성능을 극대화하기 위해 빠르고 최적화된 방식을 사용한다.
- 특징: 속도와 성능 모두 뛰어나며, 특히 대용량 데이터에서 강력한 성능을 발휘한다. Kaggle 같은 데이터 분석 대회에서 자주 사용된다.
- 한계: 하이퍼파라미터 튜닝이 까다롭고, 소규모 데이터에서는 모델이 불필요하게 복잡해질 수 있다.
3. LightGBM (Light Gradient Boosting Machine)
- XGBoost를 경량화한 부스팅 알고리즘으로, 대규모 데이터와 희소 데이터에서 높은 성능을 발휘한다.
- 특징: 빠른 속도와 효율성을 자랑하며, 범주형 데이터 처리에 강하다.
- 한계: 작은 데이터셋에서는 성능이 불안정할 수 있으며, 모델 해석이 어려울 수 있다.
4. SVM (Support Vector Machine)
- 데이터가 속한 고차원 공간에서 경계를 최적화하여 분류 문제를 해결하는 알고리즘이다.
- 특징: 복잡한 분류 문제에 효과적이며, 특히 소규모 데이터에서 뛰어난 성능을 발휘한다.
- 한계: 대규모 데이터에서는 학습 시간과 메모리 사용량이 부담되며, 하이퍼파라미터 설정이 까다롭다.
5. 로지스틱 회귀 (Logistic Regression)
- 이진 분류 문제를 해결하는 데 자주 사용되는 간단하고 효율적인 알고리즘이다.
- 특징: 해석이 쉽고 빠르게 동작하며, 기본적인 분류 작업의 베이스라인 모델로 적합하다.
- 한계: 비선형 데이터나 이상치(Outlier)가 포함된 경우 성능이 저하될 수 있다.
6. K-최근접 이웃 (K-Nearest Neighbors, KNN)
- KNN은 주어진 데이터 포인트의 가장 가까운 K개의 이웃을 참고해 분류를 수행하는 알고리즘이다.
-
- 특징: 단순한 구조로 소규모 데이터에서 좋은 성능을 발휘한다.
- 한계: 데이터가 많아질수록 속도가 느려지고 성능이 저하되며, 차원의 저주(Curse of Dimensionality)에 취약하다.
7. 나이브 베이즈 (Naive Bayes)
- 나이브 베이즈는 조건부 확률을 사용하여 분류를 수행하며, 텍스트 분류와 같은 작업에 자주 사용된다.
- 특징: 빠르고 효율적으로 동작하며, 이메일 스팸 필터링 같은 텍스트 분류 작업에서 유용하다.
- 한계: 데이터가 독립적이라는 가정이 위반될 경우 성능이 떨어질 수 있다.
8.K-평균 (K-Means)
- K-평균은 주어진 데이터를 K개의 군집으로 묶는 비지도 학습 알고리즘이다.
- 특징: 간단하고 빠르며, 대규모 데이터에서도 효율적으로 동작헌다.
- 한계: 초기 중심값 설정에 따라 결과가 달라질 수 있으며, 구형(球形) 군집에만 적합한 한계가 있다.
'AI' 카테고리의 다른 글
| AI 데이터 분석 (예측 프로젝트) (4) | 2024.11.09 |
|---|---|
| AI #9 (TensorFlow vs PyTorch) (0) | 2024.10.30 |
| AI #7 (데이터 시각화) (0) | 2024.10.28 |
| AI #6 (데이터 전처리) (2) | 2024.10.26 |
| AI #5 (데이터 수집) (1) | 2024.10.25 |