AI

AI #8 (머신러닝 모델)

천천히, 한 걸음씩 2024. 10. 29. 11:55

[머신러닝 모델]

데이터 전처리/시각화 단계에 이어 본격적으로 모델 학습 단계에 들어서게 된다.

이에, 오늘은 머신러닝 모델의 종류와 그 특징에 대해 알아보려고 한다.

 

 

1. 랜덤 포레스트 (Random Forest)

  • 여러 개의 결정 트리(Decision Tree)를 결합해 만든 앙상블 모델로, 이 방식은 각 트리의 예측을 종합해 최종 결과를 도출한다.
    • 특징: 높은 정확도와 안정성을 제공하며, 비정형 데이터와 복잡한 문제에도 강한 모습을 보인다.                         과적합(Overfitting)을 방지하는 데 효과적이다.
    • 한계: 많은 트리를 사용하기 때문에 학습 및 예측 시간이 오래 걸릴 수 있으며, 대규모 데이터에서는 비효율적일 수 있다.

 

2. XGBoost (eXtreme Gradient Boosting)

  • Gradient Boosting을 개선한 알고리즘으로, 모델의 성능을 극대화하기 위해 빠르고 최적화된 방식을 사용한다.
    • 특징: 속도와 성능 모두 뛰어나며, 특히 대용량 데이터에서 강력한 성능을 발휘한다. Kaggle 같은 데이터 분석 대회에서 자주 사용된다.
    • 한계: 하이퍼파라미터 튜닝이 까다롭고, 소규모 데이터에서는 모델이 불필요하게 복잡해질 수 있다.

 

3. LightGBM (Light Gradient Boosting Machine)

  •  XGBoost를 경량화한 부스팅 알고리즘으로, 대규모 데이터와 희소 데이터에서 높은 성능을 발휘한다.
    • 특징: 빠른 속도와 효율성을 자랑하며, 범주형 데이터 처리에 강하다.
    • 한계: 작은 데이터셋에서는 성능이 불안정할 수 있으며, 모델 해석이 어려울 수 있다.

 

4. SVM (Support Vector Machine)

  • 데이터가 속한 고차원 공간에서 경계를 최적화하여 분류 문제를 해결하는 알고리즘이다.
    • 특징: 복잡한 분류 문제에 효과적이며, 특히 소규모 데이터에서 뛰어난 성능을 발휘한다.
    • 한계: 대규모 데이터에서는 학습 시간과 메모리 사용량이 부담되며, 하이퍼파라미터 설정이 까다롭다.

 

5. 로지스틱 회귀 (Logistic Regression)

  • 이진 분류 문제를 해결하는 데 자주 사용되는 간단하고 효율적인 알고리즘이다.
    • 특징: 해석이 쉽고 빠르게 동작하며, 기본적인 분류 작업의 베이스라인 모델로 적합하다.
    • 한계: 비선형 데이터나 이상치(Outlier)가 포함된 경우 성능이 저하될 수 있다.

 

6. K-최근접 이웃 (K-Nearest Neighbors, KNN)

  • KNN은 주어진 데이터 포인트의 가장 가까운 K개의 이웃을 참고해 분류를 수행하는 알고리즘이다.
    • 특징: 단순한 구조로 소규모 데이터에서 좋은 성능을 발휘한다.
    • 한계: 데이터가 많아질수록 속도가 느려지고 성능이 저하되며, 차원의 저주(Curse of Dimensionality)에 취약하다.

 

7. 나이브 베이즈 (Naive Bayes)

  • 나이브 베이즈는 조건부 확률을 사용하여 분류를 수행하며, 텍스트 분류와 같은 작업에 자주 사용된다.
    • 특징: 빠르고 효율적으로 동작하며, 이메일 스팸 필터링 같은 텍스트 분류 작업에서 유용하다.
    • 한계: 데이터가 독립적이라는 가정이 위반될 경우 성능이 떨어질 수 있다.

 

8.K-평균 (K-Means)

  • K-평균은 주어진 데이터를 K개의 군집으로 묶는 비지도 학습 알고리즘이다.
    • 특징: 간단하고 빠르며, 대규모 데이터에서도 효율적으로 동작헌다.
    • 한계: 초기 중심값 설정에 따라 결과가 달라질 수 있으며, 구형(球形) 군집에만 적합한 한계가 있다.

 

 

 

'AI' 카테고리의 다른 글

AI 데이터 분석 (예측 프로젝트)  (4) 2024.11.09
AI #9 (TensorFlow vs PyTorch)  (0) 2024.10.30
AI #7 (데이터 시각화)  (0) 2024.10.28
AI #6 (데이터 전처리)  (2) 2024.10.26
AI #5 (데이터 수집)  (1) 2024.10.25