AI #8 (머신러닝 모델)

AI

AI #8 (머신러닝 모델)

천천히, 한 걸음씩 2024. 10. 29. 11:55

[머신러닝 모델]

데이터 전처리/시각화 단계에 이어 본격적으로 모델 학습 단계에 들어서게 된다.

이에, 오늘은 머신러닝 모델의 종류와 그 특징에 대해 알아보려고 한다.

1. 랜덤 포레스트 (Random Forest)

여러 개의 결정 트리(Decision Tree)를 결합해 만든 앙상블 모델로, 이 방식은 각 트리의 예측을 종합해 최종 결과를 도출한다.
- 특징: 높은 정확도와 안정성을 제공하며, 비정형 데이터와 복잡한 문제에도 강한 모습을 보인다. 과적합(Overfitting)을 방지하는 데 효과적이다.
- 한계: 많은 트리를 사용하기 때문에 학습 및 예측 시간이 오래 걸릴 수 있으며, 대규모 데이터에서는 비효율적일 수 있다.

2. XGBoost (eXtreme Gradient Boosting)

Gradient Boosting을 개선한 알고리즘으로, 모델의 성능을 극대화하기 위해 빠르고 최적화된 방식을 사용한다.
- 특징: 속도와 성능 모두 뛰어나며, 특히 대용량 데이터에서 강력한 성능을 발휘한다. Kaggle 같은 데이터 분석 대회에서 자주 사용된다.
- 한계: 하이퍼파라미터 튜닝이 까다롭고, 소규모 데이터에서는 모델이 불필요하게 복잡해질 수 있다.

3. LightGBM (Light Gradient Boosting Machine)

XGBoost를 경량화한 부스팅 알고리즘으로, 대규모 데이터와 희소 데이터에서 높은 성능을 발휘한다.
- 특징: 빠른 속도와 효율성을 자랑하며, 범주형 데이터 처리에 강하다.
- 한계: 작은 데이터셋에서는 성능이 불안정할 수 있으며, 모델 해석이 어려울 수 있다.

4. SVM (Support Vector Machine)

데이터가 속한 고차원 공간에서 경계를 최적화하여 분류 문제를 해결하는 알고리즘이다.
- 특징: 복잡한 분류 문제에 효과적이며, 특히 소규모 데이터에서 뛰어난 성능을 발휘한다.
- 한계: 대규모 데이터에서는 학습 시간과 메모리 사용량이 부담되며, 하이퍼파라미터 설정이 까다롭다.

5. 로지스틱 회귀 (Logistic Regression)

이진 분류 문제를 해결하는 데 자주 사용되는 간단하고 효율적인 알고리즘이다.
- 특징: 해석이 쉽고 빠르게 동작하며, 기본적인 분류 작업의 베이스라인 모델로 적합하다.
- 한계: 비선형 데이터나 이상치(Outlier)가 포함된 경우 성능이 저하될 수 있다.

6. K-최근접 이웃 (K-Nearest Neighbors, KNN)

KNN은 주어진 데이터 포인트의 가장 가까운 K개의 이웃을 참고해 분류를 수행하는 알고리즘이다.
- 특징: 단순한 구조로 소규모 데이터에서 좋은 성능을 발휘한다.
- 한계: 데이터가 많아질수록 속도가 느려지고 성능이 저하되며, 차원의 저주(Curse of Dimensionality)에 취약하다.

7. 나이브 베이즈 (Naive Bayes)

나이브 베이즈는 조건부 확률을 사용하여 분류를 수행하며, 텍스트 분류와 같은 작업에 자주 사용된다.
- 특징: 빠르고 효율적으로 동작하며, 이메일 스팸 필터링 같은 텍스트 분류 작업에서 유용하다.
- 한계: 데이터가 독립적이라는 가정이 위반될 경우 성능이 떨어질 수 있다.

8.K-평균 (K-Means)

K-평균은 주어진 데이터를 K개의 군집으로 묶는 비지도 학습 알고리즘이다.
- 특징: 간단하고 빠르며, 대규모 데이터에서도 효율적으로 동작헌다.
- 한계: 초기 중심값 설정에 따라 결과가 달라질 수 있으며, 구형(球形) 군집에만 적합한 한계가 있다.

'AI' 카테고리의 다른 글

AI 데이터 분석 (예측 프로젝트) (4)	2024.11.09
AI #9 (TensorFlow vs PyTorch) (0)	2024.10.30
AI #7 (데이터 시각화) (0)	2024.10.28
AI #6 (데이터 전처리) (2)	2024.10.26
AI #5 (데이터 수집) (1)	2024.10.25

현재글AI #8 (머신러닝 모델)

대학교 생활을 돌아보며 공부했던 내용을 정리해 보려 개설한 블로그입니다.

ip #3계층 #인터넷 #프로토콜 #isp #서브넷팅, #skt #유심해킹 #skt해킹 #skt해킹사례 #, 보안 #정보보안 #서버보안 #보안솔루션 #커널 #리눅스 #운영, #데이터 시각화 #모델링 #예측 #타이타닉 #생존자 예측 #프로젝트 #데이터 분석 프로젝트, osi #네트워크 #라우터 #스위치 #경로, #데이터 수집 #빅데이터 #데이터 사이언스 #ai #공부일지 #머신러닝 #딥러닝 #인공지능 #데이터 분석 #단계 #대학생 #20대, 티스토리챌린지, #데이콘, #dacon, skt 해킹 사태, 안랩 #Ahnlab #시큐리티 레터 #분석 #랜섬웨어 #ransomware #보안 #정보보안, 안 #정보보안 #서버보안 #보안솔루션 #커널 #리눅스 #운영체제 #OS, #데이터 수집 #빅데이터 #데이터 사이언스 #ai #공부일지 #머신러닝 #딥러닝 #인공지능 #데이터 분석 #단계 #대학생 #20대 #데이터 전처리 #분류 #회귀, 운영체제 #OS #리눅스 #시스템 #Linux #System, 오블완, #http #통신 #통신 과정 #tcp #80 #웹, #네트워크 #보안 #모의 해킹 #해킹 #새내기 #대학생 #일지 #네트워크 #IT일지 #정보보안, #네트워크 #보안 #모의 해킹 #해킹 #새내기 #대학생 #일지 #네트워크 #IT일지 #정보보안 #리눅스, 로그 #로그 분석 #grep #배시 #정규표현식 #보안, bpfdoor,

Today :
Yesterday :

티스토리툴바