AI

AI 데이터 분석 (예측 프로젝트)

천천히, 한 걸음씩 2024. 11. 9. 21:40

오늘은 지금까지 작성했던 데이터 분석의 5단계 

문제 정의 -> 데이터 수집 -> 데이터 전처리/시각화 -> 예측 및 모델링 -> 평가 순서를 기반으로 

타이타닉 생존자 예측 프로젝트를 진행하려고 한다.

 

먼저, 구글에 접속하여 kaggle titanic analysis를 검색하여 두 번째 위치한 Titanic Data Science Solutions를 클릭한다.

 

이후 해당 kaggle 사이트에 접속하여 타이타닉 생존자 예측 프로젝트 분석 글을 확인한다.

 

 

하단으로 글을 스크롤하여 보면, Kaggle competiton description page here이라는 문구를 확인할 수 있다.

 

 

해당 링크로 접속하게 되면 Titanic - Machine Learning from Diaster라는 글을 확인할 수 있다.

 

 

 

우리는 해당 글의 데이터셋을 다운로드하여 데이터 수집 단계를 먼저 진행해 볼 것이다.

Data 창을 클릭하여 글의 하단으로 내려와 Download all 버튼을 클릭한다.

 

 

다운로드한 파일의 압축을 풀어 확인해 보면 총 3가지 csv파일이 존재하는 것을 확인할 수 있다.

 

 

이 세 가지 csv파일에 대해 간단히 설명하자면:

  • train.csv: 모델을 학습시키기 위한 훈련 데이터 파일이다. 파일 내부를 간단히 살펴보면 승객의 나이, 성별, 좌석 등급 등 다양한 정보와 실제 생존 여부가 포함되어 있다. 이 데이터를 통해 모델이 생존 여부를 예측할 수 있다.
  • test.csv: 훈련된 모델의 성능을 평가하기 위한 테스트 데이터 파일이다. train.csv와 동일한 형태의 승객 정보가 있지만, 생존 여부는 포함되어 있지 않다. (모델이 전혀 알지 못하는 데이터에 대해 얼마나 정확히 예측하는지를 평가하기 위함). 모델이 예측한 결과와 실제 결과를 비교해 성능을 확인하는 역할을 한다.
  • gender_submission.csv: 제출 예시 파일로, 단순히 성별에 따른 생존 예측이 포함되어 있다. 모델이 성능을 검증하는 단계에서 이 파일을 참고하여 제출 형식을 확인할 수 있다.

다시 해당 글로 들어와 본격적인 코드 이전의 글을 번역하여 요약해보면:

  • 1912년 4월 15일 타이타닉 호는 침몰하여 승객과 승무원 2224명 중 1502명이 사망하였다.( 생존율 약 32%로 환산)
  •  여성, 어린이, 상류층 등 일부 집단은 생존 가능성이 다른 집단보다 높았다.
  • 이번 data science를 통한 핵심 키워드는 다음과 같다.
    • 분류(샘플을 분류하거나 카테고리로 묶을 수 있음)
    • 상관관계(각 피처 간 관계 및 어떤 피처가 목표(생존 여부)에 가장 많은 영향을 미치는가
    • 변환(범주형 데이터 등을 숫자형 값으로 변환)
    • 완성(결측치 추정)
    • 수정(부적절한 값을 탐지하여 수정하거나 제외)
    • 생성(새 기능이 상관관계, 변환, 완전성 목표를 따르도록 할 수 있는가)
    • 시각화(차트 그리기)

 

'AI' 카테고리의 다른 글

Malware 예측 프로젝트  (0) 2024.12.01
AI 데이터 경진대회 태양광 발전 예측 프로젝트 (3위 수상)  (0) 2024.11.24
AI #9 (TensorFlow vs PyTorch)  (0) 2024.10.30
AI #8 (머신러닝 모델)  (0) 2024.10.29
AI #7 (데이터 시각화)  (0) 2024.10.28