103 데이터 분석,처리

parent_topic 100-데이터분석 & AI
types 레퍼런스
tags

103 데이터 분석,처리

데이터 분석 및 전처리 관련 학습 내용을 담는 SubTopic이다.

What is 데이터 분석,처리

머신러닝이나 딥러닝 모델을 학습시키기 전에 데이터를 정제하고 가공하는 과정이다. 좋은 모델은 좋은 데이터에서 나온다는 말이 있을 정도로, 데이터 전처리는 전체 프로젝트의 80% 이상을 차지한다.

왜 중요한가

Garbage In, Garbage Out

  • 품질이 낮은 데이터는 품질이 낮은 모델을 만든다
  • 결측치, 이상치, 불균형 등이 모델 성능에 직접 영향

모델보다 데이터가 중요하다

  • 같은 모델이라도 데이터 품질에 따라 성능 차이가 크다
  • 데이터 전처리로 간단한 모델도 좋은 성능을 낼 수 있다

주요 단계

1. 데이터 탐색 (EDA)

  • 데이터 구조, 분포, 패턴 파악
  • 시각화를 통한 인사이트 도출

2. 데이터 정제

  • 결측치 처리
  • 이상치 처리
  • 중복 제거
  • 형식 통일

3. 데이터 변환

  • 스케일링 (정규화, 표준화)
  • 인코딩 (범주형 → 수치형)
  • 특성 추출, 선택, 변환
  • 차원 축소 (PCA 등)

관련 문서

데이터 탐색

데이터 정제

데이터 변환

도구 및 라이브러리

심화 내용


상위 토픽