캐글준비

topics 100-데이터분석 & AI 101 머신러닝
types 학습 레퍼런스
contexts 학교
tags

캐글 대회 준비 - DRW Crypto Market Prediction

대회 정보

대회명: DRW - Crypto Market Prediction
URL: https://www.kaggle.com/competitions/drw-crypto-market-prediction
기간: 2025.05.21 ~ 2025.07.25
설명: 가상 화폐의 미래 가격 변동 예측 모델 개발


데이터 소개

  • 훈련 데이터: train.parquet
  • 테스트 데이터: test.parquet

(훈련과 테스트 모두 단일 파일로 구성)


수행 내용

1. 전처리 (이게 제일 어렵다...)

대회 홈페이지 상단의 "Code" 버튼을 클릭하면, 다른 사람들의 Kaggle 노트북을 확인할 수 있다. 많은 코드들을 리뷰하면서 EDA와 전처리를 수행한다.

: 상위권 솔루션 코드를 먼저 보고, Feature Engineering 방법을 배운다.

2. 모델 설계

본 대회는 LGBM, XGBoost, CatBoost 등과 같은 트리 기반 앙상블 알고리즘을 활용하여 정확도가 높은 ML 모델을 설계해야 하는 대회다. 가장 스펙 쌓기 좋은 대회 중 하나라고 생각한다!

주의사항

  • 대부분 LGBM, XGBoost, CatBoost 중 하나의 알고리즘으로만 ML 모델을 설계하는 사람들도 많은데, 그러면 높은 정확도 점수를 얻을 수 없다.

상위권 모델 구조

  • LGBM + (Meta)DNN + XGBoost (수치형) 또는 CatBoost (범주형) 구조로 ML 모델을 설계해야 한다.

왜 앙상블을 써야 할까?
단일 모델은 특정 패턴에만 강하다. 여러 모델을 조합하면 각 모델의 약점을 보완할 수 있다.

3. 모델 테스트

계속해서 모델을 테스트하면서 최대한 정확도 점수를 높여야 한다.

주요 개선 방법

  • 데이터 불균형 문제 해결 (UpSampling & UnderSampling)
  • 높은 corr 값을 가진 features만을 이용하여 훈련
  • 파라미터 파인튜닝

이런 방법들을 수행하며 정확도 점수를 높인다.

4. 제출 파일 형식에 맞추기

이것도 마찬가지로 다른 사람들의 Kaggle 노트북을 참고하면 금방 한다.


관련 문서