캐글준비
| topics | 100-데이터분석 & AI 101 머신러닝 |
| types | 학습 레퍼런스 |
| contexts | 학교 |
| tags |
캐글 대회 준비 - DRW Crypto Market Prediction
대회 정보
대회명: DRW - Crypto Market Prediction
URL: https://www.kaggle.com/competitions/drw-crypto-market-prediction
기간: 2025.05.21 ~ 2025.07.25
설명: 가상 화폐의 미래 가격 변동 예측 모델 개발
데이터 소개
- 훈련 데이터: train.parquet
- 테스트 데이터: test.parquet
(훈련과 테스트 모두 단일 파일로 구성)
수행 내용
1. 전처리 (이게 제일 어렵다...)
대회 홈페이지 상단의 "Code" 버튼을 클릭하면, 다른 사람들의 Kaggle 노트북을 확인할 수 있다. 많은 코드들을 리뷰하면서 EDA와 전처리를 수행한다.
팁: 상위권 솔루션 코드를 먼저 보고, Feature Engineering 방법을 배운다.
2. 모델 설계
본 대회는 LGBM, XGBoost, CatBoost 등과 같은 트리 기반 앙상블 알고리즘을 활용하여 정확도가 높은 ML 모델을 설계해야 하는 대회다. 가장 스펙 쌓기 좋은 대회 중 하나라고 생각한다!
주의사항
- 대부분 LGBM, XGBoost, CatBoost 중 하나의 알고리즘으로만 ML 모델을 설계하는 사람들도 많은데, 그러면 높은 정확도 점수를 얻을 수 없다.
상위권 모델 구조
- LGBM + (Meta)DNN + XGBoost (수치형) 또는 CatBoost (범주형) 구조로 ML 모델을 설계해야 한다.
왜 앙상블을 써야 할까?
단일 모델은 특정 패턴에만 강하다. 여러 모델을 조합하면 각 모델의 약점을 보완할 수 있다.
3. 모델 테스트
계속해서 모델을 테스트하면서 최대한 정확도 점수를 높여야 한다.
주요 개선 방법
- 데이터 불균형 문제 해결 (UpSampling & UnderSampling)
- 높은 corr 값을 가진 features만을 이용하여 훈련
- 파라미터 파인튜닝
이런 방법들을 수행하며 정확도 점수를 높인다.
4. 제출 파일 형식에 맞추기
이것도 마찬가지로 다른 사람들의 Kaggle 노트북을 참고하면 금방 한다.