수비니움의 튜토리얼
Advanced ver.
본 커널은 Stacked Regressions : Top 4% on LeaderBoard을 바탕으로 재구성한 커널입니다.
캐글 추천 튜토리얼에는 없지만 최근에 업보트가 가장 많이된 커널이고 제목이 자극적이어서 필사를 시도해보았습니다.
이 튜토리얼의 핵심은 주택 가격 예측 문제를 stacking과 그 외 테크닉을 사용하여 좋은 결과를 내는 과정입니다.
Stacking과 앙상블, 스태킹을 하는 부분에 있어서 class로 만들어 사용하는 것과 데이터의 분포를 맞추는 과정 등을 배울 수 있습니다. 또한 교차 검증도 따로 함수로 만들어 사용하는 등 저에게는 배울 점이 많은 커널이 었습니다.
하지만 비교적 사전 지식이 많이 필요한 커널입니다. 내용 자체가 친절한 커널은 아닙니다. 하이퍼 파라미터의 설정이 왜 그렇게 됬는지 설명이 부족하고, 코드에 대한 설명 또한 부족합니다.
그렇기에 머신러닝을 접한지 얼마 안된 분에게는 추천하지 않을 것 같지만, 스태킹과 앙상블 과정을 따라하기에는 좋은 커널이었습니다.
이 문제의 앙상블과 스태킹 등의 기법에 있어서는 [파이썬 머신러닝 완벽 가이드] 책에도 상세하게 기술되어있습니다.
제 필사/번역 커널은 다음과 같습니다.
커널 추천
kaggle에서 추천하는 Tutorial 입니다.
Python Tutorials
- Comprehensive Data Exploration with Python
- 변수의 분포와 상호 작용 방식 이해
- 머신러닝 모델로 훈련하기 전 다양한 방식의 변환
- House Prices EDA
- 손실된 데이터와 분포들을 보기 위한시각화 테크닉
- 선형 모델에 적합한 입력을 만들기 위한 상관관계 히트맵, pairplots, t-SNE
- A Study on Regression Applied to the Ames Dataset
- 효율적인 특성 공학 방법
- Scikit-learn을 활용한 릿지, 라쏘, ElasticNet 등 다양한 선형 회귀
- Regularized Linear Models
- Keras를 이용하여 XGBoost 또는 신경망 등의 고급 알고리즘 사용
R Tutorials
ETC.
- 2019 2nd ML Month with KaKR의 주제입니다.
Leave a Comment