수비니움의 튜토리얼

Advanced ver.

본 커널은 Stacked Regressions : Top 4% on LeaderBoard을 바탕으로 재구성한 커널입니다.

캐글 추천 튜토리얼에는 없지만 최근에 업보트가 가장 많이된 커널이고 제목이 자극적이어서 필사를 시도해보았습니다.

이 튜토리얼의 핵심은 주택 가격 예측 문제를 stacking과 그 외 테크닉을 사용하여 좋은 결과를 내는 과정입니다.

Stacking과 앙상블, 스태킹을 하는 부분에 있어서 class로 만들어 사용하는 것과 데이터의 분포를 맞추는 과정 등을 배울 수 있습니다. 또한 교차 검증도 따로 함수로 만들어 사용하는 등 저에게는 배울 점이 많은 커널이 었습니다.

하지만 비교적 사전 지식이 많이 필요한 커널입니다. 내용 자체가 친절한 커널은 아닙니다. 하이퍼 파라미터의 설정이 왜 그렇게 됬는지 설명이 부족하고, 코드에 대한 설명 또한 부족합니다.

그렇기에 머신러닝을 접한지 얼마 안된 분에게는 추천하지 않을 것 같지만, 스태킹과 앙상블 과정을 따라하기에는 좋은 커널이었습니다.

이 문제의 앙상블과 스태킹 등의 기법에 있어서는 [파이썬 머신러닝 완벽 가이드] 책에도 상세하게 기술되어있습니다.

제 필사/번역 커널은 다음과 같습니다.

커널 추천

kaggle에서 추천하는 Tutorial 입니다.

Python Tutorials

R Tutorials

ETC.

  • 2019 2nd ML Month with KaKR의 주제입니다.

Leave a Comment