https://www.facebook.com/groups/KaggleKoreaOpenGroup/permalink/853573108708123/

김동규

안녕하세요 캐글코리아!! 올해 1월부터 매달 열리는 playground 대회인 Tabular Playground Series - 2월 대회가 끝이 났습니다. 1433팀 중 6위를 해서 기쁜 마음에 공유해봅니다! (나름 한국 1등이네요 ㅎㅎ)

www.facebook.com


안녕하세요 캐글코리아!!
올해 1월부터 매달 열리는 playground 대회인 Tabular Playground Series - 2월 대회가 끝이 났습니다. 1433팀 중 6위를 해서 기쁜 마음에 공유해봅니다! (나름 한국 1등이네요 ㅎㅎ)
이 대회는 간단한 tabular data를 이용해서 예측하는 regression 문제입니다. 주로 LGBM같은 GBDT 모델들을 사용합니다. 저도 LGBM 모델을 사용했습니다.
높은 점수의 핵심은 semi-supervised learning의 일종인 pseudo labelling을 사용한 것이었습니다. test data를 최대한 잘 학습시킨 이후에, 그 학습시킨 데이터까지 포함하여 다시 train을 시키는 방법입니다. 보통 train data가 부족할 때 사용하지만 이 대회에서는 성능 향상에 매우 적합했습니다. 그래서 ensemble 없이 하나의 LGBM 모델만으로 높은 순위를 달성할 수 있었습니다.
제 코드입니다. https://www.kaggle.com/vkehfdl1/6th-place-solution-pseudo-labelling-lgbm
더불어서 이번 대회 1,2,3등은 DAE를 사용했습니다. DAE는 Denoising Auto Encoder로 노이즈를 포함한 feature를 반복적으로 학습시키는 것인데요. 이 auto encoder 뉴럴 넷의 hidden layer의 weight들을 feature로 사용하는 방식입니다. Tabular data에서는 보통 GBDT 모델이 성능이 잘 나오는데, 이 DAE 방식으로 활용으로 도저히 GBDT 모델로는 상상도 못하는 성능이 나오더라고요. 1위 분의 코드와 설명을 보며 저도 열심히 공부 중입니다.
한국 캐글러 분들 항상 응원합니다! 더 노력하는 캐글러가 되어야 겠습니다.

축하드려요! 참고로 1등은 DAE를 사용했는데, 2등은 보통 GBM+NN 앙상블을 사용했습니다. Bojan이 자신의 8등 솔루션을 공유하면서 1/2/3등이 DAE를 사용했을 것이다...라고 언급을 했었는데, 실제 2등인 Dave E (지난 1월 TPS 4등)이 자신은 DAE 사용할 시간이 없었다고 했죠. DAE가 두 달 연속 TPS 대회에서 1등을 한 것을 보니 다음 대회에서는 DAE 기반 솔루션이 많이 나올 것으로 보입니다. 다음 달에도 좋은 성적 거두시길 바랍니다!




Posted by uniqueone
,