[Categorical/Tools] Category Encoders

데이터는 크게 2가지 타입으로 나뉩니다. (이 부분의 디테일 한 내용은 다음 글을 참고하면 됩니다. https://subinium.github.io/basic-of-data/)

- 수치형 데이터(numerical)
- 범주형 데이터(categorical)

그리고 대부분의 ML 모델은 categorical 데이터를 처리할 수 없고, 그렇기에 적절한 변환(encoding)을 해야 사용할 수 있습니다 .

그런 처리는 보통 map 등으로 손으로 매핑할 수 있거나 등등의 방법이 있습니다. 그 중에서도 대표적인 것은 Label Encoding과 One-Hot Encoding입니다.

하지만 그 밖에도 많은 Encoding 방법이 있고, 이를 쉽게 사용할 수 있는 툴이 있다는 거 아시나요??

scikit-learn 스타일의 transformer인 Category Encoder를 소개합니다.

- github : https://github.com/scikit-learn-contrib/categorical-encoding
- documentation : https://contrib.scikit-learn.org/categorical-encoding/

이는 아래 사진과 같은 encoding 방법을 제공하고, 사용도 매우 쉽습니다.

현재 Kaggle에서는 Categorical Data로  진행하는 Playground 대회가 진행중에 있습니다. 이 대회에서 어떤 식으로 이 툴을 사용하는지, 어떤 내용인지 간략하게 설명을 하였으니 보시면 좋을 것 같습니다.
(도움이 된다면 upvote 부탁...kernel master가 되고 싶어요ㅎㅎ)

- 코드 및 설명 커널 링크: https://www.kaggle.com/subinium/11-categorical-encoders-and-benchmark

- 대회 링크 : https://www.kaggle.com/c/cat-in-the-dat

Kaggle을 하시는 분, Kaggle 시작을 망설이시는 분들이라면 대회를 참여하는 것도 추천합니다.

#tool #Categorical #category_encoders
https://www.facebook.com/groups/1738168866424224/permalink/2422195841354853/?sfnsn=mo
Posted by uniqueone
,