[Model Interpretation] Deep Dive into Catboost Functionalities for Model Interpretation

---

Tree기반 모델은 Feature Importance를 수치화해서 보여주지만 여전히 해석에 있어서는 무리가 있습니다. 수치도 기준에 따라 순서가 바뀌고, 크기의 의미를 모르는 등 여러 가지 단점이 있습니다.

그렇기에 단순한 Feature Importance가 아닌 SHAP Value를 활용하여 보다 정확한 해석을 시도해볼 수 있습니다. 모델에 대한 기여도를 측정하는 방식인데 개인적으로 이 글이 가장 명확하게 설명되어 있으니 참고하면 될 것 같습니다. (아니면 논문..?)

XGBoost : https://towardsdatascience.com/interpretable-machine-learning-with-xgboost-9ec80d148d27

---

이번 글은 Catboost에서 사용할 수 있는 모델 분석(해석) 방법입니다.
총 4가지 방법을 사용합니다.

- Feature Importance
- Shap Values
- Object Importance
- Plots per Feature

마지막 2개가 좀 생소한데, Object Importance는 각 object에 대한 영향도를 측정하는 방식입니다. 구체적인 방식은 모르겠으나 Feature Importance와 같이 특정 값으로 객체의 값의 중요성을 파악하는 것 같습니다.

마지막은 모델의 여러 통계값을 통해 해석할 수 있게 시각화합니다. 구간 또는 범주(OHE)의 평균 target값, 각 구간 및 카테고리의 수 등을 나타냅니다. 최근에 Catboost에서 추가한 내용이라고 하니 Kaggle에서 한 번쯤 사용해봐야겠습니다.

원문의 링크는 아래와 같습니다.

https://towardsdatascience.com/deep-dive-into-catboost-functionalities-for-model-interpretation-7cdef669aeed

#Catboost #Model_Interpretable #SHAP
https://www.facebook.com/113537842660287/posts/412664966080905/?sfnsn=mo
Posted by uniqueone
,