안녕하세요, TF-KR 여러분!
그동안 많은 좋은 정보들을 눈팅만 하다가 여러분께 의견을 구하고 싶은 것이 있어 처음으로 글을 남깁니다!
내용은 시계열 데이터들을 변화 양상에 따라 유사한 것들끼리 클러스터링 하고자 하는 것입니다.
아래 이미지는 5개 데이터 샘플의 그래프이고 총 10,000여개 정도의 데이터를 가지고 있습니다.
파생 변수를 생성하여 파생 변수를 통해 클러스터링을 진행해보기도 했는데 근본적인 데이터 흐름에 따른 클러스터링을 하고 싶습니다.
그래프 이미지를 클러스터링하는 방법도 있을 것 같은데 감을 잡기도, 방법을 찾는 것도 너무 만만치가 않네요…ㅎㅎㅎ
5개의 그래프가 그려져있는 각각의 이미지는 같은 데이터들을 grouping하는 범위만 다르게 한 것입니다.
좋은 방법이나 참고할만한 좋은 자료를 추천해주시면 너무 감사하겠습니다ㅠㅠ
가장 간단하게는 tslearn 패키지로 시작해보세요. time-series clustering method들을 함수로 정의해놓은 sklearn같은 패키지입니다. 그리고 보통 time series에 한해서는 time-dependent measure (distance-based clustering의 경우..) Dynamic Time Warping distance가 많이 거론되니 공부해보시고.... 위에 댓글 남겨주신 것처럼 deep learning으로 넘어오게 되면 autoencoder, seq2seq autoencoder로 latent representation을 학습한 후에 그것들의 클러스터를 구하는 방법도 논문에서 많이 찾아볼 수 있습니다. 기본적으로 어떤 방법들이 그동안 연구되었는지 보고 싶으시면 Survey on time-series clustering 요런 식으로 검색해보세요.
grouping 문제도 결국 feature space상에서 어떻게 cluster를 만들어 갈 것이냐 하는 문제라서 각 그래프들의 feature를 어떻게 뽑아낼 것인지를 고민하는 문제로 바꿔 생각해볼 수 있을듯합니다. 간단하게는 autoencoder부터 돌려보시고, meta learning쪽 둘러보신 후에 clustering은 전통의 knn같은 것으로 묶어보심 어떨까요
https://www.facebook.com/groups/PyTorchKR/permalink/1539376382868704/?sfnsn=mo