Random forest는 고차원 데이터에서 중요 변수를 찾기위한 방법으로 널리 이용되지만 훈련데이터의 변화에 따라 선택되는 변수군이 크게 달라지는 단점이 있다. """"또한 decision tree의 계층적 구조로 인해 ★불필요한 변수들도 함께 선택될 수 있으며★ 이런 문제는 random forest를 구성하는 tree의 수가 많아질수록 악화된다. """"""""
발표자 Summary
박찬희
Regularized random forest (RRF)는 대표적인 앙상블 기법인 random forest에 regularized 기법을 적용한 방법이다. Random forest는 고차원 데이터에서 중요 변수를 찾기위한 방법으로 널리 이용되지만 훈련데이터의 변화에 따라 선택되는 변수군이 크게 달라지는 단점이 있다. 또한 decision tree의 계층적 구조로 인해 불필요한 변수들도 함께 선택될 수 있으며 이런 문제는 random forest를 구성하는 tree의 수가 많아질수록 악화된다. RRF에서는 각 노드에서 관측치를 분할시킬 변수 선택시 기존에 선택되었던 변수들외에 새로운 변수의 information gain값에 패널티를 부가 하게 된다. 이를통해 random forest보다 적은 변수군으로 모델을 구성할 수 있다. 하지만 tree모델은 greedy search를 기반으로 하기 때문에 RRF는 변수 중요도 보다 먼저 선택된 변수들 위주로만 중요 변수군이 만들어진다는 단점이 있다.이를 보완하기 위해 guided regularized random forest (GRRF)가 제안되었다. GRRF는 새로운 변수의 gain값에 패널티를 부과시 변수의 중요도가 높을 수록 낮은 패널티 값을 부과한다.
따라서 기존에 선택되지 않은 변수라도 중요도가 높으면 중요 변수군에 포함될 수 있게 된다. RRF와 GRRF 분류모델은 최소한의 변수군으로 모델이 구성되기 때문에 random forest에 비해 높은 variance를 가질 수 있다. 따라서 GRRF와 RRF로 중요변수를 선택하고 random forest로 분류 모델을 구축하는 방법이 추천된다.
청취차 Summary
유재홍
금일 세미나는 Random forest기반의 변수선택 기법을 개선한 Regularized Random Forest와 Guided Regularized Random Forest를 주제로 진행되었다. 이 두 기법은 Random forest에서 중요하다고 판단되는 변수가 지속적으로 선택되도록 Information Gain에 대해 가중치를 주도록 하는 방법이다. 이 기법을 적용하면 일관적으로 변수가 선택된다는 장점이 있지만, 중요변수가 계속해서 선택되므로 개별 모델 간 상관성이 높아져서 모델의 Variance가 증가한다는 한계점도 존재한다. 또한, 중요하다고 판단되는 변수만을 지속적으로 선택하게 함으로써 지역최적화에 빠지게 될 수도 있다는 위험도가 높지 않을까 생각된다. 특히, Guided Regularized Random Forest의 경우에는 일반적인 Random Forest를 구축하고 이를 바탕으로 변수의 중요도를 계산하여 이를 바탕으로 Regularized Random Forest의 가중치를 구하게 되는데, 이러한 경우, 최종적으로 구축된 모델이 초기의 Random Forest 모델에 대해 Bias될 수도 있겠다는 생각이든다. 나 역시 앙상블 기법를 기반으로 하여 군집화를 위한 변수선택을 연구하고 있는데, 이 기법에 대해 좀 더 심도있게 공부해야 겠다는 생각이 들었다.
남완식
오늘 세미나는 오리지널 Random Forest 알고리즘에 Regularized 개념을 접목하여 모델의 안정성을 더욱 높여준 RRF(Regularized RF)와 RRF 알고리즘의 Variable Selection 신뢰성을 더욱 높여준 GRRF(Guided RRF) 알고리즘에 대한 설명으로 진행되었다. 본인이 개인적으로 학습하며 느꼈던 가려운 부분을 제대로 긁어준 좋은 시간이었다. 세미나에서 박찬희 연구원이 언급했던 것처럼 새로운 Penalty Term으로 기존 RRF나 GRRF 보다 우수한 성능을 보여줄 알고리즘에 대한 기대가 크다. 꼭 기존 보다 더 우수한 성능을 보이지 않더라도 새로운 Penalty Term이 기존 연구와 동일한 성능만 보여줘도 충분히 좋은 결과라고 생각된다. 앞으로의 연구에 기대와 응원을 하며 후기를 마친다.
최우식
개인적으로 랜덤 포레스트의 몇몇 단점 때문에 좀 더 개선된 방식의 알고리즘이 없을까 궁금하였는데, 이번 세미나를 통해 쉽고 빠르게 궁금증을 해소할 수 있었다. 사실 랜덤 포레스트는 현재 연구실에서 자주 사용하고 있는 데이터마이닝 알고리즘 중에서도 최신 기법이라 할 수 있는데, 그럼에도 불구하고 다양한 개선 방법이 나오고 있다는 점 자체가 본인에게는 충분히 자극제가 되겠다. 세미나에서 제시된 GRRF (guided regularized random forest)는 데이터에서 유의미한 변수를 잘 추출하는 것이 핵심이므로, 이를 개인적으로도 다양한 방식으로 활용할 수 있을 것이다. 추가로, GRRF에는 사용자가 지정할 수 있는 파라미터가 두 개 존재하는데, 이를 보다 효과적으로 지정하는 것도 좋은 연구가 될 수 있겠다고 생각하였다.
박영준
금일 세미나는 찬희형이 guided regularized random forest (GRRF)에 대해 설명하였다. 이 모델은 기존의 random forest를 이용한 변수선택 보다 더 적은 수의 변수를 선택하여 tree를 구성하는 regularized tree를 이용하였고, 사전에 구축한 random forest의 변수 중요도를 이용하기 때문에 guided라는 표현이 붙어있다. 세미나를 통해 GRRF는 random forest에 비해 모델의 variance가 크기 때문에 classifier로서는 부적합 하고, 변수선택 모델로 사용하는 것이 낫다는 설명을 들었다. 더 적은 변수를 가지고 모델을 구성하는 경우 linear regression 에서는 variance는 줄어든다고 알고 있었는데 tree에서는 반대가 되는것이 처음에는 의아하였지만 세미나를 통해 bias-variance trade off 관계에 대해 잘 못 이해하고 있는 부분을 바로 잡을 수 있었다. 개인적으로 유익한 시간이었다. 이 기회에 모델링에서 항상 언급되는 bias-variance trade off를 더 공부해 봐야 겠다.
정영재
찬희 형의 "Introduction to Guided Regularized Random Forest"라는 주제의 세미나를 들었다. Essemble Model의 일종인 Random Forest는 변수선택에 있어서 변동(variance)가 크다. 이 문제를 Lasso에서는 Penalty Term을 설정함으로서 해결하였기 때문에, Guided Random Forest(GRF)에서는 이를 응용하여 Impurity Measure에 Penalty Term을 준 방법으로, 변수선택에 목적이 있다. 즉, GRF에서 변수를 선택한 후, 그 변수만으로 Random Forest 기법을 써서 분류를 하면 변수선택의 변동이 줄어듬과 동시에 성능(Error Rate)가 줄어듬을 확인할 수 있었다. 동시에 다른 Feature Selection 기반 Random Forest보다 계산시간도 적었다. Random Forest에 Lasso의 Penalty Term을 응용한 방법이 흥미로웠다. GRF에 의해 선택된 변수들이 Random Forest말고 다른 분류기법에도 잘 적용되는지, 또는 다른 변수선택 기법 기반으로 Random Forest기법 사용시 성능이 어떠한지 알아보는 것도 좋을 것 같다.
손지은
기존의 Regularized Random Forest 의 한계점을 보완하기 위해 연구 된 Guided Regularized Random Forest(GRRF)를 소개하였다.패널티를 계산할 때, importance score를 추가해줌으로써 변수의 중요도를 고려하여 random 선택할 수 있도록 한것이 연구의 핵심이었다.그러나 importance score 의 가중치를 결정하는 gamma가 user parameter 인데, 실험 결과에서 오히려 gamma값의 영향이 미미한것 같아 좀 의문이었다.
이한규
오늘의 세미나는 Guided Regularized Random Forest(GRRF)에 관한 내용으로 Random Forest를 이용한 classification문제라기 보단 classification에 앞서서 Featrue selection에 관련된 내용이었다. 일반적으로 Random Forest의 경우 변수선택과 동시에 classification이 가능하다고 알려져 있으나 변수를 선택함에 있어서 선택된 변수들의 variance가 높은 경향을 보인다. 이를 개선하기 위한 방법으로써 regularized method를 활용하여 변수를 기존의 방식보다 compact하게 선택하는 방법이었다.
점차 고차원의 데이터를 분석함에 따라, Regularized method를 익히는 것 그리고 그에 파생된 다양한 기법들을 익히는 것이 중요하다고 생각되는데 어떻게 보면 이번 시간를 통해 그러한 방법중 한가지라도 제대로 알게 되어 유익한 시간이었다고 생각한다. 참고로 R에서는 이미 "RRF"라는 패키지 않에 GRRF를 사용할 수 있도록 나와있어서 간단하게 example을 따라 해봄으로써 이해를 더욱 빨리 할 수 있을 것 같다.
이슬기
지난번에 GRRF에 대해 가볍게 언급했던 세미나가 있었는데 이번 세미나에서 정확히 어떤 목적을 가지고 어떤 아이디어를 제안하여 구현한 것인지 알 수 있었다. 랜덤포레스트가 정확도가 높으면서 변수선택도 가능한 알고리즘이지만, 실제로 사용을 했었을 때 너무 많은 변수가 선택되어 중요변수를 확인하기가 어려운 적이 있었다. 실제 변수선택으로 사용하기 위해 조금 부족함이 있다고 생각이 들었는데, 조금 더 중요한 변수를 뽑는 것을 목적으로 하는 알고리즘이 이미 개발되었으므로 실제 문제를 풀 때 사용할 수 있을 것 같다. 특정한 아이디어를 제안하지는 않았지만, 기존에 있던 연구들에 대해 충분히 공부가 되어 있다는 느낌을 받았다. 자세한 내용에 하나의 알고리즘을 꾸준히 연구하는 것이 본받아야 할 자세라 생각이 든다.
강현구
오늘 세미나에서는 Guided Regularized Random Forest(GRRF)에 대한 설명을 들었다. Random Forest에서는 각 의사결정나무의 노드에서 분할 시, random subspace method를 이용하여 분할에 이용할 변수를 선택한다. 이 과정에서 불필요하게 많은 변수들이 선택되는 것을 방지하기 위하여, 한 번 사용한 변수를 이후에도 많이 사용할 수 있도록 하는 것이 GRRF이다. 성능 면에서는 일반적은 random forest보다 떨어지지만, 적은 수의 변수를 사용하기 때문에 변수 선택 기법으로 활용하는 것이 좋을 것 같다. GRRF를 통하여 선택된 변수들을 이용하여 다시 random forest 알고리즘을 실행할 수도 있다. Lasso처럼 변수 선택에 있어서 제약을 주는 기법들이 많이 등장하면서 기존의 알고리즘들과 많이 결합되는데, 페널티를 어떻게 주느냐에 따라 변수 선택의 결과도 달라질 수 있을 것 같다.
곽민구
Decision Tree부터 오늘 세미나 주제인 GRRF까지 개념적인 설명을 잘 들을 수 있었던 세미나였습니다. 각 모델이 가지고 있는 장점과 단점을 설명해주고, 그 점들을 보완하기 위해서 나온 모델들을 순차적으로 소개해 이해에 많은 도움이 되었으나, LASSO 등 생소한 개념들이 많아 완벽하게 이해하기 어려웠습니다. 또한 Tree를 Classification 모델이 아닌 Feature Selection 모델로 사용했다는 점에서 흥미로웠습니다
박진수
얼마전 Regularized method에 이어 Guided Regularized Random Forest에 대하여 알아보는 시간을 가졌다. 앙상블모델은 정확도를 높이기 위하여 많이 쓰이는데 일반적으로 Base 모델의 오류율이 0.5보다 작을때 앙상블 모델의 오류율은 항상 그보다 작다. 특히 그 중에서도 앙상블 모델 중 하나인 Random Forest는 많이 쓰이는데, 이 Random Forest의 단점은 stability가 낮다는 것이다. 이를 보완하기 위하여 GRRF와 RRF가 제안되었는데, 개념은 새로운 변수가 선택될 가능성을 줄이는 것이다. 특출나게 좋은 변수가 아닌 이상 새로 변수를 추가하지 않고 기존의 변수를 사용하게 된다. 이를 통하여 오류율도 기존 RF보다도 적게 나왔다. 다만, 논문의 저자도 변수가 적게 선택되는 만큼 tree간에 correlation이 클 가능성이 있기 때문에 Classifier로서보다는 변수선택기법으로만 사용하라고 제안하고 있다. 즉, GRRF나 RRF로 변수를 선택하고 RF로 결과를 내는 것을 제안하고 있다. 본 발표에서는 람다와 Importance score를 사용하였는데 박찬희 연구원은 새로운 기법으로 Regularization을 해보고자 준비하고 있는 것 같다. 좋은 연구 결과가 있을 거라 기대한다.
도형록
이번 세미나는 guided regularized random forest에 대한 내용으로 진행되었다. Regularized random forest는 regularized tree에 기반한 알고리즘으로 이전 남완식 연구원의 세미나에서도 잠깐 언급되었다. Regularized decision tree는 tree에서 redundant한 변수를 사용하지 않도록 regularize 하는 방법으로, decsion tree에서 split 할 때 새로운 변수를 추가적으로 사용하지 않는 방향으로 작동한다. RRF는 각 regularized tree에서 새로운 feature와 기존 feature에 대한 가중치를 모두 동일하게 설정하는 방법이며, Guided RRF는 각 변수의 variable importance에 따라 가중치를 다르게 설정하는 방법이다. RRF나 GRRF는 변수선택에 있어서는 좋은 결과를 보이지만, 예측에 있어서는 높은 variance를 보이므로, feature selection에만 이용하는 것이 좋다고 한다. 현재 regularization 모델에 관련된 연구를 진행하고 있는데, regularization과 ensemble method를 접목하는 연구에 대해 좋은 정보를 얻게 되었다.
이상민
박찬희 연구원의 금일 발표는 Regularized method 중 Regularized ensemble methods 주요 기법들에 대한 소개가 있었다. 일반적인 regularization 하기 위한 방법으로 Lasso 기법에 대해서만 알고 있었으므로, ensemble 기반의 feature selection 기법에 대한 이해를 할 수 있어 좋은 시간이었다.금일의 세미나의 핵심은 GRRF와 RRF의 차이점을 잘 설명했던 것으로, 기존에 기존 Lasso에서 선택의 정확도를 높이기 위해 잘 선택되지 않은 변수에 대한 penalty를 주는 것과 다르게, 도입한 변수의 중요도(Important)값을 고려하여 penalty(람다값)을 data-driven 방식으로 조정하는 방식에 의한 것이다. 즉, 람다값이 사용자에 의해 고정된 값으로 주지 말고 앙상블에 의해 선택된 빈도수가 높은 변수일수록 penalty를 덜 받도록 조정해주는 방식인 것이다. 방식의 좋고 나쁨을 떠나서, 내 생각에 penalty term은 본래 의미대로 penalty 역할만을 수행하는게 좋다고 생각하므로, GRRF 외 다른 방식으로 regularization을 보정하는 방식이 있을 것이라 생각한다. 다시 말해, penalty 보정을 위해 사용해야 하는 Important score는 strong law of large numbers 에 따라 다수 선택되는 변수일 수록 중요도를 더하는 의미라면 별도의 수식으로 도출하는게 필요하다고 생각한다. 'Penalty' 와 'Important'의 의미를 0과 1 사이의 값으로 적당히 normalize한 것 외 다른 방법이 있을 것 같다. 박찬희 연구원도 분명 이러한 점을 지적하여 연구주제로 잡아서 소개해준 것 같다. 새로운 분야에 대해 입문할 수 있게 도와준 박 연구원에게 감사하다.
유화윤
Guided Regularized Random Forest에 대한 세미나였는데 여러가지 기본 개념부터 advanced 내용까지 다루어서 이해하기 어려운 점이 있었다. Ensemble의 의미가 무엇인지 몰랐었는데 이번세미나를 통해 간단히 알 수 있었고, Information Gain, Decision Tree의 변수 선택방법에 대해서는 비정형 데이터 분석 수업에서 배웠음에도 잊었는데 다시 인지하게 되어 좋았다. RF, RRF, GRRF의 차이점에 대해 배울수 있었는데 요약하면 아래와 같다. 모두 변수선택 기능이 있는데 RF는 Random으로 변수를 선택하고 Tree를 많이 하면 변수 선택이 Biased되지는 않지만 Variance가 크고 주요하지 않은변수도 뽑히는 단점이 있다. RRF는 변수의 Coefficient에 패널티를 주는데 패널티 값에 따라 이전 Tree에서 선택되지 않은 변수는 선택된 변수보다 훨씬 큰 Gain값을 갖지 않는한 선택되기 어려워서 변수가 Biased될 수 있다는 것이 단점이다. 이것을 보완하기 위해 GRRF가 사용 될 수 있는데 이것은 importance value를 추가하여 이전 tree에는 등장하지 않았지만 전체적으로 많이 사용된 변수는 선택이 더 잘 될 수 있게 한 것이다. 연구원이 계획한대로 변수을 선택할 때 한쪽으로 치우치지 않고 개수는 최소화하여 효과적으로 잘 뽑일 수 있게 하기 위해서 importance value외에도 다른 방법을 고안하는 것이 좋은 연구가 될 수 있겠다. 마지막으로 RF 계열 방법이 변수수가 관측치 수보다 많을 때 좋은 효과가 있다고 한다. 내가 갖고있는 데이터는 변수수가 적어서 그런지 Linear Regression보다 RF 결과가 좋지 않았다. 그렇지만 RRF나 GRRF로 변수를 선택하고 RF에 적용하여 변수가 적을땐 어떤 효과가 있는지 비교해보는 것도 좋겠다.
박성호
랜덤 포레스트는 대표적인 앙상블 기법으로써 Bootstrap Sampling을 통하여 데이터를 구성하며, 랜덤하게 선택한 변수들을 가지고 나무 모델의 각 노드를 구성하여 최종 나무 모델을 구축한다. 앙상블의 특성상 예측정확도 측면에서 Variance가 낮아 기계학습 알고리즘 중에서 널리 사용되고 있다. 또한, 랜덤 포레스트는 변수 선택기법으로 널리 사용되기도 한다. 하지만 랜덤하게 변수를 선택하는 특성 때문에 변수선택에 분산이 크고 많은 상대적으로 많은 변수가 뽑힌다. 이러한 점에 착안하여 변수의 사용빈도와 예측 정화도측면에서 가중치를 적용하여 변수 선택을 하여 기존 보다 좋은 성능을 보여주는 Guided Regularized 랜덤 포레스트가 연구되었다. 새로운 연구를 시작하는데 있어랜덤 포레스트에서 Guided Regularized 랜덤 포레스트까지 이어지는 연구의 흐름을 착안하여 방향성 및 시나리오 구축해보면 좋지 않을까 생각된다.
소현진
오늘 세미나는 Guided regularized random forest에 대해 알 수 있는 유익한 시간이었다. 발표를 진행한 박찬희 연구원은 먼저 Ensemble method의 개념과 발전과정에 대해 설명하고 기존 방법에 Regulized method가 어떻게 접목되어 발전되었는지 부연하였다. 박찬희 연구원의 세미나 진행은 연구를 시작하거나 평소 관련 주제에 관심을 가지고 있는 청취자를 상당히 배려하여 진행되었다. 예를 들어, 새로운 개념이 나오면 먼저 설명한 뒤 청중에게 개념에 대해 역으로 질문을 하여 이해했는지를 확인했다. 또한 연구를 진행하다 맞닥뜨려지는 문제에 대해 질문하고 이해시킴으로써 앞선 선진 연구자의 모습을 보여주었다. 본인에게 Ensemble method는 다음 학기에 집중 연구할 분야이기 때문에 오늘 세미나는 앞으로의 연구를 위한 귀한 지침이 될 것 같다. 발표자에게 감사를 표하며 세미나 후기를 마친다.
구자연
최근 우리 연구실에서 유재홍 연구원이 앙상블 기법에 대해서 소개하고, 남완식 연구원이 Random Forest를, 도형록 연구원이 Linear Regression 모델에서의 Regularization Methods를 주제로 세미나를 진행했었다. 오늘은 Guided Regularization Random Forest(GRRF)에 대한 주제로 세미나가 있었는데, 이전 세미나 내용들을 바탕으로 다시 한 번 정리할 수 있는 계기가 되었다.
앙상블 기법은 여러 Base 모델들의 예측을 어떤 법칙(다수결 법칙 또는 평균)을 이용해 통합하여 예측 정확성을 향상시키는 기법인 데, 그 중에서도 Decision Tree 가 앙상블보델의 Base모델로써 많이 쓰이는(Random Forest:RF) 이유는 계산이 비교적 단순하고, 데이터 분포에 대한 전제가 필요하지 않기 때문이다. RRF와 GRRF는 기존의 Random Forest에서 Regularization Methods를 적용한 것이며, 이는GRRF는 RRF보다 더 적은 변수를 통해, 더 높은 Accuracy(예측은 RF로 실시) 를 보여줄 수 있다. 하지만, 이 기법은 예측보다는 변수 선택에 활용하는 것을 추천한다고 하였다. 그리고 Future Work를 통해, 기존의 방식들을 체계적으로 정리하면서 진행되는 찬희의 연구 계획을 들을 수 있어 연구를 하는 방법에 구체적으로 알 수 있어 좋은 세미나였다.
'Machine Learning' 카테고리의 다른 글
This AI-augmented microscope uses deep learning to take on cancer (0) | 2016.12.17 |
---|---|
Datasets for Machine Learning (0) | 2016.12.16 |
facial-expression-recognition matlab code (0) | 2016.11.29 |
L1 Norm / L2 Norm (0) | 2016.11.23 |
Machine Learning FAQ (0) | 2016.11.23 |