[간략하게 읽어볼만한 글]
“Do we still need models or just more data and compute?” - Max Welling, April 20 2019
https://staff.fnwi.uva.nl/m.welling/wp-content/uploads/Model-versus-Data-AI.pdf
.
Max Welling 교수님은 제가 정말 좋아하는 ML scientist 들 중 한 분 입니다. Variational autoencoder 을 비롯한 Bayesian deep learning 을 연구해오셨고, Graph convolutional network 도 Max Welling group 에서 나온 논문입니다.
ML 분야에서 대가라고 할 수 있는 Max Welling 교수님의 위 제목과 같은 기고문이 있는데, 현재 ML 연구방식의 한계와 연구되어야할 방향에 대해서 생각해보게끔 하는 글입니다.
.
1. Max Welling 교수님은 본인이 “기본적으로 컴퓨팅 파워의 중요성“을 믿는다고 합니다. Qualcomm 에서 part-time position으로 재직하고 있는 이유 중 하나도, AI의 발전을 이끄는 가장 빠른 방향 중 하나는 AI computation 을 위한 hardware 를 개발하는 것이라고 생각하신다고 합니다.
.
2. Computation 과 별개로, “data”는 ML의 가장 raw material임을 잊지 말아야한다고 하면서, 현재 연구방향의 한계점과 나아가야할 방향에 대한 의견을 시작합니다. 잘 정의가 되어있는 문제 및 도메인 - data를 충분한 양을 생성할 수 있는 경우 (e.g. AlphaGo), data를 충분히 얻을 수 있는 경우 (e.g. speech) 에서는 deep learning과 같은 “data driven, discriminative, black-box” 방법이 잘 동작할 수 있고, 이런 경우는 “interpolation problem” 으로 볼 수 있다고 합니다.
.
3. 하지만 “extrapolation problem” 의 경우에 대해서 문제가 시작된다고 말씀합니다.
“There is no predictions without assumptions, no generalization without inductive bias”
말씀을 ML 연구기간 동안 가장 인상깊게 생각한다 (recall one thing most vividly) 고 말씀하십니다.
사족) 개인적으로 이 말이 너무너무너무 멋있고, ML연구 관련하여 들은 말 중에서 가장 기억하고 싶은 말 줄 하나로 생각하고 싶습니다.
ML의 bias-variance trade-off를 지적하시면서
- Data가 충분한 경우에는, 많은 human inductive bias를 모델에 주입할 필요가 없고, “데이터가 말하게 하라(let the data speak)” 고 하면 되지만,
- 그렇지 않은 경우에는, human-knowledge를 불어넣어주어서 그 gap을 채워주어야 한다.
- Extrapolation의 상황에서, 즉 새로운 도메인에 sparse한 data로 training한 모델을 적용하는 경우 모델을 쉽게 fail할 거라고 합니다.
Game과 같은 문제(e.g. AlphaGo, Starcraft, …)에서는 input domain 은 잘 정의되어있고, 우리는 완벽한 simulator를 가지고 있기 때문에, 이런 경우에서 모델 개발의 bottleneck은 “data가 아니라 computation이다.” 라는 말씀을 하십니다. 또 하나 인상깊은 지적입니다.
반면에 self-driving car 와 같은 문제는 언제나 long-tail/exceptional situation이 있기 때문에, 아무리 human이 inductive bias/prior-knowledge를 simulator등을 이용해 고려하여도 이는 때로는 너무 단순해서, 다양한 상황을 simulation하기 어려울 수 있다고 지적합니다.
.
4. 하지만, 한 가지 희망이 있다면 그 방향은 “forward, generative, causal direction” 이라고 지적하십니다.
- Generative model은 unseen domain 에 대한 generalization 에 (discriminative 모델보다) 더 낫다.
- Causality는 한 도메인에서 다른 도메인으로의 model 의 적용을 가능케 한다, 예시) 교통사고는 네덜란드에서는 검은색 차량과 상관성이 높을 수 있지만, 미국에서의 빨간색 차량과 상관성이 높을 수 있다. 색깔을 바탕으로 predictor를 만드는 것은 generalize할 수 없지만, male testerone level와 같은 “causal factor”는 generalize할 수 있게 해줄 것이다.
- Human은 만나보지 않은 상황(conterfactual worlds)에 대해 시뮬레이션/상상할 수 있는 뛰어난 능력이 있다. 이는 물리법칙, 심리적 요소에 대한 human의 능력에 기반한다.
와 같은 일종의 연구 direction을 제시하십니다.
.
개인적으로, 이 기고문이 저에게 많은 교훈을 준 것 같습니다. 저는 이미지, 자연어, 음성과 같은 일종의 sensory 데이터를 주로 다뤄왔다기 보다는, 분자와 같은 좀 더 물리/화학/생명쪽과 같은 자연현상에 관심을 가져왔기 때문에, 이 자연현상을 governing하는 universal law를 잘 모델링할 수 있지않을까라는 생각을 종종하고는 하는데, physics law를 inductive bias로 machine에게 불어넣어주기, causality 등이 저에게 연구방향이 되지않을까 합니다.
https://m.facebook.com/story.php?story_fbid=2438975229757338&id=100009346535102&sfnsn=mo