안녕하세요 rl kr. 개인적으로 오랜 숙제였던 IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures(IMPALA)를 구현하여 결과를 공유합니다. tensorflow로 구현하였습니다(pytorch로 하지 못해 토치 유저분들에게는 죄송하다는 말씀을 올리며). 사용한 것은 distributed tensorflow를 기본적으로 사용하였습니다. 제 예전 actor critic으로 breakout을 잘 배우기 위해서는 엄청나게 오랜시간(10시간정도)걸렸지만 20개의 actor로 2시간만에 의미있는 결과를 뽑아낼 수 있었습니다. 혹시 코드에서 오류 혹은 수식을 코드로 옮기는 과정에서 잘못된 부분이 있다면 바로 알려주시면 감사하겠습니다.

ps. 윤수로님께 감사하다는 말씀 올립니다.
https://www.facebook.com/groups/ReinforcementLearningKR/permalink/2324753411097219/?sfnsn=mo
Posted by uniqueone
,