안녕하세요. 새로 운영진에 합류하게 된, 그리고 비엔나에서 로봇 비전 연구하는 박기루 입니다. 운영진이 되고나서.. 첫글로 제 논문 홍보를 하기는 좀 그래서 방금 끝난 ECCV 워크샵 중 가장 로봇과 가까운 분야 중 하나라고 할 수 있는 Recovering 6D Object Pose 워크샵에서 열린 BOP Challenge소식도 함께 준비해 보았습니다.
저의 연구주제인 Object Pose estimation관련해서 SOTA방법론들과 전통방법의 대표인 PPF(Point Pair Feature)가 경쟁하는 BOP challenge가 작년에 이어서 Recovering 6D Object Pose workshop (http://cmp.felk.cvut.cz/sixd/workshop_2020/) 과 함께 열렸는데요, 작년에 비해 훨씬 뜨거웠던 경쟁 끝에 드디어 2회 우승에 빛나는 PPF를 물리치고 CosyPose라는 방법이 1등을 차지하였습니다. 이번 ECCV에서 발표 예정인 이 방법은 엄청 Extreme한 Data augmentation을 적용한게 매우 인상깊은 방법이었습니다. RGB이미지만 이용하다보니 Depth이미지를 이용한 ICP(Iterative Closest Point)를 사용하지 않았다면 또 다시 PPF에 1등 자리를 내주는 상황이었는데 ICP덕에 1등을 하게 되었네요. (저자가 ICP는 제 Pix2Pose코드를 사용하였다는..깨알 자랑) RGB만 가지고 얻은 결과도 정말 박수가 나올만큼 경이로운 기록을 세우긴 하였습니다. 이제 CNN을 이용한 Pose Estimation연구도 점점 정형화가 되고 자리가 잡아가는 느낌을 받고, 더 좋은 트레이닝을 위한 렌더링 방법들도 좋아지고 있는 것 같습니다. 아쉽게도 이제는 퇴물(?)인.. 저의 Pix2Pose는 4위에 그쳤고.. 작년 부터 유지해오던 YCB-V 데이터 1위자리도 결국 내어주고 말았습니다. 1년 사이에 새로나온 논문들의 성능향상이 너무 눈부셔서 놀라움의 연속이었습니다.
아무튼 더 본론으로 들어가서, BOP Challenge에 사용 된 데이터셋들은 모두 3D 모델을 제공과 더불어 모델에 Texture까지 깔끔하게 입혀져 있어서 렌더링에 사용이 되고, 몇몇 데이터셋은 수천장의 Real image에 Pose를 일일이 체크해서 학습용으로 제공을 합니다. 하지만, dataset에 있는 물체가 아닌 내 책상에 올려져 있는 실제 물건들의 Pose를 측정하려면 어떻게 해야할까요? 모델에 Texture도 없고.. 수백, 수천장의 이미지에 Pose를 annotation할 시간도, 인력도 없다면? 바로 이런 상황에서 CNN들을 학습 시킬 수 있는 이미지를 만들어내는 연구를 이번 ECCV에서 Spotlight로 발표하게 되었습니다. ECCV 참석 중인 분들은 월요일(8월 24일) 오전 6시(한국 오후2시), 2시 (한국 오후10시) Live Q&A Session으로 초대드립니다. 최첨단(?) 크로마키 효과가 들어간 10분발표도 많이 시청해주시고요. ECCV참석과는 별개로 비슷한 연구 주제를 하고 계시거나 자세한 설명, 토론이 필요하시면 메신저로 연락주시고 즐겁게 이야기 나누면 좋을 것 같아요!
논문:https://arxiv.org/abs/2005.03717
코드:https://github.com/kirumang/NOL
Dataset:https://www.acin.tuwien.ac.at/en/vision-for-robotics/software-tools/smot/
ECCV paper site link (등록 하신 분만 보실 수 있는 링크): https://papers.eccv2020.eu/paper/2636/
Video: https://www.youtube.com/watch?v=fQJPS01cmac&t=9s
유럽, 한국 모두 코로나가 다시 심해지고 있는 이시기,
모두 건강하시고, 즐거운 ECCV 되시길 바랍니다!