안녕하세요, Cognex Research Engineer 이호성입니다.

요즘 컴퓨터 비전계를 뜨겁게 달구고 있는 모델이 있습니다. 바로 자연어 처리에서 이제는 대세로 자리잡은 Transformer 입니다. 지금까지는 거의 모든 모델이 Convolutional Neural Network 기반의 Architecture가 주를 이뤘는데 작년부터 점점 성능 격차가 줄어들기 시작하면서 빠르게 성장하고 있어서 최근 저도 Transformer 기반 연구들을 공부하고 있는데요,

보통 낯선 분야에 대해 공부를 할때 저는 잘 정리가 된 Survey Paper를 하나 잡아서 진득하게 파는 편입니다. 운 좋게도 올해 1월에 "Transformers in Vision: A Survey"라는 제목의 Survey 논문이 공개되어서 이를 읽고 차근 차근 정리해보았습니다.

논문 링크: https://arxiv.org/abs/2101.01169
블로그 글: https://hoya012.github.io/blog/Vision-Transformer-1/

논문 자체의 분량이 많아서 한편에 정리하려다 여러 편으로 나누게 되었으며, 이번 편에서는 Transformer에 대해 간략하게 정리하고, CNN과 대비해서 어떠한 장,단점을 갖는지 살펴본 뒤, Image Classification에 Self-Attention과 Transformer가 적용된 주요 연구들을 정리했습니다. 공부하시는데 도움이 되었으면 좋겠습니다.

P. S. 이번 글을 작성하면서 공부하는데 PR-12 스터디의 발표 영상들이 큰 도움이 되었는데요, 현재 PR-12 스터디 신규 인원 모집 중이니 많은 관심 부탁드립니다!

Posted by uniqueone
,