https://www.facebook.com/groups/PyTorchKR/permalink/1694564484016559/

안녕하세요, semantic segmentation을 사용해보려는데 입력 이미지 크기에 대해 생긴 궁금증이 있어 글을 남기게 되었습니다.

보통 VGG나 ResNet과 같은 전이학습을 통해 모델을 사용하는 예시코드들을 보면 입력 이미지 사이즈를 pre-processing을 통해 224x224로 조정하던데, 그럼 semantic segmentation에서는 resize를 하지 않고 원본 이미지 그대로 사용하는건가요?

다시 말해서, semantic segmentation을 시도한 FCN 모델을 보면 fully-connectied layer 없이 (1x1 convolution 으로 대체) covolutional networks로만 구성되었기에 입력 이미지 크기와 무관하게 사용할 수 있는건가요?

추가로 생긴 질문은, 그럼 기존의 classification이나 prediction 용으로 VGG나 ResNet을 사용하는 경우에도 fully-connected layer로 넘어가는 input variable 값만 조정해주면 입력 이미지와 무관하게 돌려볼 수 있는게 맞나요?

입력 사이즈에 무관하게 돌리고 싶으시면 global pooling으로 H,W디멘전을 1x1으로 만들어 사용하는 방법도 자주 씁니다.
다만 classification할 때는 연산량 문제도 있고해서 보통 입력을 고정사이즈로 resize해서 사용한다고 알고 있습니다.

'Deep Learning > image_segmentation' 카테고리의 다른 글

YOLACT (YOLO with masks) 로 image segmentation  (2) 2020.01.10
Posted by uniqueone
,

If you haven't seen YOLACT (think YOLO with masks) in action, check out the insane quality of this video of a giraffe. The output is similar to Mask R-CNN, but it's a single shot detector and can achieve real-time FPS! I made a Google Colab tutorial for anyone who wants to try it.

www.immersivelimit.com/tutorials/yolact-with-google-colab

Posted by uniqueone
,