semantic segmentation에서는 resize를 하지 않고 원본 이미지 그대로 사용하는건가요?
Deep Learning/resources 2020. 4. 28. 15:23https://www.facebook.com/groups/PyTorchKR/permalink/1694564484016559/
안녕하세요, semantic segmentation을 사용해보려는데 입력 이미지 크기에 대해 생긴 궁금증이 있어 글을 남기게 되었습니다.
보통 VGG나 ResNet과 같은 전이학습을 통해 모델을 사용하는 예시코드들을 보면 입력 이미지 사이즈를 pre-processing을 통해 224x224로 조정하던데, 그럼 semantic segmentation에서는 resize를 하지 않고 원본 이미지 그대로 사용하는건가요?
다시 말해서, semantic segmentation을 시도한 FCN 모델을 보면 fully-connectied layer 없이 (1x1 convolution 으로 대체) covolutional networks로만 구성되었기에 입력 이미지 크기와 무관하게 사용할 수 있는건가요?
추가로 생긴 질문은, 그럼 기존의 classification이나 prediction 용으로 VGG나 ResNet을 사용하는 경우에도 fully-connected layer로 넘어가는 input variable 값만 조정해주면 입력 이미지와 무관하게 돌려볼 수 있는게 맞나요?
입력 사이즈에 무관하게 돌리고 싶으시면 global pooling으로 H,W디멘전을 1x1으로 만들어 사용하는 방법도 자주 씁니다.
다만 classification할 때는 연산량 문제도 있고해서 보통 입력을 고정사이즈로 resize해서 사용한다고 알고 있습니다.