목록Computer Vision (16)
woon-ho
Abstract 본 논문은 image-level class label에 대한 instance segmentation task에 대한 새로운 approach를 제시한다. 이 모델은 pseudo intsance segmentation label을 생성하고, 이 label로 Fully supervised segmentation을 진행하는 구조로 이루어져 있다. Generating pseudo label object의 confident seed area를 image classification model의 attention map을 뽑아낸 후에 object의 entire area를 찾아낼 때까지 propagate한다. IRNet은 각 instance에 대한 rough area를 찾아내고, 서로 다른 class 사..
Abstract WSSS에서 local discriminative part는 잘 segment 하지만, entire object area에 대해서는 잘하지 못한다. AffinityNet은 local response를 nearby area로 propagate 시켜서 semantic entity를 얻는다. AffinityNet은 이러한 인접한 image coordinate pair 사이의 semantic affinity를 예측한다. 이러한 semantic propagation은 AffinityNet으로 부터 예측된 random walk로 구현된다. AffinityNet은 image-level class label만 필요로 하고, 그 외의 다른 데이터나 annotation은 필요로 하지 않는다. Introdu..

Atrous convolution DeepLab v1에서 적용한 기법으로 기존의 convolution과 달리 필터 내부에 빈 공간을 둔채로 convolution을 진행하는 방법이다. 이러한 Atrous convolution을 통해 기존 convolution과 동일한 양의 파라미터와 computation cost를 유지하면서 field of view를 크게 가져갈 수 있다. Semantic segmentation에서 높은 성능을 내기 위해서는 receptive field의 크기가 중요하게 작용한다. 이러한 방법을 통해 convolution과 pooling과정에서 디테일한 정보가 줄어들고 특성이 점점 추상화되는 것을 어느정도 방지할 수 있기 때문에 DeepLab에서는 이를 활용하였다. Atrous Spati..
CAM WSSS에서 원하는 객체의 부분을 얻어내기 위해 Classification Network를 사용하였다. pixel-wise inference를 하기에는 small and sparse하게 객체의 부분을 얻는다는 문제가 있다. AE CAM에서 부족하게 얻어진 객체의 영역을 보완하기 위해 이 논문에서 제안된 방법 CAM을 통해 얻어진 객체 부분을 Adversarial 방식으로 지움으로써 작동 하나의 작은 객체 부분을 시작으로 점차저긍로 새롭고 보완적인 객체영역들을 찾아낸다. 최종적으로 이러한 localized regions는 semantic segmentation을 학습하기 위한 완전한 객체 영역이 된다. PSL(Prohibitive Segmentation Learning) AE 방법을 찾아낸 영역들의..
FCN 이란? 최초의 딥러닝 기반 segmentation 모델 이전에도 딥러닝을 사용한 segmentation 모델이 있긴 했지만, 현재 대부분의 segmentation 모델들이 FCN을 베이스로 하기 때문에 FCN을 최초의 딥러닝 기반 segmentation 모델이라 간주한다. Convolutionalization 기존 Image Classification 모델들은 기본적으로 내부 구조와 관계없이 목적인 classificaiton을 수행하기 위해 출력층이 Fully-connected layer로 구성되어 있다. 하지만 Semantic segmentation에서는 이러한 FC layer가 한계점을 가진다. 이미지 위치 정보가 사라진다. 입력 이미지 크기가 고정된다. segmentation의 목적은 원본 ..
Abstract Image-level weak supervision을 사용하는 WSSS는 몇가지 한계점이 존재한다. sparse object coverage inaccurate object boundary co-occuring pixels from non-target objects ⇒ 이러한 문제점들을 해결하기 위해 EPS를 제안한다. EPS는 two weak supervision을 합쳐서 pixel-level feedback을 얻는다. localization map saliency map Joint training strategy로 localization map과 saliency map으로부터 오는 정보들의 complementary relationship을 이용한다. Introduction WSSS는 ..
1. Background Transformer란? NLP분야에서 제시된 모델로, RNN, CNN mechanism을 쓰지 않고, Attention mechanism을 활용해 machine translation 부분 SOTA를 차지했다. 현재 NLP를 넘어서 Image classification, Image detection, Image retrieval 등 computer vision 분야에도 사용되기 시작했다. Architecture Encoder-Decoder 구조 Scaled Dot-Product Attention & Multi-Head Attention RNN에서는 BPTT(Back Propagation Through Time) 구조로 인해 순차적 연산이 필요하지만, Transformer 구조에서..
이번에 리뷰할 논문은 MobileNets: Efficent Covolutional Neural Networks for Mobile Vision Applications입니다. MobileNet은 모델의 경량화에 집중했습니다. 경량화에 집중한 이유는 핸드폰이나 임베디드 시스템과 같은 저용량 메모리환경에서 딥러닝을 이용하기 위해서는 모델의 경량화가 필수적이기 때문입니다. 이 논문에서는 모델의 경량화를 위해서 다음과 같은 방법을 제시합니다. 1. Depthwise separable convolution 2. Two hyperparameters 1. Depthwise Separable Convolution Depthwise separable convolution은 기존의 standard convolution을 두..