목록분류 전체보기 (26)
woon-ho
Abstract 본 논문은 image-level class label에 대한 instance segmentation task에 대한 새로운 approach를 제시한다. 이 모델은 pseudo intsance segmentation label을 생성하고, 이 label로 Fully supervised segmentation을 진행하는 구조로 이루어져 있다. Generating pseudo label object의 confident seed area를 image classification model의 attention map을 뽑아낸 후에 object의 entire area를 찾아낼 때까지 propagate한다. IRNet은 각 instance에 대한 rough area를 찾아내고, 서로 다른 class 사..
Abstract WSSS에서 local discriminative part는 잘 segment 하지만, entire object area에 대해서는 잘하지 못한다. AffinityNet은 local response를 nearby area로 propagate 시켜서 semantic entity를 얻는다. AffinityNet은 이러한 인접한 image coordinate pair 사이의 semantic affinity를 예측한다. 이러한 semantic propagation은 AffinityNet으로 부터 예측된 random walk로 구현된다. AffinityNet은 image-level class label만 필요로 하고, 그 외의 다른 데이터나 annotation은 필요로 하지 않는다. Introdu..

Atrous convolution DeepLab v1에서 적용한 기법으로 기존의 convolution과 달리 필터 내부에 빈 공간을 둔채로 convolution을 진행하는 방법이다. 이러한 Atrous convolution을 통해 기존 convolution과 동일한 양의 파라미터와 computation cost를 유지하면서 field of view를 크게 가져갈 수 있다. Semantic segmentation에서 높은 성능을 내기 위해서는 receptive field의 크기가 중요하게 작용한다. 이러한 방법을 통해 convolution과 pooling과정에서 디테일한 정보가 줄어들고 특성이 점점 추상화되는 것을 어느정도 방지할 수 있기 때문에 DeepLab에서는 이를 활용하였다. Atrous Spati..
MLE(Maximum Likelihood Estimation) Likelihood 값을 최대로 하는 $\theta$를 찾는 방법⇒ 여기서 posterior를 크게하는 것은 likelihood를 크게하는 것이라고 생각하는 방식이다. $\theta_{MLE} = argmax_\theta P(X|\theta) = argmax_\theta \prod_iP(x_i|\theta)$ $\theta_{MLE} = argmax_\theta \log \prod_i P(x_i | \theta) = argmax_\theta \sum_i \log P(x_i|\theta)$ $$ P(\theta|X) = {P(X|\theta)p(\theta) \over P(X)} \propto P(X|\theta) $$ MAP(Maximum A..
빈도주의 & 베이즈주의 통계학에서 확률을 해석하는 관점으로 두 관점이 있는데, 그 두 관점은 빈도주의와 베이즈주의 이다. 빈도주의는 연역적 추론에 해당하며, 베이즈주의는 귀납적 추론에 해당한다. 빈도주의 확률을 사건의 빈도로 보며, 사건을 여러번 관측하여 발생한 확률을 검정한다. 사건이 충분히 발생하지 못해, 표본이 부족할 경우 이러한 확률의 신뢰도가 떨어진다. 베이즈주의 확률을 사건 발생에 대한 믿음/척도로 본다. Bayes Theorem 사전확률(prior probability)과 사후확률(posterior probability)의 관계를 나타내는 정리이다. ⇒ likelihood, 사전확률(prior), 관측데이터(evidence)를 이용해서 사후 확률(posterior)을 예측하는 방법 $P(\t..
Optimizer란? 딥러닝에서 Network가 빠르고 정확하게 학습하는 것을 목표로 해서 Gradient Descent algorithm을 기반으로한 SGD에서 변형된 여러 종류의 Optimizer가 사용된다. SGD $w_{t+1} = w_t - \eta \nabla_w J(w_t)$ Momentum SGD의 경우 기울기가 이전과 동일하다면 step의 길이도 동일하게 update된다. 또한, 기울기 = 0인 지점에서 update가 되지 않기 때문에 local minima에 수렴할 수 있다.. 이러한 문제를 해결하고자 SGD에 관성의 개념을 적용시킨 방법이다.$$ w_{t+1} = w_t + V_t $$ 이전 이동거리와 관성계수(m)에 따라 parameter를 update하도록 하였다. (일반적으로 m..
CAM WSSS에서 원하는 객체의 부분을 얻어내기 위해 Classification Network를 사용하였다. pixel-wise inference를 하기에는 small and sparse하게 객체의 부분을 얻는다는 문제가 있다. AE CAM에서 부족하게 얻어진 객체의 영역을 보완하기 위해 이 논문에서 제안된 방법 CAM을 통해 얻어진 객체 부분을 Adversarial 방식으로 지움으로써 작동 하나의 작은 객체 부분을 시작으로 점차저긍로 새롭고 보완적인 객체영역들을 찾아낸다. 최종적으로 이러한 localized regions는 semantic segmentation을 학습하기 위한 완전한 객체 영역이 된다. PSL(Prohibitive Segmentation Learning) AE 방법을 찾아낸 영역들의..
FCN 이란? 최초의 딥러닝 기반 segmentation 모델 이전에도 딥러닝을 사용한 segmentation 모델이 있긴 했지만, 현재 대부분의 segmentation 모델들이 FCN을 베이스로 하기 때문에 FCN을 최초의 딥러닝 기반 segmentation 모델이라 간주한다. Convolutionalization 기존 Image Classification 모델들은 기본적으로 내부 구조와 관계없이 목적인 classificaiton을 수행하기 위해 출력층이 Fully-connected layer로 구성되어 있다. 하지만 Semantic segmentation에서는 이러한 FC layer가 한계점을 가진다. 이미지 위치 정보가 사라진다. 입력 이미지 크기가 고정된다. segmentation의 목적은 원본 ..