목록ML & DL (3)
woon-ho
Optimizer란? 딥러닝에서 Network가 빠르고 정확하게 학습하는 것을 목표로 해서 Gradient Descent algorithm을 기반으로한 SGD에서 변형된 여러 종류의 Optimizer가 사용된다. SGD $w_{t+1} = w_t - \eta \nabla_w J(w_t)$ Momentum SGD의 경우 기울기가 이전과 동일하다면 step의 길이도 동일하게 update된다. 또한, 기울기 = 0인 지점에서 update가 되지 않기 때문에 local minima에 수렴할 수 있다.. 이러한 문제를 해결하고자 SGD에 관성의 개념을 적용시킨 방법이다.$$ w_{t+1} = w_t + V_t $$ 이전 이동거리와 관성계수(m)에 따라 parameter를 update하도록 하였다. (일반적으로 m..
KAIST 문일철 교수님의 인공지능 및 기계학습 개론1 수업을 참고하여 정리한 글입니다. https://www.edwith.org/machinelearning1_17/lecture/10602 1. SVM이란? 데이터를 두 범주로 나누는 문제를 푼다고 생각해 보자. 이와 같이 데이터가 존재할 때, 데이터를 두 범주로 나누는 선은 어떻게 정의되어야 할까? SVM은 이 경계선을 정의하는 모델이다. 여기서 경계선은 Decision Boundary 라고 한다. 2. Decision Boundary 위와 같이 데이터가 분포할 때, 데이터를 두 범주로 나누는 Decision Boundary는 여러가지가 존재한다. 그 중 두가지를 뽑아서 B1, B2로 나타냈는데, 둘 중 어느 것이 Decsion Boundary를 잘 ..
1. Introduction Deep Neural Network의 optimize방식에는 SGD방식이 있다. SGD는 결국 loss값을 최소화 하는 parameter를 찾는 것이다. 식은 다음과 같다. 이러한 SGD는 간단하고, 효율적이지만, 몇가지 문제가 있다. 첫 번째, hyper-parameter가 제대로 tuning되어야 한다. 두 번째, parameter의 초기 값이 제대로 설정 되어야 한다. 세 번째, 각 layer에 들어가는 Input이 앞에 layer의 parameter에 따라 뒤쪽 layer의 input 분포가 변한다. 여기서 세번째 문제를 논문 저자는 internal covariate shift라고 정의하며, 가장 큰 문제로 보고 있다. covariate shift란 learning s..