분류 전체보기 13

6.1. Dual Representations

Linear regression (with $L_2$ regularization) 의 loss function은 흔히 다음과 같이 표현된다. $\mathcal{L}(w) = {1 \over 2} \displaystyle\sum_{n=1}^N{\{w^T \phi(x_n) - t_n\}^2} + {\lambda \over 2} w^T w$, where $\lambda \geq 0$ 여기서 중요한 부분은 $\phi(x_n)$, 즉 어떠한 mapping으로 $x_n$을 표현할 것인가?이다. 예를 들어, $\phi(x_n) = [1, x, x^2]^T$로 두면, 우리의 model은 $w^T \phi(x_n) = w_0 + w_1 x_n + w_2 x_n^2$이 되어 우리는 2차 함수로의 regression을 하고..

(CVPR, 2016) Deep Residual Learning for Image Recognition: Resnet

1. Introduction 지금까지 CNN을 개선해오며, layer 수를 늘리려 시도했으나 여러 문제들로 인해 좌절되어왔다. 이전까지 layer을 늘리면서 생긴 문제들은 다음과 같다. 1. vanishing or exploding gradient 2. overffiting 1번의 경우 gradient 값이 0에 근사하거나 혹은 지나치게 커져서 parameter의 update가 상당히 느려지고, 그 결과 layer을 늘렸음에도 불구하고 정확도가 높아지지 않는 현상이다. 2번의 경우 layer의 증가가 지나치게 복잡한 model을 만들어서, train accuracy는 매우 높지만 test accuracy는 높지 않은 현상이다. 1번의 경우에는 batch normalization과 같은 normalizat..