1. Introduction 지금까지 CNN을 개선해오며, layer 수를 늘리려 시도했으나 여러 문제들로 인해 좌절되어왔다. 이전까지 layer을 늘리면서 생긴 문제들은 다음과 같다. 1. vanishing or exploding gradient 2. overffiting 1번의 경우 gradient 값이 0에 근사하거나 혹은 지나치게 커져서 parameter의 update가 상당히 느려지고, 그 결과 layer을 늘렸음에도 불구하고 정확도가 높아지지 않는 현상이다. 2번의 경우 layer의 증가가 지나치게 복잡한 model을 만들어서, train accuracy는 매우 높지만 test accuracy는 높지 않은 현상이다. 1번의 경우에는 batch normalization과 같은 normalizat..