weight parameter를 학습하는 일련의 과정은 다음과 같다. Mini-batch SGD를 예를 들어봤을 때, 1. 샘플 데이터를 추출한다. 2. forward prop으로 weight parameter에 대한 loss를 구한다. 3. backward prop으로 gradient를 구한다. 4. gradient를 사용하여 weight parameter를 업데이트한다. 5. 최적의 weight parameter를 도출한다. 추가로 최적의 가중치를 찾기위한 여러가지 방법이 있다. 1번의 과정에서 데이터를 zero centered 되도록 전처리(pixel normalize) 2번의 과정에서 weight initialization 혹은 batch normalization으로 weight를 정규화 3번의 ..