[데이터분석] Deep Learning(딥러닝) 3

728x90

Back Propagation

Loss로부터 거꾸로 한 단계씩 미분 값을 구하고 이 값들을 chain rule에 의하여 곱해가면서 Weight 대한 gradient를 구하는 방법

2가지 혹은 3가지로 나눕니다.

Training set / Test set

Training set / Validation set / Test set

Training set : 학습에 사용하는 Data

Validation set : 학습에 사용하지 않고, Hyper Patameter Tunuing에 사용하는 Data

Test set : 학습이 완전히 끝난 후에 Model을 평가하는 위한 Data

Deep Neural Network 를 사용하여 우리가 가진 Data로 학습을 잘해서, 학습에 사용하지 않았던 미지의 Data가 들어왔을 때 무언가를 잘 예측해보면 된다.

학습을 잘할려면 Training Error를 줄이는 것이 가장 중요하다.

Model Capacity가 너무 작으면 아무리 학습을 해도 성능이 안 나옵니다.

Model Capacity가 너무 크면 Generalization Gap이 커집니다.

Training Data에 sjan chlwjrghk(Fitting)를 함으로 인해서 일반화(generalization) 성능이 떨어지는 현상

Deep Learning에 사용하는 Model은 Capacity가 대부분 크기 때문에 Overfitting 취약합니다.

Neural Network에게 강아지를 Deep Learning 한다고 하면 여러 가지 강아지가 나온다고 해서 융통성이 이 하나도 없다는 것이다. 이것이 Overfitting이라고 한다.

1. Data를 많이 늘린다.

2. 일반화(generalization) 방법을 사용한다.

이미지 인식에 가장 널리 사용됩니다.

일반적인 Convolution Layer, Pooling Layer, Fully-connected Layer로 구성한다.

728x90