딥러닝 공부 - 신경망 첫걸음 정리_3_개념 마무리

꿈꾸는 사람_Anthony 2020. 1. 29. 20:26

오랜만의 포스팅이다. 그동안 바쁘기도 했고, 공부하는 내용이 쉽지는 않아, 이해하는데 시간이 걸렸다. 우선, 블로그에 올리기 전에 손으로 정리해서 17장으로 정리하였다. 오늘은 이전에 포스팅한 이후 공부한 내용을 정리 해볼 것이다. 이 포스팅까지는 이론, 다음 포스팅으로는 실전 적용(MNIST)를 포스팅하겠다. 하지만, 정리를, Jupyter Notebook에 대부분 해서 그것의 스크린 샷 혹은, 파일 공유로 대체하겠다.

경사하강법의 도입

출력 값을 수식으로 구하는 것은 엄청난 짓에 가깝다. 너무 많은 가중치가 존재하고, 하나의 출력은 또 다른 입력이 되기 때문이다. 참고로 3계층 * 3개node의 출력은 다음과 같다.

끔찍 그 자체이다.

더군다나 이 출력을 바꾸려고 가중치를 수정하는 것은 정말 어렵다.

또 학습 값들이 오류를 포함하고 있는 경우도 있다. 이때 가중치를 수정하는 것은 더 어려워진다. 어떻게 input to hidden의 W1,1가중를 바꾸어야 output node1의 출력값이 0.5가 바뀔까?.. 수식으로?? 음.. 그리고 이것을 수정한다고 해도, 다른 output node에 영향을 준다. 말도 안된다. 그래서 경사하강법을 사용한다.

경사하강법 : 최저점을 수식으로 구하지 못하는 상황에서 최적의 최저점을 찾는 과정 ( 현재 위치보다 더 좋은 지점을 찾아나가는 방법을 사용함)

이는 미분, 편미분, 연쇄법칙을 이용한다. 그리고 이것을 증명하고 나면, 미분과 행렬을 사랑하게된다.

경사하강법은, 오차함수를 두고, 오차값이 제일 낮을 때를 찾아가는 방식이다. 그리고 오차함수에 영향을 주는x축은 당연히 가중치이다. 이 가중치가 매우 많기 때문에 수많은 차원이 생겨난다. 그렇기에 편미분을 사용한

다.

오차함수 (손실함수, Loss Function)

다양한 오차함수가 존재한다. 그런데 보통 많이 쓰는 것은 MSE(Mean Squard Error)이다. 이는, 말그대로 오차제곱 평균으로

모든 출력노드 (T-O)^2, 즉 (목표-실제출력)^2의 합이 된다. 합으로 쓰는 것은 증명해보면 안다. 편미분으로 쓸데없는 값들은 다 날라간다. 얼마나 아름다운다.. 왜 학교에서 편미분과 연쇄법칙을 안 가르치는지 의문이 든다.

(굳이 MSE방식을 사용하는 것은, 이 오차함수를 사용할 때, 기울기가 완만하게되고, 첨점이 존재하지 않기 때문이다. 반례로, |T-O|를 사용하면, 첨점이 생기고, T-O을 사용하면, 합할때, 전체적인 오차가 상쇄되어 나타날 수 있다. )

이 오차함수의 미분값, 기울기 값을 어떻게 사용하냐 하면, 다음 그림에 설명이 나와있다. 그래프를 그리고, 설명하기가 어렵다. 글씨가 안좋더라도..

정리하자면, 오차함수의 기울기가 양수이면, 가중치 값을 음의 방향으로 움직일 때, 더 오차가 낮은 상태가 되고, 음수이면 가중치의 값을 양의방향으로 움직일 때, 더 낮은 오차의 상태가 된다.

수식으로 Loss function 기울기구하기

오차함수를 E라고 하자. 이때, 오차함수의 기울기는, 오차에 영향을 주는 것이, W가중치 이니, (delta)E / (delta)W_jk가 된다. k는 출력 계층이고, j는 이전 계층이다. 왜 k가 출력 계층이냐면, 오차는 실제로, 출력 계층에서만 존재하고, 다른 계층에서는 오차 재분배로 되기 때문이다.

이를 계산해보자.