Deep Learning
-
Gradient Descent Variants loss.backward() 매개변수의 gradients 계산 Optimizer.step() 매개변수 갱신 step size == learning rate Gradient Descent Optimization Algorithms (BGD vs SGD) Neural network의 weight을 조절하는 방법은 보통 Gradient Descent를 사용 BGD (Batch Gradient Descent) 1 step = whole traing data(batch)에 대해 Loss 계산 너무 많은 계산량이 필요 SGD (Stochastic Gradient Descent, 또는 Naive SGD) batch가 아닌 batch의 일부(mini-batch)에 대해 L..
[draft] Optimization VariantsGradient Descent Variants loss.backward() 매개변수의 gradients 계산 Optimizer.step() 매개변수 갱신 step size == learning rate Gradient Descent Optimization Algorithms (BGD vs SGD) Neural network의 weight을 조절하는 방법은 보통 Gradient Descent를 사용 BGD (Batch Gradient Descent) 1 step = whole traing data(batch)에 대해 Loss 계산 너무 많은 계산량이 필요 SGD (Stochastic Gradient Descent, 또는 Naive SGD) batch가 아닌 batch의 일부(mini-batch)에 대해 L..
2021.05.17 -
Motivation & Problems input을 normalize해도, Layer를 거치는 과정에서 Normalization의 효과가 사라짐 intermediate layer에서도 각 input값 (이전 layer로부터 들어오는 값들)을 normalize 하는 것이 목적 mini-batch마다 normalization을 진행 internal Covariate Shift 딥러닝 모델이 잘 작동하기 위해서는 train data distribution과 test data distribution이 거의 같아야하지만, overfitting된 모델은 서로 다른 distribution을 가짐 train data의 distribution과 test data의 distribution이 달라지는 현상(Covariate..
Batch Normalization, 배치 정규화Motivation & Problems input을 normalize해도, Layer를 거치는 과정에서 Normalization의 효과가 사라짐 intermediate layer에서도 각 input값 (이전 layer로부터 들어오는 값들)을 normalize 하는 것이 목적 mini-batch마다 normalization을 진행 internal Covariate Shift 딥러닝 모델이 잘 작동하기 위해서는 train data distribution과 test data distribution이 거의 같아야하지만, overfitting된 모델은 서로 다른 distribution을 가짐 train data의 distribution과 test data의 distribution이 달라지는 현상(Covariate..
2021.05.10 -
Ranking Loss - 여러 개의 입력 x1, x2,… , xn 이 주어질 때, 입력 간 상대적인 순위 r(x1), r(x2),… , r(xn) - Face Recognition과 같이, class가 수없이 많은 문제를 다룰 때, Softmax는 도움이 되지 않음 Pairwise Ranking Loss - 입력 xi, xj 가 r(xi)>r(xj) 를 만족하면, f(xi)>f(xj) 를 성립하는 실수 함수 f 를 찾는 방법 - 두 입력에 대한 함수값에 차이를 두기 위해, margin = a, a>0 , f(xi)>f(xj)+a - loss 함수는 f(xi)>f(xj)+a 가 만족되지 않는 경우에만 영향을 미치면 된다. - max(0, f(xj)+a-f(xi)) Triplet Ranking Loss ..
[draft] Ranking Loss (Pairwise, Triplet)Ranking Loss - 여러 개의 입력 x1, x2,… , xn 이 주어질 때, 입력 간 상대적인 순위 r(x1), r(x2),… , r(xn) - Face Recognition과 같이, class가 수없이 많은 문제를 다룰 때, Softmax는 도움이 되지 않음 Pairwise Ranking Loss - 입력 xi, xj 가 r(xi)>r(xj) 를 만족하면, f(xi)>f(xj) 를 성립하는 실수 함수 f 를 찾는 방법 - 두 입력에 대한 함수값에 차이를 두기 위해, margin = a, a>0 , f(xi)>f(xj)+a - loss 함수는 f(xi)>f(xj)+a 가 만족되지 않는 경우에만 영향을 미치면 된다. - max(0, f(xj)+a-f(xi)) Triplet Ranking Loss ..
2021.05.03 -
P :True distribution, Q :Guess distribution KL(P||Q)=E[log(Px/Qx)]=PX∙log(P(X)/Q(X)) Figure 1. KL(Q||P)= E[log(Qx/Px)]=QX∙log(Q(X)/P(X)) 1. Forward KL Divergence A. 우리는 KL Divergence 값을 최소화하여야 한다. 즉, KL Divergence 값이 커지는 것을 피해야 한다. B. KL(P||Q)에서 P값이 0이 되지 않도록 해야 한다. (Zero-avoiding) C. KL(P||Q)에서 Q값이 0에 가까워질수록, KL Divergence 값이 기하급수적으로 거대해진다. D. 따라서 Forward KL Divergence는 Figure 1모양을 선호하며, P의 전체 ..
[draft] Forward KL VS Reverse KLP :True distribution, Q :Guess distribution KL(P||Q)=E[log(Px/Qx)]=PX∙log(P(X)/Q(X)) Figure 1. KL(Q||P)= E[log(Qx/Px)]=QX∙log(Q(X)/P(X)) 1. Forward KL Divergence A. 우리는 KL Divergence 값을 최소화하여야 한다. 즉, KL Divergence 값이 커지는 것을 피해야 한다. B. KL(P||Q)에서 P값이 0이 되지 않도록 해야 한다. (Zero-avoiding) C. KL(P||Q)에서 Q값이 0에 가까워질수록, KL Divergence 값이 기하급수적으로 거대해진다. D. 따라서 Forward KL Divergence는 Figure 1모양을 선호하며, P의 전체 ..
2021.05.03 -
Cross Entropy Loss Information Theory : it is mainly used in coding theory such as Huffman coding Surprise = unexpectedness = disorder = less probability Information = level of surprise if event X has high probability = P(X), then P(X) = "No Surprise". else if event X has low probability = P(X), then P(X) = "Surprise.". if rain_summer has high probability = P(rain_summer), else if snow_summer ha..
[draft] Cross Entropy LossCross Entropy Loss Information Theory : it is mainly used in coding theory such as Huffman coding Surprise = unexpectedness = disorder = less probability Information = level of surprise if event X has high probability = P(X), then P(X) = "No Surprise". else if event X has low probability = P(X), then P(X) = "Surprise.". if rain_summer has high probability = P(rain_summer), else if snow_summer ha..
2021.04.05 -
Hinge Loss loss = max{0, 1 - (Label * Prediction)} Support Vector Machine에서 주로 사용됨 학습 데이터 각각의 범주를 구분하면서, 데이터와 가장 거리가 먼 Decision Boundary를 찾기 위한 손실 함수 = 데이터와 경계 사이의 margin이 최대화
[draft] Hinge LossHinge Loss loss = max{0, 1 - (Label * Prediction)} Support Vector Machine에서 주로 사용됨 학습 데이터 각각의 범주를 구분하면서, 데이터와 가장 거리가 먼 Decision Boundary를 찾기 위한 손실 함수 = 데이터와 경계 사이의 margin이 최대화
2021.04.05 -
Loss Functions 가장 자주 사용되는 손실함수 / 목적 Mean Square Error / Regression : Label과 Prediction의 차이를 제곱한 것을 모두 더해 총량으로 나누는 기법 Mean Absolute Error / Regression : Label과 Prediction의 차이에 절대값을 취한 것을 모두 더해 총량으로 나누는 기법 Cross Entropy Error / Classification : negative log loss, 아래에서 자세히 다뤄볼 예정 잘 안 쓰이는 손실함수 Hinge Loss : 주로 binary classification 문제에서 사용된다 (Linear Classifier) Huber Loss
[draft] Loss FunctionLoss Functions 가장 자주 사용되는 손실함수 / 목적 Mean Square Error / Regression : Label과 Prediction의 차이를 제곱한 것을 모두 더해 총량으로 나누는 기법 Mean Absolute Error / Regression : Label과 Prediction의 차이에 절대값을 취한 것을 모두 더해 총량으로 나누는 기법 Cross Entropy Error / Classification : negative log loss, 아래에서 자세히 다뤄볼 예정 잘 안 쓰이는 손실함수 Hinge Loss : 주로 binary classification 문제에서 사용된다 (Linear Classifier) Huber Loss
2021.04.05 -
### data preparation ### *종류 - Cleaning 1. Missing values : 데이터 샘플이 충분한 경우, 결측값의 샘플 제거 : feature의 평균값으로 값을 채울 수 있지만, 결과에 noise가 있을 수 있으므로 조심해야 한다. 2. outliers : 보통 특이점이 얼마 없지만, 결과에 큰 영향을 미치므로 특이점을 제거하는 것이 좋다 3. nominal values(symbolic data) : symbolic value를 number로 변환한다. : 값을 정렬할 수 없는 경우, 값 집합의 수만큼 feature를 분할한다. : 예를 들어 Is green?에 대한 대답의 값 집합은 yes, no이므로, 1, 0으로 변환할 수 있다. - Preprocessing : Dat..
[draft] data preparation### data preparation ### *종류 - Cleaning 1. Missing values : 데이터 샘플이 충분한 경우, 결측값의 샘플 제거 : feature의 평균값으로 값을 채울 수 있지만, 결과에 noise가 있을 수 있으므로 조심해야 한다. 2. outliers : 보통 특이점이 얼마 없지만, 결과에 큰 영향을 미치므로 특이점을 제거하는 것이 좋다 3. nominal values(symbolic data) : symbolic value를 number로 변환한다. : 값을 정렬할 수 없는 경우, 값 집합의 수만큼 feature를 분할한다. : 예를 들어 Is green?에 대한 대답의 값 집합은 yes, no이므로, 1, 0으로 변환할 수 있다. - Preprocessing : Dat..
2021.03.29