기계학습 -> 비결정론적 수치(nondeterministic value) 를 다루는 데에 있어서 확률론을 적극적으로 활용한다.
1. 확률 -> 처음에 제안되었을 때에는 빈도를 분석하기 위한 도구였다.
1) 빈도론적 확률(frequentist probability) -> 시행 반복 시 사건이 일어나는 빈도와 관련된 확률
2) 베이즈 확률(bayesian probability) -> 확실한 정도를 수치화하는 데 관련된 확률
--> 베이즈 확률을 빈도론적 확률과 같은 방식으로 취급할 수도 있다(예: 환자가 독감에 걸릴 확률을 inputs->output, 여러 환자들을 봤을 때의 빈도라고 볼 수도 있다.
2. 확률변수(random variable): 여러 값을 무작위하게 가질 수 있는 변수 (연속형/이산형)
연속확률변수: 이 변수가 연속적으로 값을 가질 수 있으며 확률밀도함수를 범위에 대해 적분한 값을 가진다.
이산확률변수: 이 변수가 이산적으로 값을 가질 수 있으며 확률질량함수를 따르면서 값을 가진다
3. 분산(variance): 확률변수 x의 함수가 x에 따라 어느 정도로 변하는가 => f(x)의 값이 x에 따라 어느 정도로 크게 변하는가
공분산(covariance): 두 변수가 가지는 값의 선형관계가 어느 정도인가 => f(x)가 아주 크면 g(y)도 아주 큰가 -> cov가 양수
4. *확률분포들*
1) 베르누이분포: x가 0,1 중 하나의 값을 가진다. (이진분포)
2) 멀티누이분포: x가 k개의 값 중 하나를 가질 수 있는 이산변수일 때의 분포
--> 이 두 분포는 이산확률변수에 대한 분포이므로 어떤 확률분포도 가질 수 있다.
3) 가우스분포: x가 정규분포를 따르며 연속적인 값을 가진다.
-> 기계학습 응용 시 일차적으로 많이 사용함.
그 이유는, 중심극한정리에 따라 독립확률변수들의 합이 정규분포를 근사적으로 따른다.(실세계 데이터의 노이즈가 gaussian 따름)
-> 다변량 정규분포(multivariate normal distribution)로 일반화된다. (분포의 공분산행렬 시그마, 분포의 평균 뮤가 parameter)
4) 지수분포, 라플라스분포:
x=0에서 최고점이 되는 지수분포 이용 -> exp(-gx)
x=mu에서 최고점이 되고 대칭인 라플라스분포 이용(지수분포의 일종) -> exp(-|x-mu|/g)
5) 디랙분포, 경험분포
디랙분포: 한 점에서만 봉우리가 무한히 좁고 높다. -> 확률밀도함수 형태라서 수학적으로는 전구간에서 적분 시 1이 되지만, 일반적으로는 경험분포의 한 구성요소로 쓰인다(M개의 특정 값들만 가질 수 있는 변수로 멀티누이분포와 유사)
5. 확률분포 간 관계
두 확률변수 x,y가 y=g(x) 관계를 만족할 때, x의 확률밀도함수로 y의 확률밀도함수를 유도할 수 있다. p(x)에 야코비행렬의 행렬식을 곱하면 p(y)를 얻는다. (Ji,j=round x / round y)
6. 정보 이론
사건 X=x의 자기정보 I(x)=-log(P(x)) 정보 I의 단위인 내트(비트/섀넌)는 1내트가 확률이 1/e인 사건을 관측해서 얻는 정보의 양이다.
H(x)=E[I(x)]=-E[logP(x)] -> Shannon Entropy(확률분포 전체의 불확실성 나타낸다)
-> P(x)에서 확률이 고르게 분포할수록 H(x)가 크고 디랙분포처럼 결정론적일수록 H(x)가 작다.
두 확률분포 P(x), Q(x)의 차이 -> KL Divergence로 측정한다.
DKL(P||Q)=E[logP(x)-logQ(x)] (x가 P 따를 때의 기댓값) - DKL 식은 비대칭이다.
-> 이산변수의 경우 P,Q가 같은 분포이면 DKL=0, 연속변수의 경우 P,Q가 모든 점에서 같은 분포이면 DKL=0
교차 엔트로피(cross entropy): H(P,Q)=-E[logQ(x)]
7. 구조적 확률 모형
확률분포함수를 나타내는 것이 계산 측면에서 비효율적 -> 분포를 변수들의 관계로 분해해서 곱으로 표현
Ex: p(a,b,c)=p(a)p(b|a)p(c|a) -> 분포 서술하는 데 있어 parameter 수 효율적이다.
->그래프로 변수 간 관계 표현??
유향(directed), 무향(undirected) 그래프로 나뉘어진다.
확률분포를 함수로 표현 / 유향, 무향그래프로 표현 => 서술방식의 차이이다.
출처: Ian Goodfellow - Deep Learning
'딥러닝' 카테고리의 다른 글
| [Deep Learning] 활성화 함수에 대해 (1) | 2025.08.31 |
|---|---|
| [Deep Learning] NLL(Negative Log Likelihood)에 대해 (1) | 2025.08.31 |
| [PyTorch practice] RNN 코드 도식화하기 (0) | 2025.06.06 |
| [Easy! 딥러닝] Chapter 6. 배치 정규화와 레이어 정규화의 의미와 필요성 (0) | 2025.05.16 |
| [Easy! 딥러닝] Chapter6 앞부분까지 새롭게 배운 내용 (0) | 2025.05.15 |