딥러닝

[Deep Learning] 1. 확률론

jun1-cs 2025. 8. 10. 17:02

기계학습 -> 비결정론적 수치(nondeterministic value) 를 다루는 데에 있어서 확률론을 적극적으로 활용한다.

1. 확률 -> 처음에 제안되었을 때에는 빈도를 분석하기 위한 도구였다.

1) 빈도론적 확률(frequentist probability) -> 시행 반복 시 사건이 일어나는 빈도와 관련된 확률

2) 베이즈 확률(bayesian probability) -> 확실한 정도를 수치화하는 데 관련된 확률

--> 베이즈 확률을 빈도론적 확률과 같은 방식으로 취급할 수도 있다(예: 환자가 독감에 걸릴 확률을 inputs->output, 여러 환자들을 봤을 때의 빈도라고 볼 수도 있다.

 

2. 확률변수(random variable): 여러 값을 무작위하게 가질 수 있는 변수 (연속형/이산형)

연속확률변수: 이 변수가 연속적으로 값을 가질 수 있으며 확률밀도함수를 범위에 대해 적분한 값을 가진다. 

이산확률변수: 이 변수가 이산적으로 값을 가질 수 있으며 확률질량함수를 따르면서 값을 가진다

 

3. 분산(variance): 확률변수 x의 함수가 x에 따라 어느 정도로 변하는가 => f(x)의 값이 x에 따라 어느 정도로 크게 변하는가

공분산(covariance): 두 변수가 가지는 값의 선형관계가 어느 정도인가 => f(x)가 아주 크면 g(y)도 아주 큰가 -> cov가 양수

 

4. *확률분포들*

1) 베르누이분포: x가 0,1 중 하나의 값을 가진다. (이진분포)

2) 멀티누이분포: x가 k개의 값 중 하나를 가질 수 있는 이산변수일 때의 분포

--> 이 두 분포는 이산확률변수에 대한 분포이므로 어떤 확률분포도 가질 수 있다.

 

3) 가우스분포: x가 정규분포를 따르며 연속적인 값을 가진다.

-> 기계학습 응용 시 일차적으로 많이 사용함. 

그 이유는, 중심극한정리에 따라 독립확률변수들의 합이 정규분포를 근사적으로 따른다.(실세계 데이터의 노이즈가 gaussian 따름)

-> 다변량 정규분포(multivariate normal distribution)로 일반화된다. (분포의 공분산행렬 시그마, 분포의 평균 뮤가 parameter)

 

4) 지수분포, 라플라스분포:

x=0에서 최고점이 되는 지수분포 이용 -> exp(-gx)

x=mu에서 최고점이 되고 대칭인 라플라스분포 이용(지수분포의 일종) -> exp(-|x-mu|/g)

 

5) 디랙분포, 경험분포

디랙분포: 한 점에서만 봉우리가 무한히 좁고 높다. -> 확률밀도함수 형태라서 수학적으로는 전구간에서 적분 시 1이 되지만, 일반적으로는 경험분포의 한 구성요소로 쓰인다(M개의 특정 값들만 가질 수 있는 변수로 멀티누이분포와 유사)

 

5. 확률분포 간 관계

두 확률변수 x,y가 y=g(x) 관계를 만족할 때, x의 확률밀도함수로 y의 확률밀도함수를 유도할 수 있다. p(x)에 야코비행렬의 행렬식을 곱하면 p(y)를 얻는다. (Ji,j=round x / round y)

 

6. 정보 이론

사건 X=x의 자기정보 I(x)=-log(P(x))    정보 I의 단위인 내트(비트/섀넌)는  1내트가 확률이 1/e인 사건을 관측해서 얻는 정보의 양이다. 

H(x)=E[I(x)]=-E[logP(x)] -> Shannon Entropy(확률분포 전체의 불확실성 나타낸다)

-> P(x)에서 확률이 고르게 분포할수록 H(x)가 크고 디랙분포처럼 결정론적일수록 H(x)가 작다.

 

두 확률분포 P(x), Q(x)의 차이 -> KL Divergence로 측정한다.

DKL(P||Q)=E[logP(x)-logQ(x)] (x가 P 따를 때의 기댓값)  - DKL 식은 비대칭이다.

-> 이산변수의 경우 P,Q가 같은 분포이면 DKL=0, 연속변수의 경우 P,Q가 모든 점에서 같은 분포이면 DKL=0

 

교차 엔트로피(cross entropy): H(P,Q)=-E[logQ(x)]

 

7. 구조적 확률 모형

확률분포함수를 나타내는 것이 계산 측면에서 비효율적 -> 분포를 변수들의 관계로 분해해서 곱으로 표현

Ex: p(a,b,c)=p(a)p(b|a)p(c|a) -> 분포 서술하는 데 있어 parameter 수 효율적이다. 

->그래프로 변수 간 관계 표현??

유향(directed), 무향(undirected) 그래프로 나뉘어진다. 

 

확률분포를 함수로 표현 / 유향, 무향그래프로 표현 => 서술방식의 차이이다.

 

 

 

 

 

 

 

출처: Ian Goodfellow - Deep Learning