Probablity review


  1. 9개의 Fair coin과 1개의 뒷면만 나오는 bad coin이 있다. 4번 연속 던져서 모두다 뒷면이 나왔을때 그 동전이 bad coin일 확률은 얼마나 되는가?

=> sample space U = { ( 진짜동전 , 가짜 동전) , (H,T), (H, T), (H,T), (H,T) }


사건 A : 가짜동전은 고르는 사건.

사건 B : 모든 동전이 뒷면이 나오는 사건.

타겟 사건 : 4번 모두 뒷면이 나왔을때, 가짜동전을 골랐을 확률.

구하고자 하는 확률 = P( A | B )

사건 A = { 가짜 동전 } X { H, T } ^4 사건 B = { (가짜동전 , 진짜동전), T, T, T, T }

P( A | B ) = P(A) * P( B | A ) / P( B )

=============================================

P(A) = 1/10 * 1 * 1 * 1 * 1 = 1/10

P(B) = 한 확률 공간 내에 크게 두가지 독립 사건이 있다.

  1. 가짜 동전을 고르고 모든 동전이 뒷면이 나올 확률.

=> 1/10 * 1

  1. 진짜 동전을 고르고 모든 동전이 앞면이 나올 확률.

=> 9/10 * 1/16

P( B ) = 1/10 + 9/10 * 1/16 = 25/160

P( B | A ) = 가짜 동전을 골랐을때, 뒷면만 나올 확률 = 1

P( A | B ) = P(A) * P( B | A ) / P( B ) = 0.64


기대값, 분산, 표준편차


where random variable X = { x0 , x1 ... xi}

E( X ) = sum_i ( P(xi) * xi )

E( X ) also refered as mu

V( X ) : 평균으로부터 떨어진 거리의 제곱.

V( X ) = E( square( X - mu ) ) 또는 E( sqaure( X ) ) - sqaure( mu )


두 변수의 독립


P( X = x , Y = y ) = P( X = x ) * P( Y = y ) 이면 두 사건은 서로 발생 확률에 영향을 주지 않음을 의미 한다.

즉, 사건 X와 Y가 동시에 일어날 확률과 X가 일어난 뒤 Y가 일어날 확률이 같다면 두 사건은 독립 사건 이다.


Covariance ( 공분산 )


두 확률변수 r.v = { X, Y }의 공분산은 Cov( X, Y ) = E( X * Y ) - E( X ) * E ( Y ) 로 나타낸다.

확률 변수( X * Y )의 기대값이 각 확률 변수의 기댓값을 각각 곱한 값과의 차이를 나타낸다.

다시 말해서 두 사건이 동시에 일어남으로써 각각 일어났을때 보다 평균적으로 얼마나 더 증가 혹은 감소 했는지( 시너지 )를 나타낸다.


Correlation coefficient ( 상관 계수 )


Corr( X, Y ) = Cov( X, Y ) / Std( X ) * Std( Y )

단순히 공분산의 단위를 -1 ~ 1 까지로 맞춰주기 위해서 X와 Y의 표준편차를 곱해서 공분산을 나눈것이다. 이를 피어슨 상관계수라고도 부른다.

-1에 가까울 수록 음의 선형성을 , 1에 가까울 수록 양의 선형성을 의미하고 0은 두 변수간의 선형적인 관계가 없음을 의미한다.

주의할점은 상관 계수가 0이라 할지라도 두 변수간의 상관관계가 없음을 의미하지는 않는다.

피처들 중에서 상관관계가 있을것이라고 예상되는 경우 시각화를 통해 더욱 확실히 두 피처간의 연관성을 확인할 필요가 있다.


+ Recent posts