Probablity review
- 9개의 Fair coin과 1개의 뒷면만 나오는 bad coin이 있다. 4번 연속 던져서 모두다 뒷면이 나왔을때 그 동전이 bad coin일 확률은 얼마나 되는가?
=> sample space U = { ( 진짜동전 , 가짜 동전) , (H,T), (H, T), (H,T), (H,T) }
사건 A : 가짜동전은 고르는 사건.
사건 B : 모든 동전이 뒷면이 나오는 사건.
타겟 사건 : 4번 모두 뒷면이 나왔을때, 가짜동전을 골랐을 확률.
구하고자 하는 확률 = P( A | B )
사건 A = { 가짜 동전 } X { H, T } ^4 사건 B = { (가짜동전 , 진짜동전), T, T, T, T }
P( A | B ) = P(A) * P( B | A ) / P( B )
=============================================
P(A) = 1/10 * 1 * 1 * 1 * 1 = 1/10
P(B) = 한 확률 공간 내에 크게 두가지 독립 사건이 있다.
- 가짜 동전을 고르고 모든 동전이 뒷면이 나올 확률.
=> 1/10 * 1
- 진짜 동전을 고르고 모든 동전이 앞면이 나올 확률.
=> 9/10 * 1/16
P( B ) = 1/10 + 9/10 * 1/16 = 25/160
P( B | A ) = 가짜 동전을 골랐을때, 뒷면만 나올 확률 = 1
P( A | B ) = P(A) * P( B | A ) / P( B ) = 0.64
기대값, 분산, 표준편차
where random variable X = { x0 , x1 ... xi}
E( X ) = sum_i ( P(xi) * xi )
E( X ) also refered as mu
V( X ) : 평균으로부터 떨어진 거리의 제곱.
V( X ) = E( square( X - mu ) ) 또는 E( sqaure( X ) ) - sqaure( mu )
두 변수의 독립
P( X = x , Y = y ) = P( X = x ) * P( Y = y ) 이면 두 사건은 서로 발생 확률에 영향을 주지 않음을 의미 한다.
즉, 사건 X와 Y가 동시에 일어날 확률과 X가 일어난 뒤 Y가 일어날 확률이 같다면 두 사건은 독립 사건 이다.
Covariance ( 공분산 )
두 확률변수 r.v = { X, Y }의 공분산은 Cov( X, Y ) = E( X * Y ) - E( X ) * E ( Y ) 로 나타낸다.
확률 변수( X * Y )의 기대값이 각 확률 변수의 기댓값을 각각 곱한 값과의 차이를 나타낸다.
다시 말해서 두 사건이 동시에 일어남으로써 각각 일어났을때 보다 평균적으로 얼마나 더 증가 혹은 감소 했는지( 시너지 )를 나타낸다.
Correlation coefficient ( 상관 계수 )
Corr( X, Y ) = Cov( X, Y ) / Std( X ) * Std( Y )
단순히 공분산의 단위를 -1 ~ 1 까지로 맞춰주기 위해서 X와 Y의 표준편차를 곱해서 공분산을 나눈것이다. 이를 피어슨 상관계수라고도 부른다.
-1에 가까울 수록 음의 선형성을 , 1에 가까울 수록 양의 선형성을 의미하고 0은 두 변수간의 선형적인 관계가 없음을 의미한다.
주의할점은 상관 계수가 0이라 할지라도 두 변수간의 상관관계가 없음을 의미하지는 않는다.
피처들 중에서 상관관계가 있을것이라고 예상되는 경우 시각화를 통해 더욱 확실히 두 피처간의 연관성을 확인할 필요가 있다.
'Python Library > Machine Learning' 카테고리의 다른 글
Day 05_Multivariate Gaussian_Winery_Classifier_MNIST (0) | 2019.07.13 |
---|---|
Day 05_Multivariate Gaussian_Winery_Classifier (0) | 2019.07.13 |
Day 02. KNN Practice with Spine Dataset (0) | 2019.07.07 |
Day 02. Implementation Of K-Nearest Neighbor (0) | 2019.07.07 |
Day 01. K-Nearest Neighbor ( KNN ) (0) | 2019.07.07 |