edx에서 Probability and Statistics in Data Science using Python 강좌를 보면서 유용한 내용이 있어서 추후 참고용으로 정리 하고자 합니다.
본글 시작하기 전에 해당 본문에 인용된 대부분의 사진과 내용은 해당 강좌에서 발췌한 내용을 제 나름대로 이해해서 재구성한 글임을 밝히고
저작권 문제가 생길시 바로 삭제하겠습니다.
Geometric Distribution은 특정 사건이 발생할 확률이 p일때, n번째 시행에서 그 사건이 처음으로 발생할 확률을 의미합니다.
즉 사건이 발생할 확률이 p , 사건이 발생하지 않을 확률이 q 또는 1 - p 라고 할때 n번째에 처음으로 해당 사건이 발생할 확률 g(n)은 다음과 같습니다.
geometric 분포는 그 자체로도 의미가 있지만 Cumulative Distribution Function(CDF), 누적합으로 나타냈을때도 활용도가 높은데,
그 의미는 0 ~ n번의 시행중에 확률이 p인 사건이 발생할 확률 이라는 의미가 됩니다. 이를 수식으로 나타내면,
에서 이 0 부터 n 번째 시행까지 사건 X 가 발생하지 않을 확률이므로 , 그 반대인 사건 X가 한번이라도
발생할 확률 F(n)은
로 표현 할 수 있습니다.
또한 Geometric Distribution의 각 시행이 독립사건이기 때문에 발생하는 독특한 성질중에 하나는 n번의 시행동안 사건 X가 발생하지 않았을때 ,
n번 이후로 m번의 시행동안 사건 P(X)가 발생할 확률은 0번째 시행부터 m 번째 시행중에 사건이 발생할 확률과 같다는것 입니다.
이를 수식으로 나타내면 다음과 같습니다.
마지막으로 기댓값 E(X) 와 분산 V(X)는
이고 자세한 증명은 해당 강좌를 참고하시기 바랍니다.
덧붙여서 강좌에서 나온 두가지 응용 예제도 첨부합니다.
1. 어떤 사람이 3개의 회사를 차리려고 하는데 그때 셋중에 하나라도 성공할 확률은 얼마 인가?
단, 하나의 스타트업이 성공할 확률 P( 스타트업이 성공) = 0.2 즉 20% 이며 각 스타트업이 성공할 확률은 서로 영향을 미치지 않는 독립사건이다.
이 문제를 G, 즉 Geometric Distribution 문제로 표현하면 사건이 발생할 확률 p가 0.2인 로 표현 할 수 있고.
스타트 업이 성공하기 위해서 필요한 시도 횟수, 즉 기대값 E(X) 는 즉 평균 적으로 5번은 시도해야 성공을 한번
경험한다고 볼 수 있다.
또 이 문제를 수식으로 표현하면 , 3 번의 시도 안에 성공을 겪을 확률은 계산 해보면
대략 49%가 된다.
2. 첫번째 사람이 3번의 시도 끝에 모두다 실패 했을때, 그의 친구 A가 3개의 스타트업을 다시 시도하면 그때 3개 중에 하나라도 성공할 확률은 얼마나
되는가?
단, 창업을 한다는 사건은 모두 같은 사건의 연속 시행으로 간주하고, 이전의 창업경험은 새로운 창업 성공확률에 영향을 미치지 않는다.
이 문제를 수식으로 표현하면 즉 , 3번의 시행 이후에 또 다른 4 번째 , 5 번째, 6 번째 시행에서
성공할 확률로 볼 수가 있는데, 위 식을 전개하면 으로 풀 수 있다.
위에서 설명한 n번의 시행 이후에 m번 시행중에 사건이 발생할 확률은 0번부터 m번의 시행중에 사건이 발생할 확률과 같다는점을 생각 해보면 ,
위 식은 처음 3번의 시행에서 성공을 경험할 확률 즉, 1번에서 구한 49%가 된다.
이 문제에서 첫 시행이 종료한 시점의 조건부확률 ( 사후확률 ) 관점이 아닌 전체 확률 , 즉 처음 3번의 시행이 다 실패하고 그 이후의 4~6번째 시행중에
성공할 확률( 교집합 확률 )은 CDF(누적합)개념을 이용해서, 단순히 F(6) - F(3) 즉 6번 시행해서 성공할 확률 - 3번 시행에서 성공할 확률로 볼수 있고
일 때 , F(6) - F(3) 약 24.5% 이다.
'Probability and Statistics' 카테고리의 다른 글
Poisson Distribution (0) | 2019.07.04 |
---|