edx에서 Probability and Statistics in Data Science using Python 강좌를 보면서 유용한 내용이 있어서 추후 참고용으로 정리 하고자 합니다.


본글 시작하기 전에 해당 본문에 인용된 대부분의 사진과 내용은 해당 강좌에서 발췌한 내용을 제 나름대로 이해해서 재구성한 글임을 밝히고

저작권 문제가 생길시 바로 삭제하겠습니다. 






Poisson Distribution이란  Binomial Distribution의 어마 무시한 계산량을 근사하기 위해 사용하는 분포이다.




Probability Mass Function이 굉장히 복잡해 보이지만 사실 알고보면 Binomial distribution에 비해 그렇게 크게 복잡하지도 않다.


P의 사건 확률을 가진 N번의 Binomial 시행 


  를 근사하기 위해서    를 대입하면  N번의 시행중 사건이 K번 발생할 확률  를 쉽게 근사할 수 있다.


이 Poisson Distribution이 특히나 유용할 경우가 있는데, 바로   N이 무시무시 하게 크고 P가 무지막지 하게 작은 경우 이다. 예를 들어,


N 이 특정 홈페이지에 사람들이 접속한 횟수 일때 어떤 광고를 클릭할 확률이 P 라면 일반적으로 대부분의 사람들이 광고팝업창을 클릭하지 않는다는 점을 

고려했을때,Binomial Distribution으로는 계산이 힘들 수 있다.


강의 에서 나온 좀 더 구체적인 예를 들어보면 어떤 공장에서 200개의 상품을 제조하고 불량률이 1% 일때 불량품 3개가 나올 확률을 계산한다고 할경우 단순 이항분포로 계산하면 ,


 가 된다.


이를 Poisson 분포로 근사하게 되면 

이 되고 계산은     로 쉽게 근사 할 수 있다.


Poisson 분포의 또 다른 장점은 P(0) 즉 사건이 한번도 발생 하지 않을 경우의 확률을 굉장히 쉽게 구할 수 있다는 점이다.


K 혹은 람다가 작은 수일 경우,




에서 보이는 것과 같이 상당히 간결하게 근사 할 수 있는데, 위에 들었던 예시를 다시 가져와 보면 200개 상품중에 


불량률이 하나도 없을 확률을 구한다고 가정 했을때, 


로 매우 쉽게 근사할 수 있고, 반대로 불량품이 하나라도 있을 확률 P( X >= 1 )는 전체 확률 1에서 0.135를 빼서 쉽게 구할 수 있다.










 여기서 E(X)는 기댓값 , V(X)는 분산, 시그마는 표준편차 입니다. 

자세한 증명은 참고자료에 있습니다.







참고 자료 : https://courses.edx.org/courses/course-v1:UCSanDiegoX+DSE210x+1T2019a/courseware/2aef3bf02e83479298835e00713e1cef/de7671d7d28f4f159e9e20663d57740b/?child=first



'Probability and Statistics' 카테고리의 다른 글

Geometric Distribution  (0) 2019.07.04

+ Recent posts