'전확률의 법칙'에 해당되는 글 1건

  1. 2012.10.14 순수 베이지안 분류기(1) (1)
Programming/Algorithm2012. 10. 14. 16:23

* 베이지안 분류기란?

클래스에 대한 사전 정보와 새로 획득된 데이터로 추출된 정보를 결합 시키는 통계원리인 베이스 정리를 이용하여 어떤 데이터가 특정 카테고리에 속하는 지를 분류하는 것이 베이지안 분류기 이다.


나름대로 책에 있는 말들을 풀어서 베이지안 분류기를 정의해 보았다. 간단하게 베이지안 분류기를 이해하기 위해 필요한 용어와 수식에 대해서 정리해 보도록 하겠다.


결합확률

한 한급에서 남녀별로 네이버 뮤직과 멜론 이용 현황을 조사한 표가 아래와 같다.



 네이버 뮤직

 멜론

 남자

 6

 8

 여자

 5

 11


결합 확률은 두 사건이 함께 일어날 확률을 말하며 수식 P(X,Y) 의 형태로 나타낸다.(X와 Y를 한쌍의 확률 변수라고 하자.)

위의 예를 적용시켜 보면 P(남자, 네이버뮤직) = 6/30 이 된다.


조건부 확률

조건부 확률은 이미 한 확률 변수의 값이 이미 알려졌을 경우, 다른 한 확률 변수가 특정 값을 가질 확률을 말한다.

수식은 P(X | Y) 로 나타내며 위의 예를 적용시켜 보면  P(남자|네이버뮤직) = 6/11 이 된다. (네이버 뮤직을 사용하는 사람중에 남자의 비율)


사전확률과 사후확률

 한 문서가 특정 카테고리에 속할 확률을 구한다고 생각해보자. 수식은 P(C|D)로 의미는 문서 D가 있을 경우 카테고리 C에 속할 확률을 의미하며 이를 사후 확률이라고 한다. 문서 D의 확률과 관계없이 단순히 모든 문서에 대한 특정 카테고리의 확률 P(C)를 사전 확률이라고 한다.

* 전확률의 법칙
 어떤 특정한 사건이 조건부 확률을 전제로 일어날 수 있는 전체확률을 구하는 방법을 제공함.
 예를 들어보면 내부가 보이지 않는 상자에 숫자가 쓰여져 있는 검은색공과 흰색공이 들어 있습니다.


 검은색

 흰색

 짝수

 11

 9

 홀수

 6

 14


 이제 상자에서 공을 뽑는다고 가정했을 때 이 공이 짝수일 확률을 구해보면 
P(짝수) = P(검은색∩짝수) + P(흰색∩짝수) 입니다.

P(검은색∩짝수) = P(검은색) * P(짝수|검은색) = 17/40 * 11/17 = 0.275
P(흰색∩짝수) = P(흰색) * P(짝수|흰색) = 23/40 * 9/23 = 0.225
 
따라서 P(짝수) =  P(검은색) * P(짝수|검은색) + P(흰색) * P(짝수|흰색) = 0.5
P(B) =  P(A) * P(B|A) + P(A') * P(B|A') 로 나타낼 수 있습니다.


* 베이스 정리
 어떤 그룹의 사진 지식과 데이터로부터 획득한 새로운 증거를 결합시키는 통계 원리. 이것은 뒤집힌 조건부 확률을 구하는 방법을 제공하며, 모든 확률을 미리 알고 있지 못한 경우 이공식은 매우 유용합니다. 
 서로 배반(서로 동시에 발생 불가)하고 전체를 이루는 N개의 사건, 즉 A1에서 An까지의 사건이 있고 B가 또 다른 사건이라고 하면 다음이 성립합니다. 

  P(A|B) = P(B|A)*P(A) / P(B)

이 공식을 좀 더 자세히 풀려면 전확률의 법칙을 이용합니다.

 P(A|B) = P(A) * P(B|A) / P(A) * P(B|A) + P(A') * P(B|A')

* 베이스의 정리 활용
 위의 전확률의 법칙에서 사용한 예로부터 짝수를 뽑았을때 그 공이 흰색일 확률을 공식을 사용해서 계산해 보세요 


다음 글에서 베이지안 분류기를 사용한 몇가지 예제에 대해서 설명하겠습니다. 

Posted by lotus

댓글을 달아 주세요

  1. 많은 도움이 되었습니다..^^

    2012.11.28 14:53 [ ADDR : EDIT/ DEL : REPLY ]