30 Aug 2017 » probability, statistics

2017-08-30-probability_1

Probability for data-science ②

독립 Independence

  • 두 이벤트가 서로 영향을 미치지 않는 경우 서로 독립(independent)이다.
  • 독립의 정의 $$ P(A,B) = P(A)\cdot P(B) $$
  • 독립인 경우 조건부 확률과 원래의 확률이 같아진다. $$ P(A|B) = \dfrac{P(A,B)}{P(B)} = \dfrac{P(A) \cdot P(B)}{P(B)} = P(A) $$

베이즈 정리 Bayes' Rule

$$ P(A\;|\;B) = \dfrac{P(B\;|\;A)\cdot P(A)}{P(B)} $$

pf)

$$ P(A\;|\;B) = \dfrac{P(A,B)}{P(B)} \;\; \rightarrow \;\; P(A,B) = P(A\;|\;B)\cdot P(B) $$$$ P(B\;|\;A) = \dfrac{P(A,B)}{P(A)} \;\; \rightarrow \;\; P(A,B) = P(B\;|\;A)\cdot P(A) $$$$ P(A,B) = P(A\;|\;B)\cdot P(B) = P(B\;|\;A)\cdot P(A) $$$$∴ \;\; P(A\;|\;B) = \dfrac{P(B\;|\;A)P(A)}{P(B)} $$

Bayes' Rule의 의미

$$ P(A\;|\;B) = \dfrac{P(B\;|\;A)P(A)}{P(B)} $$

Posterior : 사건 B가 발생한 후 갱신된 정보

$$P(A\;|\;B)$$

Prior : 사건 B가 발생하기 전에 가지고 있던 정보

$$P(A)$$

Likelihood : 사건 A 조건 하에서 이벤트 B가 발생할 확률

$$P(B\;|\;A)$$

Normalizing constance ← 정규화

$$P(B)$$

$$ P(A\;|\;B) \propto P(B\;|\;A)\cdot P(A) $$

$P(A\;|\;B)$는 $P(A,B)$를 $P(B)$로 Nomalizing

의미에 따라 다시 써보면

$$ \left[P(A\;|\;B) = \dfrac{P(B\;|\;A)P(A)}{P(B)} \right] \;\;=\;\; \left[(Posterior) = \frac{(Likelihood) \cdot (Prior)}{(Nomalizing)} \right] $$

law of total probability → Bayes' Rule

$$ P(A_1\;|\;B) \;=\; \frac{P(B\;|\;A_1)\cdot P(A_1)}{P(B)} \;= \; \dfrac{P(B\;|\;A_1)\cdot P(A_1)}{\sum_i P(B\;|\;A_i)\cdot P(A_i)} $$$$ ∵ \;\; P(B) \;=\; \sum_{i} {(P(A_{i}) \cap P(B))} \;=\; \sum_i {P(B\;|\;A_i) \cdot P(A_i)} $$

ex_1) 검사 시약 문제

환자가 특정한 병에 걸렸는지 확인할 수 있는 시약을 만들었다.

  • 그 병에 걸린 환자에게 시약을 테스트한 결과 99%의 확률로 양성 반응을 보였다.
  • 이 약을 병에 걸렸는지 확인되지 않은 환자에게 테스트한 결과 양성 반응을 보였다.
  • 이 환자가 그 병에 걸려 있을 확률은 얼마인가? 사건을 정리해 보자.

    병에 걸린 경우 : D

    테스트 결과 양성일 경우 : S

    병에 걸린 사람이 양성반응을 보일 경우 : S|D

    양성 반응을 보이는 사람이 병에 걸려 있을 경우 : D|S

문제) $$ P(D) \;=\; 0.002, \;\; P(S\;|\;D)\;=\;0.99, \;\; P(S\;|\;D^c)\; =\; 0.05 \text{일 때}, P(D\;|\;S) \;=\; ? $$

sol) $$ P(D\;|\;S) = \dfrac{P(S\;|\;D)\cdot P(D)}{P(S\;|\;D)\cdot P(D) + P(S\;|\;D^C)\cdot P(D^C)} \\ = \dfrac{0.99 \cdot 0.002}{0.99 \cdot 0.002 + 0.05 \cdot 0.998} $$

In [1]:
(0.99*0.002) / (0.99*0.002 + 0.05*0.998) 
Out[1]:
0.038164996144949885
$$ ∴ \;\; P(D\;|\;S) = 0.038 $$

ex_2) Boy/Girl Paradox

문제 1)

Mr. Jones has two children. The older child is a boy. What is the probability that both children are boys?

sol)

둘째 = Boy 둘째 = Girl
첫째 = Boy BB BG
첫째 = Girl GB GG
$$ ∴ \;\;\; \frac{1}{2}$$

문제 2)

Mr. Smith has two children. At least one of them is a boy. What is the probability that both children are boys?

  • 두 아이 중 한 명이 남자라는 정보의 질(quality)에 따라 답이 달라진다.

case_1)

"두 아이 중 적어도 한 명이 남자인가요"라는 질문에 부모가 "네"라고 대답한 경우

sol)

둘째 = Boy 둘째 = Girl
첫째 = Boy BB BG
첫째 = Girl GB GG
$$ ∴ \;\;\; \frac{1}{3}$$

case_2)

그 집에서 나오는 아이를 우연히 보았는데 그 아이를 남자라고 생각하는 경우

또는 그 집에 전화를 걸었는데 목소리가 남자 목소리가 나는 아이가 전화를 받은 경우

  • 제 3자가 아들을 목격한 경우, 그 아이가 아들인지 딸인지는 알 수 없다. 딸을 아들이라고 착각할 수도 있다.
  • 부모의 대답은 명확하나, 제 3자는 추측을 하기 때문이다.
  • 단, 제 3자가 목격한 아이는 이 집의 두 명의 아이 중 한 명이다!
  • 남자 아이의 대한 정보에 대한 확률(신뢰도)이 추가적으로 포함되어서 계산되어야 한다.
  • Bayes'Rule을 활용해야 한다!

sol)

둘째 = Boy 둘째 = Girl
첫째 = Boy BB BG (정보제공자의 신뢰성??)
첫째 = Girl GB (정보제공자의 신뢰성??) GG
  • 두 아이가 모두 남자인 사건 : BB
  • 남자 아이를 목격한 사건 : Y
$$ \begin{eqnarray} P(BB\;|\;Y) &=& \dfrac{P(Y\;|\;BB)\cdot P(BB)}{P(Y)} \\ &=& \dfrac{P(Y\;|\;BB)\cdot P(BB)}{P(Y\;|\;BB)\cdot P(BB) + \bbox[5px, border:2px solid red]{P(Y\;|\;BG)}\cdot P(BG) + \bbox[5px, border:2px solid red]{P(Y\;|\;GB)}\cdot P(GB) + P(Y\;|\;GG)\cdot P(GG)} \\ &=& \dfrac{1\cdot 0.25}{1\cdot 0.25 + 0.5\cdot 0.25 + 0.5\cdot 0.25 + 0\cdot 0.25} \\ &=& \dfrac{0.25}{0.50} \\ &=& \dfrac{1}{2} \end{eqnarray} $$
아래의 값에서 차이가 발생한다.
$$\bbox[8px, border:2px solid red]{P(Y\;|\;BG),\;\; P(Y\;|\;GB)}$$
  • 이 확률은 정보를 주는 사람의 신뢰성을 평가하는 값이라고 생각하면 된다.
  • 제 3자는 딸을 아들이라고 잘못 목격할 가능성이 있기 때문에 0.5의 값을 갖지만, 부모는 명확한 사실을 전달하므로 확률값 = 1

베이즈 정리 심화

  • 만약 사건 A, B, C가 서로 독립일 경우 $$ P(A,\;B,\;C) \;=\; P(A)\cdot P(B)\cdot P(C) \;\;↔︎\;\; P(A\;|\;B,\;C) = \dfrac{P(B\;|\;A,\;C)\cdot P(A\;|\;C)}{P(B\;|\; C)} $$

pf)

아래를 활용하여 증명하면 된다. A, B, C가 서로 독립일 경우

$$ P(A) = \sum_i P(A,\; B_i) = \sum_i P(A\;|\;B_i)\cdot P(B_i) \\ P(A \;|\; C) = \sum_i P(A,\; B_i \;|\; C) = \sum_i P(A\;|\;C)\cdot P(B_i \;|\; C) $$

조건부 독립

사건 A, B, C가 다음의 관계이다.

사건 A와 B는 서로 독립이 아니다.

사건 A와 C는 서로 독립이 아니다.

사건 B와 C는 서로 독립이 아니다.

그런데, 사건 C가 일어나고 사건 A와 B의 관계를 봤더니 서로 독립이 되었다.

$$ P(A,\;B\;|\;C) = P(A\;|\;C)\cdot P(B\;|\;C) $$

조건부 독립의 특성

만약 사건 A, B가 사건 C에 대해 조건부 독립이면

$$ P(A\;|\;B,\;C) = P(A\;|\;C) $$

사건 C가 일어난 경우 A와 B는 서로 독립이므로, A에게 B는 중요하지 않다.

조건부 독립의 Bayes'Rule

만약 사건 A, B가 이벤트 C에 대해 조건부 독립이면,

$$ P(A\;|\;B,\;C) = \dfrac{P(B\;|\;A,\;C)\cdot P(A\;|\;C)}{P(B\;|\;C)} $$

Monty Hall Problem

미국의 TV 게임 쇼 Let's Make a Deal에서 유래한 퍼즐

문제

  • 세 개의 문 중에 하나를 선택하여 문 뒤에 있는 선물을 가질 수 있는 게임
  • 한 문 뒤에는 자동차, 나머지 두 문 뒤에는 염소
  • 예를 들어 참가자가 1번 문을 선택했을 때, 진행자는 3번 문을 열어 문 뒤에 염소를 보여 주면서 1번 대신 2번을 선택하겠냐고 묻는다.
  • 이 때, 원래 선택했던 번호를 바꾸는 것이 유리할까?
  • 단, 진행자는 자동차와 염소가 어떤 문에 있는지 알고 있기 때문에, 진행자가 자동차가 있는 문을 여는 일은 절대 발생하지 않는다.

사건을 정의하자.

C1 : 차가 1번 문 뒤에 있다.

C2 : 차가 2번 문 뒤에 있다.

C3 : 차가 3번 문 뒤에 있다.


X1 : 참가자가 1번 문을 선택

X2 : 참가자가 2번 문을 선택

X3 : 참가자가 3번 문을 선택


H1 : 진행자가 1번 문을 열어 염소를 보여 준다.

H2 : 진행자가 2번 문을 열어 염소를 보여 준다.

H3 : 진행자가 3번 문을 열어 염소를 보여 준다.


진행자가가 자동차가 있는 문을 알고 있어서 자동차가 있는 문을 여는 일은 절대 발생하지 않는다.

H와 C는 독립!!

Bayes' Rule을 적용하도록 문제를 다시 정의하자

  • 참가자가 1번 문을 선택했을 때, 진행자는 3번 문을 열어 문 뒤에 염소를 보여 주면서 1번 대신 2번을 선택하겠냐고 묻는다.
  • 이 때, 원래 선택했던 번호를 바꾸는 것이 유리할까?

    X1, H3 사건이 발생했을 때, C!, C2, C3의 확률은 어떻게 변하는가?

$$ P(C_1 \;|\; X_1,\;H_3) = ? \\ P(C_2 \;|\; X_1,\;H_3) = ? \\ P(C_3 \;|\; X_1,\;H_3) = ? \\ $$

Prior

아무런 사건이 일어나지 않았을 때의 확률 $$ P(C_1) \;=\; P(C_2) \;=\; P(C_3) \;=\; \frac{1}{3} $$

Posterior

사건 발생후 변경된 확률값 $$ P(C_3\;|\; H_3,\; X_1) = 0 $$

자동차가 있는 곳을 진행자는 열지 않으므로, 아래의 여사건도 추가적으로 만족하게 된다.

$$ P(C_1\;|\; H_3,\; X_1) = 1 - P(C_2\;|\; H_3,\; X1) $$$$ P(C_2\;|\; H_3,\; X_1) → \text{이 값만 계산하면 된다.} $$
$$ \begin{eqnarray} P(C_2\;|\; H_3,\; X_1) &=& \dfrac{P(H_3\;|\;C_2,\;X_1)\cdot P(C_2\;|\;X_1)}{P(H_3\;|\; X_1)} \\ &=& \dfrac{P(H_3\;|\;C_2,\;X_1)\cdot P(C_2\;|\;X_1)}{P(H_3\;|\;C_1,\;X_1)\cdot P(C_1\;|\;X_1)\;+\;P(H_3\;|\;C_2,\;X_1)\cdot P(C_2\;|\;X_1)\;+\;P(H_3\;|\;C_3,\;X_1)\cdot P(C_3\;|\;X_1)} \\ \end{eqnarray} \\ $$

진행자와 관련된 확률값

참가자가 1번을 열고, 자동차가 1번에 있을 때, 사회자가 3번을 열 확률 $$ P(H_3\;|\;C_1,\;X_1) = \frac{1}{2} $$

참가자가 1번을 열고, 자동차가 2번에 있을 때, 사회자가 3번을 열 확률 $$ P(H_3\;|\;C_2,\;X_1) = 1 $$

참가자가 1번을 열고, 자동차가 3번에 있을 때, 사회자가 3번을 열 확률 $$ P(H_3\;|\;C_3,\;X_1) = 0 $$

참가자와 관련된 확률(Prior) → 아래와 같이 동일한 값을 갖는다.

참가자가 1번을 열었을 때, 1번에 자동차가 있을 확률 $$ P(C_1\;|\;X_1) = \frac{1}{3} $$

참가자가 1번을 열었을 때, 2번에 자동차가 있을 확률 $$ P(C_2\;|\;X_1) = \frac{1}{3} $$

참가자가 1번을 열었을 때, 3번에 자동차가 있을 확률 $$ P(C_3\;|\;X_1) = \frac{1}{3} $$

앞의 식에 확률값을 넣어서 계산하면 다음과 같다. $$ \begin{eqnarray} P(C_2\;|\; H_3,\; X_1) &=& \dfrac{P(H_3\;|\;C_2,\;X_1)\cdot P(C_2\;|\;X_1)}{P(H_3\;|\; X_1)} \\ &=& \dfrac{P(H_3\;|\;C_2,\;X_1)\cdot P(C_2\;|\;X_1)}{P(H_3\;|\;C_1,\;X_1)\cdot P(C_1\;|\;X_1)\;+\;P(H_3\;|\;C_2,\;X_1)\cdot P(C_2\;|\;X_1)\;+\;P(H_3\;|\;C_3,\;X_1)\cdot P(C_3\;|\;X_1)} \\ &=& \dfrac{P(H_3\;|\;C_2,\;X_1)}{P(H_3\;|\;C_1,\;X_1)\;+\;P(H_3\;|\;C_2,\;X_1)\;+\;P(H_3\;|\;C_3,\;X_1)} \\ &=& \dfrac{1}{\frac{1}{2}\;+\;1\;+\;0} \\ &=& \dfrac{2}{3} \end{eqnarray} \\ $$


베이즈 정리와 데이터 분석

베이즈 정리는 Generative Model(생성 모형)의 기본 원리

Classification에서 가장 많이 사용

각 target class(Y)에서 발생하는 feature(X)의 확률 $$P(X\;|\;Y) \text{를 안다.}$$

각 target class(Y)에서 어떤 feature(X) 값이 가장 많이 발생하는지를 안다.

feature(X) 값을 알면 반대로 어떤 target class(Y)에서 발생했는지 추측할 수 있다 $$P(Y\;|\;X)$$


Red Box vs Blue Box

붉은 상자에는 사과가 10개 오렌지가 2개가 있다.

푸른 상자에는 사과가 1개 오렌지가 20개가 있다.

어떤 상자인지 모르고 과일을 하나 꺼냈더니 오렌지였다.

$$X : \;\; \text{어떤 과일?}$$

어떤 상자에서 과일을 꺼냈는가? 당연히 푸른 상자일 것이다. $$Y : \;\; \text{무슨 상자?}$$

이 추측의 신뢰도는? $$P(Y\;|\;X) = ?$$

$$P(Y = B \;|\; X = O)$$
$$ \begin{eqnarray} P(Y = Blue \;|\; X = O) &=& \dfrac{P(X = O\;|\;Y = Blue)\cdot P(Y = Blue)}{P(X = O)} \\ &=& \dfrac{P(X = O\;|\;Y = Blue)\cdot P(Y = Blue)}{P(X = O\;|\;Y = Blue)\cdot P(Y = Blue) + P(X = O\;|\;Y = Red)\cdot P(Y = Red)} \\ &=& \dfrac{\frac{20}{21} \cdot \frac{1}{2}}{\frac{20}{21}\cdot\frac{1}{2} + \frac{2}{12}\cdot\frac{1}{2}} \\ &=& \dfrac{\frac{20}{21}}{\frac{1}{6} + \frac{20}{21}} \\ &=& 0.85 \end{eqnarray} $$


Related Posts