수식이 깨질 경우 새로고침을 눌러주세요.

가설과 검정 ①¶

검정(Test)과 모수 추정(Parameter Estimation)¶

데이터 분석의 기본 전제¶

우리가 갖고 있는 데이터는 표본(Sample)이다.

이 표본은 어떤 확률 분포를 따르는 확률 변수(Random Variable)에서 추출되었다.

이 확률 변수가 따르는 확률 분포를 알아내는 일이 데이터 분석의 핵심 과제이다.

확률 변수를 알아내려면?¶

다음 두 가지를 알아내야 한다.

분포 모형(Distribution Model)

모수(Parametet)

이러한 것을 알아내는 행위를 검정(Test) 또는 모수 추정(Parameter Estimation) 이라고 한다.

모수 추정(Parameter Estimation)은 간단히 추정(Estimation)이라고 하기도 한다.

분포 검정(Distribution Test)¶

확률 변수의 분포에 대한 가설(hypothesis)이 맞는지 틀리는지를 확인하는 확률 변수의 분포 검정(distribution test)

Ex) 정규성 검정(normality test)

'분석을 하기 위한 데이터가 가우시안 정규 분포로부터 생성된 것인가?'라는 의문에서 시작

이 질문은 확률 변수의 분포가 정규 분포(Normal Distribution)이라는 것을 가설로 놓고 있다.

위 가설을 검정하는 것을 정규성 검정이라고 한다.

데이터 분석에서 가장 많이 사용되는 검정 중 하나이다.

모수 검정(Parameter Test)¶

확률 변수의 분포가 어떤 모형을 따르는지는 이미 정해져 있는 상태(알고 있는 상태).

확률 밀도 함수(pdf)의 계수(coefficient) 즉, 모수(parameter)가 특정한 값을 갖는지 확인.

모수가 특정한 값을 갖는다면 기준이 되는 값(보편적으로 정해져 있는 값)과 비교하여 큰 지 작은 지를 확인한다.

$$ \text{ex)}\;분석하려는\; 데이터가\; 가우시안\; 정규분포를\; 따른다고\; 하자.\; \mu와\; \sigma^2이\; 특정한\; 값을\; 가지고\; 있는가?\; 예를\; 들면\; \mu = 0 \;인가? $$

모수 추정(Parameter Estimation) 또는 추정(Estimation)¶

모수가 실제로 어떤 값을 가질 확률이 가장 높은지를 찾아내는 과정

Estimation 방법에는 여러 가지가 있다.

MSE(Maximum Squred Error), MLE(Maximum Likelihood Estimation) 등
이 방법들은 가장 확률이 높은 숫자 하나를 결정하는 방법

Bayesian Estimation(베이지안 추정법)
가능한 모든 값에 대해 이 값들이 진짜 모수가 될 확률을 모두 계산하여 분포로 표시하는 방법

$$ ex) 정규\; 분포의\; 모수\;\; \mu가\; 0이\; 아니라면\; 구체적으로\;\; 어떤 \;값을\;\; 가질\; 것인가? $$

검정과 추정의 정리¶

우리가 갖고 있는 데이터는 확률 변수에서 추출한 표본이라고 가정한다.

어떤 확률 변수인지 알아내기 위해서 Test와 Estimation이 필요하다.

확률 변수가 어떤 분포를 따르는지 분포를 찾는 것이 가장 먼저 해야할 일이다. → 분포 검정

분포 검정을 통해서 확률 변수의 분포를 알게되면, 그 분포의 모수를 찾아서 데이터와 분포를 최적화(fit)해야 한다. → 모수 검정, 모수 추정

검정과 유의 확률¶

다음 두 문제를 봐보자.¶

문제 1

어떤 동전을 15번 던졌더니 12번이 앞면이 나왔다. 이 동전은 휘어지지 않은 공정한 동전(fair coin, 앞 뒤 확률이 각 각 0.5)인가?
sol)
1. 동전을 던졌을 때 앞 면 : 확률 변수
2. 이 확률 변수는 베르누이 분포를 따른다.
3. fair coin → 베르누이 확률 분포의 모수(theta) = 0.5인지 검정
4. theta = 0.5일 때, 15번 동전을 던졌을 때 앞면이 12번 나올 확률 값을 계산할 수 있다.
5. 이렇게 구한 확률의 값이 판단자가 정한 특정한 기준(유의확률)에 미치지 못한다면 이러한 주장이 틀렸다고 생각할 수 밖에 없다.
6. 반대로 값이 기준(유의확률)보다 높다면 그 주장이 틀렸다고 판단할 증거가 부족한 것이다.

문제 2
어떤 트레이더의 일주일 수익률은 다음과 같다.
- -2.5%, -5%, 4.3%, -3.7% -5.6%
- 이 트레이더는 돈을 벌어다 줄 사람인가, 아니면 돈을 잃을 사람인가?
sol)
1. 트레이더의 수익률 : 확률 변수
2. 이 확률 변수는 정규 분포를 따른다고 가정
3. 트레이더가 장기적으로 돈을 벌어다 줄 것이라고 주장 → '정규분포의 평균(모수)이 0보다 크거나 같다'를 검정
4. 정규 분포에서 해당 데이터가 나올 확률을 계산할 수 있다.
5. 이렇게 구한 확률의 값이 판단자가 정한 특정한 기준(유의수준)에 미치지 못한다면 이러한 주장이 틀렸다고 생각할 수 밖에 없다.
6. 반대로 값이 기준(유의수준)보다 높다면 그 주장이 틀렸다고 판단할 증거가 부족한 것이다.

가설(hypothesis)¶

위의 예처럼 확률 분포에 대한 어떠한 주장을 가설이라고 하며 H로 주로 표기한다. $$ H $$

이 가설을 증명하는 행위를 통계적 가설 검정(Statistical Hypothesis Testing) 줄여서 검정(testing)이라고 한다.

특히 확률 분포의 모수(Parameter)가 특정한 값을 가진다는 주장을 모수 검정(Parameter Testing)이라고 한다.

가장 일반적으로 사용되는 가설은 '모수의 값이 0' 이라는 가설이다.

$$ H: \theta = 0 $$

이 가설은 회귀 분석(Regression)에서 흔하게 사용되는데 회귀 계수의 값이 0이면 종속 변수(target)가 해당 독립 변수(feature)의 영향을 받지 않는다는 의미

귀무 가설¶

$$ 귀무 \;가설 \;\;(H_0) $$

검정을 하기 위해서는 기각 혹은 채택하고자 하는 가설을 만들어야 한다.

이러한 가설을 귀무 가설(Null Hypothesis)이라고 한다. $$ H_0\;로\;\; 표기한다. $$

일반적으로 검정에서 그냥 가설이라고 하면 귀무가설을 가리킨다.

귀무 가설(H_0) : True → 귀무 가설(H_0) 채택(accept)

귀무 가설(H_0) : False → 귀무 가설(H_0) 기각(reject)

대립 가설¶

$$ 대립\;가설 \;\; H_1 $$

귀무 가설이 기각되면 채택할 수도 있는 가설을 대립 가설(Alternative Hypothesis)이라고 한다.

$$ H_1로 \;\;표기한다. $$

$$ 예를 \;들어 \;\;\; H_0: \theta = 0 \;\; 일 때$$

다음 가설들은 이 귀무 가설에 대한 대립 가설이 될 수 있다. $$ H_1: \theta \neq 0 \\ \\ 이러한\;\; 형태는\;\; 양측\; 검정(two-tailed\; testing)을\; 한다.$$

$$ H_1: \theta > 0 $$$$ H_1: \theta < 0 $$

위 두 대립 가설의 경우는 단측 검정(one-tailed testing)을 한다.