Python 데이터분석 기초 28 - 점추정(point estimation), 구간추정(interval estimation), 귀무가설과 대립가설, 1종오류, p-value 개념
추정은 크게 점추정과 구간추정으로 나눌 수 있다. 표본의 통계량을 가지고 모집단의 모수를 추리하는 것을 추정이라고 했다.
점추정(point estimation)
예를 들어 한국 성인 남자의 평균 키(모집단)를 파악하기 위해, 성인 남자 1000명을 표본으로 뽑아 키를 조사하였더니, 평균이 172.34cm가 나왔다고 할 때, 172.34cm처럼 하나의 수치, 즉 하나의 점으로 값을 표현하는 것이 점추정(point estimation)이다.
그런데 1000명을 대상으로 나온 수치가 172.34cm(통계량)라고는 하지만, 정말로 한국 성인 남자의 평균 키(모수)가 172.34cm일까? 아쉽지만 그 럴 확률은 거의 없다. 값을 신뢰하기에 표본의 수가 너무 적을 뿐 더러, 표본에는 항상 오차가 동반된다. 거기에 소수점 단위를 더욱 세분화하 면, 점추정치 172.34cm가 모수와 같을 확률은 거의 제로에 가깝다. 이렇게 점추정치는 그 특성상 값을 신뢰하기가 어렵다.
구간추정(interval estimation)
구간추정(interval estimation) 점추정치의 한계를 극복하기 위해 점추정치를 기준으로 일정구간을 설정하는 방법이 있다. 점추정치가 172.34cm가 라면, 이를 기준으로 ±5를 해서 일정구간(167.34cm~177.34cm)을 만든다. 그러면 이 구간 안에 모수가 포함될 확률은 자연스럽게 높아진다. 이렇게 추정치의 신뢰도를 높이기 위해 점추정치를 중심으로 일정 구간을 만드는 것이 구간추정(interval estimation)이다. 그런데 구간추정이라고 100% 신뢰할 수 있는 것은 아니다. 경우에 따라서는 구간추정치 안에 모수가 포함되지 않을 가능성도 항상 존재한다. 그리고 구간추정은 점추정에 비해 신뢰도가 높다고 할 수 있지만, 점추정이 전혀 필요 없는 것은 아니다. 왜냐하면 점추정을 기준으로 구간추정을 하기 때문이다
귀무가설과 대립가설 설정하는 방법
귀무가설과 대립가설 설정하는 방법 가설검정 절차 중 가장 먼저 하는 것이 귀무가설과 대립가설 설정으로, 두 개의 가설은 정반대로 설정되어야 한다. 왜냐하면 가설검정은 귀무가설과 대립가설 중 어느 것이 더 타당한지를 판단하고, 하나의 가설을 양자택일하는 것인데, 하나를 선택하기 위해서는 두 개의 가설이 중복됨이 없이 정반대여야 가능하다. 그래서 정반대로 설정한다.
연습)
새우깡 과자를 생산하는 기계1과 기계2가 있다. 기계1에서 생산한 제품의 분산이 큰 것으로 알려져 있다. 과연 그런 지 검정하려고 하는데, 여기에 적당한 귀무가설과 대립가설을 설정하라
= 기계1에서 생산한 제품의 분산이 크다가 귀무가설이고, 아니다가 대립가설이다.
1종오류
귀무가설이 맞았는데(5프로) 틀렸다고 잘못 판정하는 경우를 알파 오류, 1종 오류라고도 부른다.
p-value
데이터의 신뢰성을 판단할 때도 p-value를 사용하지만 귀무가설 채택, 기각 할때도 p-value를 사용한다.(0.05(5%) 기준)