표본공간(sample space)에 부분집합인 각 사상에 대해 실수값을 가지는 함수의확률값이 0과 1사이에 있고전체 확률의 합이 1인 것을 의미한다. 위의 용어집에서도 나와있듯이 사건(event,E)은 표본공간의부분집합이다.
수학적 확률
4-2. 확률변수(random variable)
확률변수란 정의역이표본공간, 공역이 실수 전체의 집합인함수이다. 그러나변수의 역할을 하므로확률변수라고 한다. 확률변수는정의역(domain)을 표본공간,치역(range)이 실수값(0<y<1)인 함수이다. 0이 아닌 확률을 갖는 실수값의 형태에 따라서 이산형 확률변수와 연속형 확률변수로 구분된다.
[예시] 동전 2개를 꺼낸다. 2개 동전을 한꺼번에 던졌다. 앞면을 H 뒷면을 T라고 하면 표본공간 S는 S={HH, HT, TH, TT} 라는 확률을 갖게 된다고 한다면, 이산확률변수 X가 취할 수 있는 값은 0,1,2이고 각 값을 취할 확률을 구하자면 앞면이 두개일 경우의 수는 사건 4개중의 한번 이므로 ¼, 뒷면 / 앞면이 나올 경우의 수는 사건 4개중에 두번 이므로 ½ 뒷면이 두개 나올 경우는 수는 사건 4개중에 한번 이므로 ¼ 이 된다.
확률변수X의 기대값
기대값은 실험을 반복 실행 했을 때 평균적으로 기대할 수 있는 값이다. 확률변수 X의 기대값(expectation, expected value)로 구분된다.확률변수 X의 기대값은 다음과 같이 정의한다.
E(X)= ∑𝑥ᵢ𝑓( 𝑥ᵢ)이산형 변수 E(X)= ∫𝑥𝑓(𝑥)𝑑𝑥연속형 변수
𝑥ᵢ : 확률변수 E(X)는 기대 값 𝑓(𝑥)는 확률질량함수(이산형 변수) 또는 확률밀도함수(연속형 변수)
이항분포(Binomial distribution) 베르누이 시행을 n번 반복했을 때 K번 성공할 확률 이게 무슨 소리야... 쉽게 설명하자면 사건이 일어남or사건이 일어나지 않음 두가지 확률 성공할 확률이 P나 0이나 1에 가깝지 않고 n이 충분히 크면 이항분포는 정규분포에 가까워진다. 성공할 확률 p가 1/2에 가까우면 종 모양이 된다.
기하분포(Geometric distribution) 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
X ~ 기하학 ( p )
다항분포(Multinomial distribution) 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포 2개 이상부터는 전부 다항이라고 부른다.
포아송분포(Poisson distribution) 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포 예시 | 책에 오타가 5page당 10개씩 나온다고 할 때, 한 페이지에 오타가 3개 나올 확률
X ~ 푸 아송 (λ)
λ(람다) = 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값.
y= 사건이 일어난 수
4-4 연속형 확률변수
가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수(확률밀도함수) 연속확률분포의 확률 함수는 확률밀도함수라고 한다. 곡선에 가까울수록 계급구간의 개수가 촘촘하게 많아지기 때문에 이산확률분포처럼 확률을 한개씩 나열하기 힘들다.
계급의 크기를 아주 작게 만들어 히스토그램과 분포다각형을 그리게 되면 분포다각형이 점점 촘촘해지면서 곡선형태가 된다
균일분포(일양분포, Uniform distribution) 모든 확률변수X가 균일한 확률을 가지는 확률분포 (다트의 확률분포)
정규분포(Normal distribution) 평균이 μ이고, 표준편차가 인 x의 확률밀도함수 표준편차가 클 경우 퍼져보이는 그래프가 나타난다.
X ~ LN (μ, σ ² )
지수분포 (Exponential distribution) 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포이다.
t-분포 (t-distribution) 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따른다. 그래프 형대가 종모양이다. 표본의 크기가 적을때는 표준 정규분포를 위에서 눌러 높은 것과 같은 형태를 보이지만 표본이 커져서 (30개 이상) 자유도가 증가하면 표준정규분포와 거의 같은 분포가 된다. 데이터가 연속형일 경우 활용한다. 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용된다.
χ²-분포(chi-square distribution) or 카이제곱분포 모평균과 모분산이 알려지지 않은 모집단의모분산에 대한 가설 검정에 사용되는 분포이다. 두 집단 간의 동질성 검정에 활용된다.(범주형 자료에 대해 얻어진 관측값과 기대값의 차이는 보는 적합성 검정에 활용함)
χ² ( k ) f ( x ) = x k / 2-1 e - x / 2 / (2 k / 2 Γ ( k / 2))
F-분포 (F-distribution) 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포이다. 확률변수는 항상 양의 값만을 갖고χ2분포와 달리자유도를 2개가지고 있으며 자유도가 커질수록 정규분포에 가까워진다.
5. 추정과 가설검정
5-1 추정의 개요
1) 확률표본(random sample) ∙확률분포는 분포를 결정하는 평균, 분산 등의 모수(parameter)를 가지고 있다. ∙특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것이다. ∙각 관찰값들은 서로 독립적이며 동일한 분포를 갖는다.
2) 추정 ∙표본으로부터 미지의 모수를 추측하는 것이다. ∙추정은 점추정(point estimation)과 구간추정(interval estimation)으로 구분된다.
3) 점추정(point estimation) ∙모수가 특정한 값일 것'이라고 추정하는 것이다. ∙표본의 평균, 중위수, 최빈값 등을 사용한다.
점추정량의 조건, 표본평균, 분산 불편성(unbaisedness): 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 편의(차이)가 없다. 효율성(efficiency) :추정량의 분산이 작을수록 좋다. 일치성(consistency): 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다. 충족성(sufficient): 추정량은 모수에 대하여 모든 정보를 제공한다. 표본평균(Sample mean): 모집단의 평균(모평균)을 추정하기 위한 추정량, 확률표본의 평균값 표본분산(Sample variance): 모집단의 분산(모분산)을 추정하기 위한 추정량
[중요]가설검정
데이터분석준전문가 시험에서는 R프로그램을 해석하는 식으로 문제가 나오기 때문에 자세한 계산 방법 보다는 R프로그램으로 검정하고 그 검정 결과가 다 영어이다 보니 코드를 어떻게 해석해야 할지 알고 있으면 됩니다. 이론과 정의에 대해서 파악해 둡니다.
정의 ∙모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법이다. ∙표본 관찰 또는 실험을 통해귀무가설과대립가설중에서 하나를 선택하는 과정이다. ∙귀무가설이 옮다는 전제하에 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택여부를 결정한다. ∙귀무가설(null hypothesis, H0) 비교하는 값과 차이가 없다. 동일하다를 기본개념으로 하는 가설
∙대립가설 (alternative hypothesis,H1) 뚜렷한 증거가 있을 때 주장하는 가설
∙검정통계량 (test statistic) 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준
∙유의수준(significance level,a알파) 귀무가설을 기각하게 되는 확률의 크기로 '귀무가설이 옳은데도 이를 기각하는 확률의 크기'이고 이 유의수준을 기준으로 가설이 유의수준에 들어가는지 신뢰구간의 들어가는지를 판별할 수 있게 된다.
이렇게 한쪽에만 유의구간이 있는것을 한쪽검정이라고 한다.&amp;amp;amp;amp;nbsp;
1종오류와 2종오류 a: H0 귀무가설이 옳은데도 대립가설을 선택해버렸다면? 1종오류 B: 2종 오류는 H0 귀무가설이 거짓인데도 귀무가설을 채택해 버린것이다. 두 가지 오류를 보면 알 수 있듯이 귀무가설vs대립가설 서로 상충된다.
5-2 유의구간(probability value, P-value,p값)
유의확률 =p값이고=기각역 통계를 공부하지 않은 사람에게는 책 내용이 너무 불친절 해서 추가로 공부했던 부분 유의구간을 작게 설정하면 신뢰구간의 범위는 커지게 된다. 유의구간을 5%로 놓고 신뢰구간을 95% 확률로 두거나 혹은 유의구간은 1%로 작게 잡고 신뢰구간을 99% 범위에 잡을 수도 있다. 통계학에서 유의구간을0.001, 0.005, 0.01이렇게 확률을 세가지로 고정해 놓고 쓴다고 한다. R에서 p value 표기 R프로그램 t-test 에서는p-value로 표기하며 alternative hopothesis: true mean is not equal to 100 95percent confidence interval: 라는 식으로 신뢰구간을 얼만큼 잡았는지도 알려준다.
06 비모수 검정
통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 구분한다.
모수적 방법 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법이다.
비모수적 방법 ∙자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 방법이다. ∙관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 사용한다. ∙관측된 자료의 수가 많지 않거나(30개 미만) 자료가 개체간의 서열관계를 나타내는 경우에 이용한다.
모수적검정과 비모수적 검정의 차이점 1) 가설의 검정 ∙모수적 검정 가정된 분포의 모수에 대해 가설을 설정한다. ∙비모수 검정 가정된 분포가 없으므로 가설은 단지 분포의 형태가 동일하다 또는 분포의 형태가 동일하지 않다와 같이 분포의 형태에 대해서 설정한다.
2) 검정 방법 ∙모수적 검정 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정을 실시한다. ∙비모수 검정 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위(rank)나두 관측값 차이의 부호등을 이용해 검정한다. ∙비모수 검정의 예 부호검정(Sign test)