새소식

데이터분석준전문가(ADsP)/3과목

[통계분석] 통계분석의 이해

  • -

 

목차

    1. 통계 

     

    * 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현이다. 

    * 조사 또는 실험을 통해 데이터를 확보, 조사 대상에 따라 총조사와 표본조사로 구분한다. 

     

    2. 통계자료의 획득 방법 

    2-1.총 조사 / 전수조사 (census)

    대상 집단 모두를 조사하는데 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용되지 않는다.(ex. 인구주택 총 조사)

    2-2.표본조사 

    대부분의 설문조사가 표본조사로 진행되며 모집단에서 샘플을 추출하여 진행하는 조사이다. 

    모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야 한다.

     

    모집단(population) 조사하고자 하는 대상 집단 전체 
    원소(element) 모집단을 구성하는 개체 
    표본(sample) 조사하기 위해 추출한 모집단의 일부 원소 
    모수(parameter) 표본 관측에 의해 구하고자 하는 모집단에 대한 정보 

    모집단의 성질과 완벽하게 동일한 표본집단을 찾는다는 건 수학적으로 불가능에 가깝기 때문에 아무리 잘 된 연구라도 통계량과 모수 사이에는 차이가 존재할 수밖에 없는데, 이를 가리켜서 표본 오차(sampling error)라고도 한다

     

    2-3. 표본추출방법

    표본조사의 중요한 점은 모집단을 대표할 수 있는 표본 추출이므로 표분 추출 방법에 따라 분석결과의 해석은 큰 차이가 발생한다. 

    1)단순랜덤 추출법(simple random sampling)

    각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법으로 각 샘플은 선택될 확률이 동일하다. (비복원, 복원추출)

     

     

    2)계통추출법 (systemetic sampling) * 시험에 출제.. 

    단순랜덤추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개식(K=N/n)n개의 구간으로 나누고 첫 구간(1, 2....K)에서 하나의 임의로 선택한 후에 K개씩 띄어서 n개의 표본을 선택한다.  즉, 임의 위치에서 매 K번째 항목을 추출하는 방법이다.

     

     

    3)집락추출법(cluster random sampling) 

    군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후, 모든 자료를 활용하거나 샘플링하는 방법이다. (지역표본추출 , 다단계표본추출)

     

     

    4) 층화추출법(stratified random sampling)

    이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법으로, 유사한 원소끼리 몇 개의 층(stratum)으로 나누어 각 층에서 랜덤 추출하는 방법이다.

    - 비례층화추출법:각각의 층을 일정한 비율을 유지하면서 추출

    - 불비례층화추출법: 층 별로 상이한 가중치를 두는것 

     

     

    2-4.측정(measurement)*** 중요 

    표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는것이다. 

    측정방법

    명목척도 측정 대상이 어느 집단에 속하는지 분류할 때 사용(성별, 출생지 등)  질적척도 
    (범주형자료,숫자들의 크기 차이가 계산되지 않는 척도)
    순서척도 측정 대상의 서열관계를 관측하는 척도(만족도, 선호도, 학년, 신용등급)
    구간척도(등간척도) 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간격이 의미가 있는 자료(온도, 지수) 양적척도
    (수치형자료, 숫자들의 크기 차이를 계산할 수 있는 척도)
    비율척도 간격(차이)에 대한 비율이 의미를 가지를 자료, 절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가치는 척도(무게, 나이, 시간, 거리 )

    - 서열척도는 명목척도와 달리 매겨진 숫자의 크기를 의미있게 활용할 수 있다. (예: 1등이 2등보다는 성적이 높다.)

    - 구간척도는 절대적 크기는 측정할 수 없기 때문에 사칙연산 중 더하기와 빼기는 가능하지만 비율처럼 곱하거나 나누는 것은 불가능하다. 

     

     

     

     

     

    3. 통계분석

    3-1.정의

    특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정이다.

     

    3-2.기술통계(descriptive statistic)

    - 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제하여 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론이다.

    - sample에 대한 특성이 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것을 의미한다.

     

    3-3.통계적 추론(추측통계, inference statistics)

    수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정을 하는 것으로 Sample을 통해 모집단을 추정하는 것을 의미한다.

    모수추정 표본집단으로부터 모집단의 특성인 모수(평균, 분산 등)를 분석하여 모집단을 추론한다.
    가설검정 대상집단에 대해 특정한 가설을 설정한 후에 그 가설이 옳은지 그른지에 대한 채택여부를 결정하는 방법론이다. 
    예측 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 활용한다. (예 회귀분석, 시계열분석)

     

     

    함수&정의역(domain)& 치역(range)&공역

    • 함수는 집합 X의 원소들이 집합 Y의 원소들에 하나씩 대응하는것을 말한다.
    • 정의역: 집합 Y로 대응하는 집합 X의 원소들
    • 치역: 집합 X가 집합Y에서 대응하고 있는 원소들을 치역이라고 한다.
    • 공역의 부분집합이지만 치역과 공역이 같을 필요는 없다. (아래 그림에서 화살표를 맞고있는 원소들이다.)
    • 공역: 집합 Y에서 대응되는 모든 집합

    집합 X가 집합Y로 대응한다. 원소들을 하나에 대응한다

    4. 확률 및 확률분포

    4-1. 확률(Probability)

    표본공간(sample space)에 부분집합인 각 사상에 대해 실수값을 가지는 함수의 확률값이 0과 1사이에 있고 전체 확률의 합이 1인 것을 의미한다. 위의 용어집에서도 나와있듯이 사건(event,E)은 표본공간의 부분집합이다.

    수학적 확률

    4-2. 확률변수(random variable)

    확률변수란 정의역이 표본공간, 공역이 실수 전체의 집합인 함수이다. 그러나 변수의 역할을 하므로 확률변수라고 한다. 확률변수는 정의역(domain)을 표본공간, 치역(range)이 실수값(0<y<1)인 함수이다.
    0이 아닌 확률을 갖는 실수값의 형태에 따라서 이산형 확률변수와 연속형 확률변수로 구분된다.

    [예시]
    동전 2개를 꺼낸다. 2개 동전을 한꺼번에 던졌다.
    앞면을 H 뒷면을 T라고 하면 표본공간 S는

    S={HH, HT, TH, TT} 라는 확률을 갖게 된다고 한다면,
    이산확률변수 X가 취할 수 있는 값은 0,1,2이고
    각 값을 취할 확률을 구하자면 
    앞면이 두개일 경우의 수는 사건 4개중의 한번 이므로 ¼,
    뒷면 / 앞면이 나올 경우의 수는 사건 4개중에 두번 이므로 ½
    뒷면이 두개 나올 경우는 수는 사건 4개중에 한번 이므로 ¼ 이 된다.


    확률변수X의 기대값

    기대값은 실험을 반복 실행 했을 때 평균적으로 기대할 수 있는 값이다. 확률변수 X의 기대값(expectation, expected value)로 구분된다.확률변수 X의 기대값은 다음과 같이 정의한다.

    E ( X ) = ∑𝑥ᵢ𝑓( 𝑥ᵢ) 이산형 변수
    E ( X ) = ∫𝑥𝑓(𝑥)𝑑𝑥 연속형 변수

    𝑥ᵢ : 확률변수
    E(X)는 기대 값
    𝑓(𝑥)는 확률질량함수(이산형 변수) 또는 확률밀도함수(연속형 변수)

    ∑시그마는 수학 기호에서 설명했듯이 모든 수열의 합이란 뜻.
    ∫인테그럴은 분산을 뜻함.

    𝑥는 연속 랜덤 변수 X의 값이다.

    통계 기호 모음집

    기대의 속성
    <선형성>
    a가 상수이고, X, Y가 랜덤 변수인 경우:
    E ( aX ) = aE ( X )
    E ( X + Y ) = E ( X ) + E ( Y )
    <일정성>
    c가 일정 할 때 :
    E ( c ) = c
    <생성물>
    X와 Y가 독립 확률 변수 인 경우

     

    덧셈정리(배반이 아닐때) 조건부 확률 P (A | B) = P (A∩B) / P (B)

    사건A와 B가 동시에 일어날 확률 P (A또는B)P (A∪B)= P (A)+P(B)-P(A∩B)
    덧셈정리(배반사건일 때) 사건A 또는 사건B 중 어느 한 쪽만 일어날 확률 P (A∪B) = P (A) + P (B)
    곱셈정리

    독립사건일 때 A와 B가 동시에 일어날 확률 P (A와B)는 P(A∩B)=P(A) X P(B)
    사건B가 주어졌을때 사건 A의 조건부 확률 P (A | B) = P (A)

     

    4-3 이산형 확률변수

    이산확률변수는 떨어져 있는 확률 변수라고 이해하면 된다.
    0이 아닌 확률값을 갖는 확률 변수를 셀 수 있는 정도의 값이면 이산확률변수라고 한다.

     

    s: sample space , x :변수, H:앞면 T:뒷면

    베르누이 확률분포(Bernoulli distribution)
    결과가 2개만 나오는 경우(예시: 동전 던지기, 시험의 합격/ 불합격 등 )

    𝞠(𝞦 = 𝑥 ) = 𝝦ˣ∙(1-p)¹⁻ˣ (x= 1or 0),
    E(x) = p, var(x) = p(1-p)


    이항분포(Binomial distribution)
    베르누이 시행을 n번 반복했을 때 K번 성공할 확률
    이게 무슨 소리야... 쉽게 설명하자면 사건이 일어남or사건이 일어나지 않음 두가지 확률
    성공할 확률이 P나 0이나 1에 가깝지 않고 n이 충분히 크면 이항분포는 정규분포에 가까워진다.
    성공할 확률 p가 1/2에 가까우면 종 모양이 된다.

    기하분포(Geometric distribution)
    성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률

    X ~ 기하학 ( p )


    다항분포(Multinomial distribution)
    이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
    2개 이상부터는 전부 다항이라고 부른다.

     

    포아송분포(Poisson distribution)
    시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포
    예시 | 책에 오타가 5page당 10개씩 나온다고 할 때, 한 페이지에 오타가 3개 나올 확률

    X ~ 푸 아송 (λ)

    λ(람다) = 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값.

    y= 사건이 일어난 수 

     

    4-4  연속형 확률변수

    가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수(확률밀도함수)
    연속확률분포의 확률 함수는 확률밀도함수라고 한다. 곡선에 가까울수록 계급구간의 개수가 촘촘하게 많아지기 때문에
    이산확률분포처럼 확률을 한개씩 나열하기 힘들다.

     

    계급의 크기를 아주 작게 만들어 히스토그램과 분포다각형을 그리게 되면 분포다각형이 점점 촘촘해지면서 곡선형태가 된다


    균일분포(일양분포, Uniform distribution)
    모든 확률변수X가 균일한 확률을 가지는 확률분포 (다트의 확률분포)

    정규분포(Normal distribution)
    평균이 μ이고, 표준편차가 인 x의 확률밀도함수
    표준편차가 클 경우 퍼져보이는 그래프가 나타난다.

    X ~ LN (μ, σ ² )


    지수분포 (Exponential distribution)
    어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포이다.

    t-분포 (t-distribution) 
    표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따른다. 그래프 형대가 종모양이다. 
    표본의 크기가 적을때는 표준 정규분포를 위에서 눌러 높은 것과 같은 형태를 보이지만 표본이 커져서 (30개 이상) 자유도가 증가하면 표준정규분포와 거의 같은 분포가 된다.
    데이터가 연속형일 경우 활용한다.
    두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용된다.

    χ²-분포(chi-square distribution) or 카이제곱분포
    평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포이다. 
    두 집단 간의 동질성 검정에 활용된다.(범주형 자료에 대해 얻어진 관측값과 기대값의 차이는 보는 적합성 검정에 활용함)

    χ² ( k )
    f ( x ) = x k / 2-1 e - x / 2 / (2 k / 2 Γ ( k / 2))


    F-분포 (F-distribution)
    두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포이다. 확률변수는 항상 양의 값만을 갖고 χ2분포와 달리 자유도를 2개 가지고 있으며 자유도가 커질수록 정규분포에 가까워진다.

     

     

     

     

    5. 추정과 가설검정

    5-1 추정의 개요

    1) 확률표본(random sample)
    확률분포는 분포를 결정하는 평균, 분산 등의 모수(parameter)를 가지고 있다.
    특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것이다.
    각 관찰값들은 서로 독립적이며 동일한 분포를 갖는다.

    2) 추정
    표본으로부터 미지의 모수를 추측하는 것이다.
    추정은 점추정(point estimation)과 구간추정(interval estimation)으로 구분된다.

    3) 점추정(point estimation)
    모수가 특정한 값일 것'이라고 추정하는 것이다.
    표본의 평균, 중위수, 최빈값 등을 사용한다.

    점추정량의 조건, 표본평균, 분산
    불편성(unbaisedness): 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 편의(차이)가 없다.
    효율성(efficiency) :추정량의 분산이 작을수록 좋다.
    일치성(consistency): 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다.
    충족성(sufficient): 추정량은 모수에 대하여 모든 정보를 제공한다.
    표본평균(Sample mean): 모집단의 평균(모평균)을 추정하기 위한 추정량, 확률표본의 평균값
    표본분산(Sample variance): 모집단의 분산(모분산)을 추정하기 위한 추정량

     

    [중요] 가설검정

    데이터분석준전문가 시험에서는 R프로그램을 해석하는 식으로 문제가 나오기 때문에 자세한 계산 방법 보다는 R프로그램으로 검정하고 그 검정 결과가 다 영어이다 보니 코드를 어떻게 해석해야 할지 알고 있으면 됩니다. 이론과 정의에 대해서 파악해 둡니다.

    정의
    모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법이다.
    표본 관찰 또는 실험을 통해 귀무가설 대립가설 중에서 하나를 선택하는 과정이다.
    귀무가설이 옮다는 전제하에 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택여부를 결정한다.
    귀무가설(null hypothesis, H0)
    비교하는 값과 차이가 없다. 동일하다를 기본개념으로 하는 가설

    대립가설 (alternative hypothesis,H1)
    뚜렷한 증거가 있을 때 주장하는 가설

    검정통계량 (test statistic)
    관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준

    유의수준(significance level,a알파)
    귀무가설을 기각하게 되는 확률의 크기로 '귀무가설이 옳은데도 이를 기각하는 확률의 크기'이고 이 유의수준을 기준으로 가설이 유의수준에 들어가는지 신뢰구간의 들어가는지를 판별할 수 있게 된다.

    기각역(critical region,C)
    귀무가설이 옳다는 전제하에서 구한 검정통계량의 분포에서 확률이 유의수준이 a인 부분(반대는 채택역(acceptance region))

    이렇게 한쪽에만 유의구간이 있는것을 한쪽검정이라고 한다.&amp;amp;amp;amp;amp;nbsp;

    1종오류와 2종오류
    a: H0 귀무가설이 옳은데도 대립가설을 선택해버렸다면? 1종오류
    B: 2종 오류는 H0 귀무가설이 거짓인데도 귀무가설을 채택해 버린것이다.
    두 가지 오류를 보면 알 수 있듯이 귀무가설vs대립가설 서로 상충된다.


    5-2 유의구간(probability value, P-value,p값)

    유의확률 =p값이고=기각역
    통계를 공부하지 않은 사람에게는 책 내용이 너무 불친절 해서 추가로 공부했던 부분 
    유의구간을 작게 설정하면 신뢰구간의 범위는 커지게 된다.
    유의구간을 5%로 놓고 신뢰구간을 95% 확률로 두거나
    혹은 유의구간은 1%로 작게 잡고 신뢰구간을 99% 범위에 잡을 수도 있다.
    통계학에서 유의구간을 0.001, 0.005, 0.01 이렇게 확률을 세가지로 고정해 놓고 쓴다고 한다.

    R에서 p value 표기 

    R프로그램 t-test 에서는 p-value로 표기하며
    alternative hopothesis: true mean is not equal to 100
    95percent confidence interval:
    라는 식으로 신뢰구간을 얼만큼 잡았는지도 알려준다. 

     

    06 비모수 검정

    통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 구분한다.

     

    모수적 방법
    검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법이다.

    비모수적 방법
    자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 방법이다.
    관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 사용한다.
    관측된 자료의 수가 많지 않거나(30개 미만) 자료가 개체간의 서열관계를 나타내는 경우에 이용한다.

    모수적검정과 비모수적 검정의 차이점
    1) 가설의 검정
    모수적 검정
    가정된 분포의 모수에 대해 가설을 설정한다.
    비모수 검정
    가정된 분포가 없으므로 가설은 단지 분포의 형태가 동일하다 또는 분포의 형태가 동일하지 않다와 같이 분포의 형태에 대해서 설정한다.

    2) 검정 방법
    모수적 검정
    관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정을 실시한다.
    비모수 검정
    관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위(rank)나 두 관측값 차이의 부호 등을 이용해 검정한다.
    비모수 검정의 예
    부호검정(Sign test)

    윌콕슨의 순위합설정(rank sum test)

    윌콕슨의 부호순위합검정(Wilcoxon signed rank test)

    만-위트니의 U검정, 런검정(run test)

    스피어만의 순위상관계수

    반응형
    Contents

    포스팅 주소를 복사했습니다

    이 글이 도움이 되었다면 공감 부탁드립니다.