새소식

데이터분석준전문가(ADsP)/3과목

[정형데이터마이닝] 앙상블 분석

  • -

목차

    1) 여러개의 분류 모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법 
    2) 적절한 표본추출법으로 데이터에서 여러 개의 훈련용 데이터를 집합을 만들어 각 데이터 집합에 하나의 분류기를 만들어 결합하는 방법 
    3) 약하게 학습 된 여러 모델들을 결합하여 사용 (약하다는 것은 데이터셋이 있었을때 여러개로 나누어서 사용하기 때문에 데이터의 양이 적다)
    4) 성능을 분산시키기 때문에 과적합(overfitting)감소효과가 있음

    앙상블 모형(Ensemble) 의 종류 

    보팅(Voting) - 서로 다른 여러개 알고리즘 분류기 사용 
    - 각 모델의 결과를 취합하여 많은 결과 또는 높은 확률로 나올 거을 최종 결과로 채택하는 것 

    Hard voting

    각 모델의 예측 결과 중 많은 것을 선택 
    1예측 3표, 2예측 1표 일 경우 -> 1예측 선택 

    Soft voting
    각 모델의 클래스 확률을 구하고 평균 높은 확률을 선택 
    1 예측 : (0.9 +0.8+0.3+0.4) /4 = 0.6 => 1예측 선택 
    2예측 : (0.1 + 0.2 + 0.7+0.6) / 4 = 0.4
    배깅(Bagging,Bootstrap aggregating) - 서로 다른 훈련 데이터 샘플로 훈련, 서로 같은 알고리즘 분류기 결합
    - 원 데이터에서 중복을 허용하는 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대해 분류기(classifiers)를 생성하는 기법 
    - 여러 모델이 병렬로 학습(Parellel), 그 결과를 집계하는 방식 
    - 같은 데이터가 여러 번 추출될 수도 있고, 어떤 데이터는 추출되지 않을 수 있음
    - 대표적 알고리즘: MetaCost Altorithm
    부스팅 (Boosting) - 여러 모델이 순차적으로 학습
    - 이전 모델의 결과에 따라 다음 모델 표본 추출에서 분류가 잘못된 데이터에 가중치(weight)를 부여하여 표본을 추출함
    - 맞추기 어려운 문제를 맞추는데 초점이 맞춰져 있고, 이상치(Outlier)에 약함
    - 대표적 알고리즘: AdaBoost, Gradient Boost,(XGBoost, Light GMB: Leat-wise-node방법을 사용하는 알고리즘)등
    랜덤 포레스트(Random forest) - 배깅(bagging)에 랜덤 과정을 추가한 방법 
    - 노드 내 데이터를 자식 노드로 나누는 기준을 정할 때  모든 예측변수에서 최적의 분할을 선택하는대신, 설명변수의 일부분만을 고려함으로 성능을 높이는 방법 사용  
    - 여러 개 의사결정 나무를 사용해, 하나의 나무를 사용할 때보다 과적합 문제를 피할 수 있음 

     


    예상 문제 

     

    01 다음 중 앙상블 모형이 아닌것은? 1번

    1.시그모이드 

    2.배깅

    3.랜덤포레스트

    4.부스팅

     

     

    02 다음 중 앙상블의 특징을 가장 적절하지 않은 것은?  4번

    1. 앙상블 학습은 하나의 모델만을 학습시켜 사용하지 않고 여러 모델을 학습시켜 결합하는 방식으로 문제를 처리한다. 

    2. 약하게 학습 된 여러 모델들을 결합하여 사용하는 것을 앙상블 학습이라 할 수 있다. 

    3. 성능을 분산시키기 때문에 과적합(overfitting) 감소 효과가 있다.

    4. 상호 연관성이 높을수록 정확도는 향상이 된다.  

    상호 연관성이 높으면 분류하기가 쉽지 않음(정확도가 감소됨)

     

     

    03 보험사에서 해지할 예상 고객을 예측시 사용할 수 있는 적절한 기법은? 1번

    1.랜덤 포레스트      2.주성분분석        3. 군집분석             4.연관분석 

     

    랜덤 포레스트 : 앙상블 모델 중 배깅 방식의 하나로 여러 개의 분류기(의사 결정 트리)를 사용하여 보다 정확한 분류 결과를 낼 수 있는 기법 
    주성분 분석: 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로 선형결합해 변수를 축약하는 기법 

    군집 분석: 레코드 자체가 가진 다른 레코드와의 유사성에 의해 그룹화 하는 기법

    연관 분석 : 같이 팔리는 물건 같이 아이템의 연관성을 파악하는 분석

     

     

    04 다음 앙상블 모형 중 매번 분할을 수행할 때마다 설명 변수의 일부분만을 고려함으로 성능을 높이는 방법을 무엇이라 하는가? 3번 

    1. 배깅     

    2. 부스팅     

    3. 랜덤포레스트     

    4. 의사결정나무

    랜덤포레스트

    - 배깅(bagging)에 랜덤 과정을 추가하는 방법 
    - 매번 분할을 수행할 때마다 설명변수의 일부분만을 고려함으로 성능을 높이는 방법 

     

     

    05 재표본 과정에서 각 자료에 동일한 확률을 부여하지 않고, 분류가 잘못된 데이터에 더 가중을 주어 표본을 추출하는 분석 기법은? 

    부스팅 (boosting)

    재표본 과정에서 각 자료에 동일한 확률을 부여하지 않고, 분류가 잘못된 데이터에 더 가중을 주어 표본을 추출하는 분석 기법 

     

     

    06 원 데이터로부터 집합 크기가 같은 표본의 중복을 허용하고, 복원추출하여 각 표본에 대해 분류기(classifiers)를 생성하는 기법은? 1번

    1. 배깅

    2. 부스팅

    3. 랜덤포레스트

    4. 퍼셉트론

    배깅(Bagging)
    Bootsrap Aggregating의 줄임말 bootstrap aggregating집계

    원 데이터에서 중복을 허용하는 크기가 같은 표본을 여러 번 단순 임의 복원 

    추출하여 각 표본에 대해 분류기(Classifiers)를 생성하는 기법 

    07 부스팅 알고리즘 중  Leaf-wise-node 방법을 사용하는 알고리즘을 무엇이라 하는가? 4번 

    1. AdaBoost

    2. GBM

    3.Xgboost

    4. Light GBM

     

     

     

    반응형
    Contents

    포스팅 주소를 복사했습니다

    이 글이 도움이 되었다면 공감 부탁드립니다.