1) 여러개의 분류 모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법 2) 적절한 표본추출법으로 데이터에서 여러 개의 훈련용 데이터를 집합을 만들어 각 데이터 집합에 하나의 분류기를 만들어 결합하는 방법 3) 약하게 학습 된 여러 모델들을 결합하여 사용 (약하다는 것은 데이터셋이 있었을때 여러개로 나누어서 사용하기 때문에 데이터의 양이 적다) 4) 성능을 분산시키기 때문에 과적합(overfitting)감소효과가 있음
앙상블 모형(Ensemble) 의 종류
보팅(Voting)
- 서로 다른 여러개 알고리즘 분류기 사용 - 각 모델의 결과를 취합하여 많은 결과 또는 높은 확률로 나올 거을 최종 결과로 채택하는 것 Hard voting 각 모델의 예측 결과 중 많은 것을 선택 1예측 3표, 2예측 1표 일 경우 -> 1예측 선택
Soft voting 각 모델의 클래스 확률을 구하고 평균 높은 확률을 선택 1 예측 : (0.9 +0.8+0.3+0.4) /4 = 0.6 => 1예측 선택 2예측 : (0.1 + 0.2 + 0.7+0.6) / 4 = 0.4
배깅(Bagging,Bootstrap aggregating)
- 서로 다른 훈련 데이터 샘플로 훈련, 서로 같은 알고리즘 분류기 결합 - 원 데이터에서 중복을 허용하는 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대해 분류기(classifiers)를 생성하는 기법 - 여러 모델이 병렬로 학습(Parellel), 그 결과를 집계하는 방식 - 같은 데이터가 여러 번 추출될 수도 있고, 어떤 데이터는 추출되지 않을 수 있음 - 대표적 알고리즘: MetaCost Altorithm
부스팅 (Boosting)
- 여러 모델이 순차적으로 학습 - 이전 모델의 결과에 따라 다음 모델 표본 추출에서 분류가 잘못된 데이터에 가중치(weight)를 부여하여 표본을 추출함 - 맞추기 어려운 문제를 맞추는데 초점이 맞춰져 있고, 이상치(Outlier)에 약함 - 대표적 알고리즘: AdaBoost, Gradient Boost,(XGBoost, Light GMB: Leat-wise-node방법을 사용하는 알고리즘)등
랜덤 포레스트(Random forest)
- 배깅(bagging)에 랜덤 과정을 추가한 방법 - 노드 내 데이터를 자식 노드로 나누는 기준을 정할 때 모든 예측변수에서 최적의 분할을 선택하는대신, 설명변수의 일부분만을 고려함으로 성능을 높이는 방법 사용 - 여러 개 의사결정 나무를 사용해, 하나의 나무를 사용할 때보다 과적합 문제를 피할 수 있음
예상 문제
01 다음 중 앙상블 모형이 아닌것은? 1번
1.시그모이드
2.배깅
3.랜덤포레스트
4.부스팅
02 다음 중 앙상블의 특징을 가장 적절하지 않은 것은? 4번
1. 앙상블 학습은 하나의 모델만을 학습시켜 사용하지 않고 여러 모델을 학습시켜 결합하는 방식으로 문제를 처리한다.
2. 약하게 학습 된 여러 모델들을 결합하여 사용하는 것을 앙상블 학습이라 할 수 있다.
3. 성능을 분산시키기 때문에 과적합(overfitting) 감소 효과가 있다.
4. 상호 연관성이 높을수록 정확도는 향상이 된다.
상호 연관성이 높으면 분류하기가 쉽지 않음(정확도가 감소됨)
03 보험사에서 해지할 예상 고객을 예측시 사용할 수 있는 적절한 기법은? 1번
1.랜덤 포레스트 2.주성분분석 3. 군집분석 4.연관분석
랜덤 포레스트 : 앙상블 모델 중 배깅 방식의 하나로 여러 개의 분류기(의사 결정 트리)를 사용하여 보다 정확한 분류 결과를 낼 수 있는 기법 주성분 분석: 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로 선형결합해 변수를 축약하는 기법
군집 분석: 레코드 자체가 가진 다른 레코드와의 유사성에 의해 그룹화 하는 기법
연관 분석 : 같이 팔리는 물건 같이 아이템의 연관성을 파악하는 분석
04 다음 앙상블 모형 중 매번 분할을 수행할 때마다 설명 변수의 일부분만을 고려함으로 성능을 높이는 방법을 무엇이라 하는가? 3번
1. 배깅
2. 부스팅
3. 랜덤포레스트
4. 의사결정나무
랜덤포레스트
- 배깅(bagging)에 랜덤 과정을 추가하는 방법 - 매번 분할을 수행할 때마다 설명변수의 일부분만을 고려함으로 성능을 높이는 방법
05 재표본 과정에서 각 자료에 동일한 확률을 부여하지 않고, 분류가 잘못된 데이터에 더 가중을 주어 표본을 추출하는 분석 기법은?
부스팅 (boosting)
재표본 과정에서 각 자료에 동일한 확률을 부여하지 않고, 분류가 잘못된 데이터에 더 가중을 주어 표본을 추출하는 분석 기법
06 원 데이터로부터 집합 크기가 같은 표본의 중복을 허용하고, 복원추출하여 각 표본에 대해 분류기(classifiers)를 생성하는 기법은? 1번