데이터분석준전문가(ADsP)/3과목

[정형데이터마이닝] 앙상블 분석

1) 여러개의 분류 모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법
2) 적절한 표본추출법으로 데이터에서 여러 개의 훈련용 데이터를 집합을 만들어 각 데이터 집합에 하나의 분류기를 만들어 결합하는 방법
3) 약하게 학습 된 여러 모델들을 결합하여 사용 (약하다는 것은 데이터셋이 있었을때 여러개로 나누어서 사용하기 때문에 데이터의 양이 적다)
4) 성능을 분산시키기 때문에 과적합(overfitting)감소효과가 있음

앙상블 모형(Ensemble) 의 종류

보팅(Voting)	- 서로 다른 여러개 알고리즘 분류기 사용 - 각 모델의 결과를 취합하여 많은 결과 또는 높은 확률로 나올 거을 최종 결과로 채택하는 것 Hard voting 각 모델의 예측 결과 중 많은 것을 선택 1예측 3표, 2예측 1표 일 경우 -> 1예측 선택 Soft voting 각 모델의 클래스 확률을 구하고 평균 높은 확률을 선택 1 예측 : (0.9 +0.8+0.3+0.4) /4 = 0.6 => 1예측 선택 2예측 : (0.1 + 0.2 + 0.7+0.6) / 4 = 0.4
배깅(Bagging,Bootstrap aggregating)	- 서로 다른 훈련 데이터 샘플로 훈련, 서로 같은 알고리즘 분류기 결합 - 원 데이터에서 중복을 허용하는 크기가 같은 표본을 여러 번 단순 임의 복원 추출하여 각 표본에 대해 분류기(classifiers)를 생성하는 기법 - 여러 모델이 병렬로 학습(Parellel), 그 결과를 집계하는 방식 - 같은 데이터가 여러 번 추출될 수도 있고, 어떤 데이터는 추출되지 않을 수 있음 - 대표적 알고리즘: MetaCost Altorithm
부스팅 (Boosting)	- 여러 모델이 순차적으로 학습 - 이전 모델의 결과에 따라 다음 모델 표본 추출에서 분류가 잘못된 데이터에 가중치(weight)를 부여하여 표본을 추출함 - 맞추기 어려운 문제를 맞추는데 초점이 맞춰져 있고, 이상치(Outlier)에 약함 - 대표적 알고리즘: AdaBoost, Gradient Boost,(XGBoost, Light GMB: Leat-wise-node방법을 사용하는 알고리즘)등
랜덤 포레스트(Random forest)	- 배깅(bagging)에 랜덤 과정을 추가한 방법 - 노드 내 데이터를 자식 노드로 나누는 기준을 정할 때 모든 예측변수에서 최적의 분할을 선택하는대신, 설명변수의 일부분만을 고려함으로 성능을 높이는 방법 사용 - 여러 개 의사결정 나무를 사용해, 하나의 나무를 사용할 때보다 과적합 문제를 피할 수 있음

예상 문제

01 다음 중 앙상블 모형이 아닌것은? 1번

1.시그모이드

2.배깅

3.랜덤포레스트

4.부스팅

02 다음 중 앙상블의 특징을 가장 적절하지 않은 것은? 4번

1. 앙상블 학습은 하나의 모델만을 학습시켜 사용하지 않고 여러 모델을 학습시켜 결합하는 방식으로 문제를 처리한다.

2. 약하게 학습 된 여러 모델들을 결합하여 사용하는 것을 앙상블 학습이라 할 수 있다.

3. 성능을 분산시키기 때문에 과적합(overfitting) 감소 효과가 있다.

4. 상호 연관성이 높을수록 정확도는 향상이 된다.

상호 연관성이 높으면 분류하기가 쉽지 않음(정확도가 감소됨)

03 보험사에서 해지할 예상 고객을 예측시 사용할 수 있는 적절한 기법은? 1번

1.랜덤 포레스트 2.주성분분석 3. 군집분석 4.연관분석

랜덤 포레스트 : 앙상블 모델 중 배깅 방식의 하나로 여러 개의 분류기(의사 결정 트리)를 사용하여 보다 정확한 분류 결과를 낼 수 있는 기법
주성분 분석: 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 변수로 선형결합해 변수를 축약하는 기법
군집 분석: 레코드 자체가 가진 다른 레코드와의 유사성에 의해 그룹화 하는 기법

연관 분석 : 같이 팔리는 물건 같이 아이템의 연관성을 파악하는 분석

04 다음 앙상블 모형 중 매번 분할을 수행할 때마다 설명 변수의 일부분만을 고려함으로 성능을 높이는 방법을 무엇이라 하는가? 3번

1. 배깅

2. 부스팅

3. 랜덤포레스트

4. 의사결정나무

랜덤포레스트

- 배깅(bagging)에 랜덤 과정을 추가하는 방법
- 매번 분할을 수행할 때마다 설명변수의 일부분만을 고려함으로 성능을 높이는 방법

05 재표본 과정에서 각 자료에 동일한 확률을 부여하지 않고, 분류가 잘못된 데이터에 더 가중을 주어 표본을 추출하는 분석 기법은?

부스팅 (boosting)

재표본 과정에서 각 자료에 동일한 확률을 부여하지 않고, 분류가 잘못된 데이터에 더 가중을 주어 표본을 추출하는 분석 기법

06 원 데이터로부터 집합 크기가 같은 표본의 중복을 허용하고, 복원추출하여 각 표본에 대해 분류기(classifiers)를 생성하는 기법은? 1번

1. 배깅

2. 부스팅

3. 랜덤포레스트

4. 퍼셉트론

배깅(Bagging)
Bootsrap Aggregating의 줄임말 bootstrap aggregating집계
원 데이터에서 중복을 허용하는 크기가 같은 표본을 여러 번 단순 임의 복원

추출하여 각 표본에 대해 분류기(Classifiers)를 생성하는 기법

07 부스팅 알고리즘 중 Leaf-wise-node 방법을 사용하는 알고리즘을 무엇이라 하는가? 4번

1. AdaBoost

2. GBM

3.Xgboost

4. Light GBM

저작자표시 비영리 동일조건

Contents

앙상블모형(Ensemble)의종류

예상문제

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

새소식

인기 검색어

[정형데이터마이닝] 앙상블 분석

앙상블 모형(Ensemble) 의 종류

예상 문제

당신이 좋아할만한 콘텐츠

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역