[Deep Learning] 앙상블 학습(Ensemble Learning)

Deep Learning

[Deep Learning] 앙상블 학습(Ensemble Learning)

xangmin 2021. 7. 29. 01:34

앙상블 학습(Ensemble Learning)에 대해 알아보자.

목 적

앙상블 학습(Ensemble Learning)이란 하나의 모델만을 학습시켜 사용하지 않고 여러 모델을 학습시켜 결합하는 방식으로 문제를 처리한다. 특히, 모델 하나로 원하는 성능을 낼 수 없을 때 앙상블 학습을 사용하면 효과적이며, 개별로 학습한 여러 모델을 조합하여 일반화(generalization) 성능을 향상할 수 있다.

방 법

- 여러 분류 알고리즘 사용 : 다수결 투표

- 하나의 분류 알고리즘 이용 : 배깅(Bagging), 부스팅(Boosting)

종 류

- 투표(Majority Voting) : 동일한 훈련세트

- 배깅(Bagging) : 훈련 샘플에서 알고리즘마다 별도의 훈련세트 추출

* 랜덤 포레스트(Random Forest) : 의사 결정 트리

- 부스팅(Boosting) : 샘플 뽑을 때 잘못된 분류 data 50%를 재학습, 또는 가중치 이용

보팅 (Voting)

- 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식

- 서로 다른 알고리즘을 여러 개 결합하여 사용

* 하드 보팅(Hard Voting) : 다수의 분류기가 예측한 결과값을 최종 결과로 선정

* 소프트 보팅(Soft Voting) : 모든 분류기가 예측한 레이블 값의 결정 확률 평균을 구한 뒤 가장 확률이 높은 레이블 값을 최종 결과로 선정

배깅 (Bagging)

- 데이터 샘플링을 통해 모델을 학습시키고 결과를 집계하는 방법

- 모두 같은 유형 알고리즘 기반의 분류기를 사용

- 데이터 분할 시 중복을 허용

- Categorical Data : 다수결 투표 방식으로 결과 집계

- Continuous Data : 평균값 집계

- 과적합(Overfitting) 방지에 효과적

- 대표적인 배깅 방식 : 랜덤 포레스트 알고리즘

부스팅(Boosting)

- 여러 개의 분류기가 순차적으로 학습을 수행

- 이전 분류기가 예측이 틀린 데이터에 대해서 올바르게 예측할 수 있도록 다음 분류기에 가중치(weight)를 부여하면서 학습과 예측을 진행

- 계속하여 분류기에게 가중치를 부스팅하며 학습을 진행하기에 부스팅 방식이라고 불림

- 예측 성능이 뛰어나 학습을 주도

- 보통 배깅에 비해 성능이 좋으나, 속도가 느리고 과적합의 문제가 발생할 가능성이 있음

출처 :

https://data-matzip.tistory.com/entry/%EC%95%99%EC%83%81%EB%B8%94-%EA%B8%B0%EB%B2%95-%EC%A0%95%EB%A6%AC-1-%EC%95%99%EC%83%81%EB%B8%94Ensemble-%EA%B8%B0%EB%B2%95%EA%B3%BC-%EB%B0%B0%EA%B9%85Bagging-%EB%B6%80%EC%8A%A4%ED%8C%85Boosting-%EC%8A%A4%ED%85%8C%EC%9D%B4%ED%82%B9Stacking

데이터맛집(datamatzip)

안녕하세요, 허브솔트에요. 저희 데이터맛집의 허브솔트 첫 글 주제로 앙상블이 당첨됐네요...! 요새 캐글의 상위권 메달을 휩쓸고 있는 대세 알고리즘이 앙상블 기법을 사용한 알고리즘의 한

data-matzip.tistory.com