개요
지도학습이란?
label과 같은 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 학습
지도학습의 대표적인 유형인 분류(classification)은 학습 데이터로 주어진 데이터의 feature와 label을 ML알고리즘으로 학습해 모델을 생성하고 이렇게 새로운 생성된 모델에 새로운 데이터가 주어질떄 미지의 label값을 예측하는 것
- 분류의 다양한 ML 알고리즘
- 베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈(Naive Bayes)
- 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Regression)
- 데이터 균일도에 따른 규칙 기반의 결정 트리(Decision Tree)
- 개별 class 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신(Support Vector Machine)
- 근접 거리를 기준으로 하는 최소 근접(Nearest Neighbor) 알고리즘
- 심층 연결 기반의 신경망(Neural Network)
- 서로 다른(또는 같은) ML 알고리즘을 결합한 앙상블(Ensemble)
앙상블
-분류에서 가장 각광을 받는 방법중 하나
-정형적인 데이터의 예측 분석 영역에서는 앙상블이 매우 높은 예측 성능으로 인해 많은 분석가와 데이터 과학자들에게 애애용됨
-앙상블은 서로다른 (또는 같은) 알고리즘을 단순히 결합한 형태도 있으나 일반적으로 배깅(bagging)과 부스팅(boosting)방식으로 나뉨
-배깅방식의 대표가 랜덤 포레스트(random forest)이며 뛰어난 예측 성능 빠른 수행시간으로 많이 애용됨
-but최근에는 부스팅 방식으로 지속적으로 발전중
-가장 처음의 부스팅 방식인 그래디언트 부스팅(gradiant boosting)은 뛰어난 예측 성능을 가졌지만 수행시간이 길어 최적화 튜닝이 어려웠음
-XGboost와 lightBGM등 기존 그래디언트 부스팅의 예측 성능을 발전시키면서 수행시간을 단축시킨 알고리즘이 계속 등장하면서 정형데이터의 분류 영역에서 가장활용도가 높은 알고리즘으로 자리 잡음
'IT 프로그래밍 > PYTHON' 카테고리의 다른 글
4-5. GBM(Gradient Boosting Machine) (0) | 2024.03.03 |
---|---|
4-4 랜덤포레스트 (0) | 2024.03.03 |
4.3앙상블 학습 (0) | 2024.03.03 |
머신러닝- 분류 (0) | 2024.01.11 |
전국 신규 민간 아파트 분양가 분석 (1) | 2024.01.08 |