IT 프로그래밍/PYTHON

머신러닝- 분류

mjmjpp 2024. 1. 11. 15:33

1. 분류 : 학습 데이터로 주어진 데이터의 피처와 레이블값(결정값,클래스값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을때 미지의 레이블 값을 예측하는 것

 

#결정 트리와 앙상블

 

결정트리

-매우 쉽고 유연하게 적용될 수 있는 알고리즘

-데이터의 스케일링이나 정규화 등의 사전 가공의 영향이 매우 적음

-예측 성능을 향상 시키기 위해 복잡한 규칙 구조를 가져야하며 이로 인해 과적합이 발생해 반대로 예측 성능이 저하될 수 있음

 

앙상블기법

-앙상블은 매우 많은 여러개의 약한 학습기(예측 성능이 상대적으로 떨어지는 학습 알고리즘)을 결합해 확률적 보완과 오류가 발생한 부분에 대한 가중치를 계속 업데이트 하며 예측 성능을 향상시킴

-> 결정 트리가 좋은 약한 학습기가 된다(gbm,xgboost,lightgbm)

결정 트리 알고리즘 

-데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만듦

-데이터의 어떤 기준을 바탕으로 규칙을 반들어야 가장 효율적인 분류가 될 것인가가 알고리즘의 성능을 크게 좌우

트리 분할을 위한 데이터의 균일도

 

결정트리에서 정보 균일도를 측정하는 방법

 

1. 정보이득

-엔트로피라는 개념을 기반으로 이루어짐

-'엔트로피' : 주어진 데이터 집합의 혼잡도를 의미, 정보의 불확실성을 반영

*서로 다른 값이 섞여있으면 엔트로피가 높고 같은 값이 섞여있으면 엔트로피가 낮음.

-정보이득 지수: 1-엔트로피 지수

-결정 트리는 이 정보 이득 지수로 분할 기준을 결정

-정보이득이 높은 속성을 기준으로 분할

*정보이득지수와 엔트로피 지수는 반대

 

2.지니계수

-경제학에서 불평등 지수를 나타낼때 사용하는 지수

-0이 가장 평등하고 1로 갈수록 불평등

-머신러닝에서는 지니계수가 낮을 수록 데이터 균일도가 높음->계수가 낮은 속성을 기준으로 분할

 

결정 트리 장 단점

장점: 쉽고 직관적/ 피처의 스케일링이나 정규화 등의 가공 영향도가 크지 않음

단점: 과적합으로 알고리즘 성능이 떨어짐. 극복하기 위해 트리의크기를 사전에 제한하는 튜닝이 필요

 

결정트리 모델 시각화를 위한 graphviz설치 요망!

 

'IT 프로그래밍 > PYTHON' 카테고리의 다른 글

4-5. GBM(Gradient Boosting Machine)  (0) 2024.03.03
4-4 랜덤포레스트  (0) 2024.03.03
4.3앙상블 학습  (0) 2024.03.03
4-1 분류(classification)  (0) 2024.03.03
전국 신규 민간 아파트 분양가 분석  (1) 2024.01.08