IT 프로그래밍 10

4-5. GBM(Gradient Boosting Machine)

1. GBM 부스팅 알고리즘 -여러개의 약한 학습기( weak learner)를 순차적으로 학습/예측하며 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식 - 부스팅의 대표적인 구현 : AdaBoost(Adaptive boosting)과 그래디언트 부스트(Gradient Boost) 1. 에디아 부스트 AdaBoost(Adaptive boosting) 오류 데이터에 가중치를 부여하면서 부스팅을 수행하는 대표적 알고리즘 "+"와 "-"로 구성된 피쳐 dataset이 있으면 weak learner분류기 1이 step1에서 분류를 하고 step2에서 잘못 분류한 data에 가중치를 부여함 이 과정을 step5까지 반목하면 총 3개의 weak learner 분류기를 통해 분류를 하고..

4-4 랜덤포레스트

1. 랜덤포레스트의 개요 및 실습 배깅(bagging)의 대표적인 알고리즘 : 랜덤 포레스트 랜덤포레스트 - 앙상블 알고리즘 중 비교적 빠른 수행속도를 가지며 다양한 영역에서 높은 예측 성능을 보임 랜덤포레스트의 기반 알고리즘은 결정트리, 결정트리의 장점인 쉽고 직관적인 점을 그대로 갖고 있음 -여러 결정 트리 분류기가 전체 데이터에서 배깅 방식으로 각자의 데이터를 샘플링하여 개별적으로 학습을 수행한 후 최종적으로 모든 분류기가 보팅을 통해 예측 결정을 하게 됨 랜덤포레스트- 각각의 개별적인 결정 트리가 학습하는 dataset이 전체 dataset에서 일부가 중첩되게 샘플링된 dataset -> 여러개의 dataset을 중첩되게 분리하는 것을 부트스트래핑(bootstrapping)분할 방식이라 함 bag..

4.3앙상블 학습

1. 앙상블 학습의 개념 앙상블 학습(ensemble learning)을 통한 분류 -여러개의 분류기(classifier)를 생성 하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법 -대표적인 앙상블 알고리즘은 랜덤 포레스트와 그래디언트 부스팅 ->부스팅 계열의 알고리즘의 개발이 가속화되어 매력적인 솔루션으로 불리는 XGBoost ->XGBoost와 유사한 성능을 보이며서 훨씬 빠른 수행속도를 지닌 LightGB ->여러가지 모델의 결과를 기반으로 메타모델을 수립하는 스태킹(stacking)을 포함하여 다양한 유형의 알고리즘이 머신러닝의 선도 알고리즘으로 인기 전통적인 앙상블 학습의 유형 1.보팅(voting) 2. 배깅(bagging) 3.부스팅(boosting),,+스태킹 *보팅과 배..

4-1 분류(classification)

개요 지도학습이란? label과 같은 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 학습 지도학습의 대표적인 유형인 분류(classification)은 학습 데이터로 주어진 데이터의 feature와 label을 ML알고리즘으로 학습해 모델을 생성하고 이렇게 새로운 생성된 모델에 새로운 데이터가 주어질떄 미지의 label값을 예측하는 것 분류의 다양한 ML 알고리즘 베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈(Naive Bayes) 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Regression) 데이터 균일도에 따른 규칙 기반의 결정 트리(Decision Tree) 개별 class 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신(..

머신러닝- 분류

1. 분류 : 학습 데이터로 주어진 데이터의 피처와 레이블값(결정값,클래스값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을때 미지의 레이블 값을 예측하는 것 #결정 트리와 앙상블 결정트리 -매우 쉽고 유연하게 적용될 수 있는 알고리즘 -데이터의 스케일링이나 정규화 등의 사전 가공의 영향이 매우 적음 -예측 성능을 향상 시키기 위해 복잡한 규칙 구조를 가져야하며 이로 인해 과적합이 발생해 반대로 예측 성능이 저하될 수 있음 앙상블기법 -앙상블은 매우 많은 여러개의 약한 학습기(예측 성능이 상대적으로 떨어지는 학습 알고리즘)을 결합해 확률적 보완과 오류가 발생한 부분에 대한 가중치를 계속 업데이트 하며 예측 성능을 향상시킴 -> 결정 트리가 좋은 약한 학습..

전국 신규 민간 아파트 분양가 분석

전국 신규 민간 아파트 분양가격 동향 2015년 10월부터 2018년 7월까지 주택분양보증을 받아 분양한 전체 민간 신규아파트 분양가격 동향 전국 평균 분양가격(2013년 9월부터 2015년 8월까지) - 전국 공동주택의 3.3제곱미터당 평균분양가격 데이터를 제공 주택도시보증공사_전국 평균 분양가격(2019년 12월) - 전국 공동주택의 연도별, 월별, 전용면적별 제곱미터당 평균분양가격 데이터를 제공 - 지역별 평균값은 단순 산술평균값이 아닌 가중평균값임 %pwd #파이썬 현재 저장 위치 #결과 값 : 'C:\\Users\\PMJ' import shutil shutil.move('C:/Users/PMJ/주택도시보증공사_전국 평균 분양가격(2019년 12월).csv', 'C:/Users/주택도시보증공사_전..

백준 1000번

답 a, b = map(int, input().split()) print(a+b) ​ 쓰인 함수 정리 # map(함수명, 리스트 이름) : 리스트 값 하나하나를 함수명에 대입 문자열로 이루어진 리스트를 숫자로 변환하기 위해 BEFORE = ['2019' , '12' , '31'] AFTER = list ( map ( int,BEFORE)) AFTER [2019, 12, 31] ▶️ int () 함수의 이름을 map() 함수의 매개변수로 사용 = [int('2019'), int( '12') , int('31')] 와 같은 효과를 갖게 됨. 결과값을 다시 list () 함수를 사용해서 리스트 형태로 변환 2.split() : 문자열을 공백이나 다른 문자로 분리해서 리스트를 반환 +splitlines() : ..

r총정리

#두 변수 생성(자료 입력) speedopen file/ctrl+o #plot 창에 그려진 그래프 복사 혹은 저장-plots>save as image/sageaspdf/saveasclipboard #패키지의 설치 및 사용-install.packages("") #패키지의 사용 : 함수require()/library() *인용부호 없음 #패키지에대한 도움 얻기: help() 사용 help(package=MASS) #함수(명령문) 에 대한 도움말 얻기 help(plot) ?plot #조금 더 포괄적인 도움말 얻기-문자열plot이포함된 여러 다른 패키지에 대한 다양한 함수들에 대한 도움 help.search("plot") ??plot ##문제 기존방법% slice_tail(n=3) #함수 slice_sample..

R프로그래밍 공부하기

R프로그래밍 공부하기 *스크립트 저장하기 : ctrl+s *새 스크립트 생성: ctrl+shift+n *R스튜디오 종료: Alt+F4 *R에서 변수를 지정할때는 가능한 % select(math)-math라는 변수 추출 exam %>% select(english,math)- math, enlglish 변수 추출 exam %>% select(-math)- math라는 변수를 제외하고 추출 exam %>% select(-math,-english)-math,english라는 변수를 제외하고 추출 *dplyr 함수 조합하기 filter()와 select()조합하기 %>%> 로 연결하면 된다 exam %>% filter(class==1) %>% select(math)- class가 1인 행만 추출한 다음에 engl..