분류 전체보기 33

머신러닝 개요 정리

1.사이킷런으로 시작하는 머신러닝 1) 학습/테스트 데이터 셋 분리 * 교차검증을 통해 교차 검증을 통해 모델의 일반화 성능을 평가하고 과적합을 판단 -> k-fold교차 검증, stratified k-fold, cross_val_score() 2) 최적의 파라미터 값찾기 gridsearchcv(), 여기서 cv=5이교 이거는 5개의폴드로 나눈다는 것임 3)데이터 인코딩 : labelencoder(),onehotencoder() 4)피처 스케일링과 정규화 : standardscaler()-표준화, minmaxscaler()-정규화 -> 규모가 다른 피처들의 영향을 동등하게 만듦 -> 모든 피처의 값의 범위를 비슷하게 만들어주면, 모델이 각 피처의 영향을 동등하게 고려 *총정리 머신러닝 애플리케이션 (데이..

머신러닝 2024.04.01

자동차 시세 시각화&모델링

자동차 정보를 이용해서 price를 예측하자! #인공지능을 이용해서 price예측하기 데이터안의 패턴을 인공지능에게 학습시키기 인공지능이 데이터 안에서 패턴을 찾는 과정! 0. 데이터 파악은 기본 -> 변수의 특성은 항상 미리 파악하고 들어가기 1.가격을 예측할때 중요한 특성과 중요하지 않은 특성을 찾아보자. - make와 같은 제조사는 중요할까??=> 외제차와 국제차는 차이가 있다 -자동차의 문의 갯수는 중요할까-> 가격에 미치는 영향이 있을까??=> 두개는 슈퍼카일 확률 높음..그렇다면 가격에 미치는 영향있을수도 -자동차의 높이는 가격에 영향을 미칠까??=> 아닐 거 같다.. suv가 세단 보다 높다..그러면 더 비싼가?? 이걸로는 판단하기 쉽지 않을듯.. -자동차를 잘 아는 사람!-> 배경지식으로도..

프로젝트,실습 2024.03.17

비즈니스 데이터 분석 프로젝트 개요

비즈니스 데이터 분석 프로젝트 개요 비즈니스 데이터 분석 프로젝트를 수행하는 일반적인 개요는 다음과 같습니다: 이해 및 정의: 프로젝트의 목적과 목표를 명확히 이해합니다. 비즈니스의 요구 사항을 파악하고, 데이터 분석이 어떻게 비즈니스 목표를 달성하는 데 도움이 될 수 있는지를 이해합니다. 데이터 수집: 필요한 데이터를 수집하고, 데이터의 출처와 형식을 확인합니다. 내부 데이터베이스, 외부 데이터 소스, API 등을 사용하여 데이터를 수집합니다. 데이터 전처리: 수집된 데이터를 정제하고 전처리합니다. 결측치 처리, 이상치 제거, 데이터 형식 변환 등의 작업을 수행하여 데이터의 품질을 향상시킵니다. 탐색적 데이터 분석(EDA): 데이터를 탐색하고 시각화하여 데이터의 패턴이나 관계를 파악합니다. 주요 변수의..

이커머스에 대한 경험 및 고객 행동 로그, 거래 트랜젝션에 대한 이해

이커머스에 대한 경험과 고객 행동 로그, 거래 트랜잭션에 대한 이해는 데이터 분석 및 비즈니스 의사 결정에 매우 중요합니다. 이커머스 분야에서는 많은 양의 데이터가 생성되며, 이를 분석하여 고객 행동을 이해하고 비즈니스 성과를 향상시키는 데에 활용할 수 있습니다. 일반적으로 이커머스 데이터 분석에서 고려해야 할 주요 요소는 다음과 같습니다: 고객 행동 로그: 웹사이트나 앱을 사용하는 고객의 행동 로그를 수집합니다. 이는 페이지 뷰, 클릭, 검색, 장바구니 추가, 구매 등의 활동을 포함할 수 있습니다. 이러한 로그를 분석하여 사용자의 행동 패턴을 파악하고, 사용자 경험을 개선하는 데에 활용할 수 있습니다. 거래 트랜잭션 데이터: 고객의 구매 행동과 관련된 데이터를 수집합니다. 이는 주문 내역, 제품 정보,..

4-5. GBM(Gradient Boosting Machine)

1. GBM 부스팅 알고리즘 -여러개의 약한 학습기( weak learner)를 순차적으로 학습/예측하며 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식 - 부스팅의 대표적인 구현 : AdaBoost(Adaptive boosting)과 그래디언트 부스트(Gradient Boost) 1. 에디아 부스트 AdaBoost(Adaptive boosting) 오류 데이터에 가중치를 부여하면서 부스팅을 수행하는 대표적 알고리즘 "+"와 "-"로 구성된 피쳐 dataset이 있으면 weak learner분류기 1이 step1에서 분류를 하고 step2에서 잘못 분류한 data에 가중치를 부여함 이 과정을 step5까지 반목하면 총 3개의 weak learner 분류기를 통해 분류를 하고..

4-4 랜덤포레스트

1. 랜덤포레스트의 개요 및 실습 배깅(bagging)의 대표적인 알고리즘 : 랜덤 포레스트 랜덤포레스트 - 앙상블 알고리즘 중 비교적 빠른 수행속도를 가지며 다양한 영역에서 높은 예측 성능을 보임 랜덤포레스트의 기반 알고리즘은 결정트리, 결정트리의 장점인 쉽고 직관적인 점을 그대로 갖고 있음 -여러 결정 트리 분류기가 전체 데이터에서 배깅 방식으로 각자의 데이터를 샘플링하여 개별적으로 학습을 수행한 후 최종적으로 모든 분류기가 보팅을 통해 예측 결정을 하게 됨 랜덤포레스트- 각각의 개별적인 결정 트리가 학습하는 dataset이 전체 dataset에서 일부가 중첩되게 샘플링된 dataset -> 여러개의 dataset을 중첩되게 분리하는 것을 부트스트래핑(bootstrapping)분할 방식이라 함 bag..

4.3앙상블 학습

1. 앙상블 학습의 개념 앙상블 학습(ensemble learning)을 통한 분류 -여러개의 분류기(classifier)를 생성 하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법 -대표적인 앙상블 알고리즘은 랜덤 포레스트와 그래디언트 부스팅 ->부스팅 계열의 알고리즘의 개발이 가속화되어 매력적인 솔루션으로 불리는 XGBoost ->XGBoost와 유사한 성능을 보이며서 훨씬 빠른 수행속도를 지닌 LightGB ->여러가지 모델의 결과를 기반으로 메타모델을 수립하는 스태킹(stacking)을 포함하여 다양한 유형의 알고리즘이 머신러닝의 선도 알고리즘으로 인기 전통적인 앙상블 학습의 유형 1.보팅(voting) 2. 배깅(bagging) 3.부스팅(boosting),,+스태킹 *보팅과 배..

4-1 분류(classification)

개요 지도학습이란? label과 같은 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 학습 지도학습의 대표적인 유형인 분류(classification)은 학습 데이터로 주어진 데이터의 feature와 label을 ML알고리즘으로 학습해 모델을 생성하고 이렇게 새로운 생성된 모델에 새로운 데이터가 주어질떄 미지의 label값을 예측하는 것 분류의 다양한 ML 알고리즘 베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈(Naive Bayes) 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Regression) 데이터 균일도에 따른 규칙 기반의 결정 트리(Decision Tree) 개별 class 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신(..

머신러닝- 분류

1. 분류 : 학습 데이터로 주어진 데이터의 피처와 레이블값(결정값,클래스값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을때 미지의 레이블 값을 예측하는 것 #결정 트리와 앙상블 결정트리 -매우 쉽고 유연하게 적용될 수 있는 알고리즘 -데이터의 스케일링이나 정규화 등의 사전 가공의 영향이 매우 적음 -예측 성능을 향상 시키기 위해 복잡한 규칙 구조를 가져야하며 이로 인해 과적합이 발생해 반대로 예측 성능이 저하될 수 있음 앙상블기법 -앙상블은 매우 많은 여러개의 약한 학습기(예측 성능이 상대적으로 떨어지는 학습 알고리즘)을 결합해 확률적 보완과 오류가 발생한 부분에 대한 가중치를 계속 업데이트 하며 예측 성능을 향상시킴 -> 결정 트리가 좋은 약한 학습..

전국 신규 민간 아파트 분양가 분석

전국 신규 민간 아파트 분양가격 동향 2015년 10월부터 2018년 7월까지 주택분양보증을 받아 분양한 전체 민간 신규아파트 분양가격 동향 전국 평균 분양가격(2013년 9월부터 2015년 8월까지) - 전국 공동주택의 3.3제곱미터당 평균분양가격 데이터를 제공 주택도시보증공사_전국 평균 분양가격(2019년 12월) - 전국 공동주택의 연도별, 월별, 전용면적별 제곱미터당 평균분양가격 데이터를 제공 - 지역별 평균값은 단순 산술평균값이 아닌 가중평균값임 %pwd #파이썬 현재 저장 위치 #결과 값 : 'C:\\Users\\PMJ' import shutil shutil.move('C:/Users/PMJ/주택도시보증공사_전국 평균 분양가격(2019년 12월).csv', 'C:/Users/주택도시보증공사_전..