전체 글 33

파이썬 비즈니스 데이터 - rfm분석

rfm분석https://ko.wikipedia.org/wiki/RFM RFM - 위키백과, 우리 모두의 백과사전위키백과, 우리 모두의 백과사전. RFM은 가치있는 고객을 추출해내어 이를 기준으로 고객을 분류할 수 있는 매우 간단하면서도 유용하게 사용될 수 있는 방법으로 알려져 있어 마케팅에서 가장ko.wikipedia.org Recency - 거래의 최근성: 고객이 얼마나 최근에 구입했는가?Frequency - 거래빈도: 고객이 얼마나 빈번하게 우리 상품을 구입했나?Monetary - 거래규모: 고객이 구입했던 총 금액은 어느 정도인가?rfm분석1.유효데이터만 추출2.이상치 제거3.중복데이터 확인4.중복데이터 제거5.rfm계산-> 전체주문에서 최근 주문일 구하기->고객별 recency, frequency..

파이썬 비즈니스 데이터 분석-코호트 분석

코호트분석import pandas as pddf = pd.read_excel('C:/pmj/Online Retail.xlsx')dfInvoiceNo: 송장번호. 해당 거래에 할당된 6자리 정수 이 코드가 문자 'c'로 시작하면 취소를 나타냅니다.StockCode: 제품 코드. 각 고유 제품에 고유하게 할당된 5자리 정수Description: 제품 이름Quantity: 거래당 각 제품의 수량 이 코드가 ‘-’(마이너스)로 시작하면 취소를 나타냅니다.InvoiceDate: 송장 날짜 및 시간. 숫자, 각 거래가 생성된 날짜 및 시간UnitPrice: 단가. 숫자, 스털링(영국 화폐) 단위의 제품 가격CustomerID: 고객 번호. 해당 고객에게 고유하게 할당된 5자리 정수Country: 국가 이름. 해당 ..

태블로 kpi구현

1. 대시보드 사이즈 조정 [전체적인 레이아웃짜기] 2. 서식 -> 통합문서 전체 글꼴 설정 3. 대시보드 제작하기 전에 먼저 틀 다 잡아두기텍스트로! 4.잡아둔 툴들 기준으로 여러개의 시트 제작 5.한가지 지표를 나타내는 시트를 대시보드에 나타낼때 제목을 업애주고 대시보드의 정해진 위치 상에 가운데로 오도록 조정가능 6. 막대그래프 두개로 만들고 우클릭해서 이중축 그래프 제작 가능->우클릭으로 축 동기화 필요! 7. 대시보드에 올릴때 보고싶지 않은 것은 오른쪽버튼 눌러서 없앨수 있는 법 찾아보기 8.새로운 계산된필드 만들어서 레이블에 추가 가능 9.대시보드상에서 그래프의 틀 맞추기 위해 '표준'/'너비' 설정 10. 매개 변수 만들기->계산된 필드 설정11. 대시보드 상에서 매개 변수를 움직이고 싶다면..

태블로 공부

1. 매개변수 활용하기(case->when 활용) 매개변수 만들고 계산된 필드 추가로 만들어야함 2. 워크시트->동작 활용하기 대시보드들의 다양한 시트들의 연관성을 불러 일으킬 수 있음3.매개변수를 활용해서 구분지을 수도 있지만 계산된 필드에서 단순조건식 if else/if elseif else을 활용하여 조건설정 4. 화살표 만들기 모형은 아무데서나 복사해서 오기..작성후 텍스트레일정리 (텍스트 누르고 점 세개 누르기_

1.보스턴 주택 가격 회귀 구현

1. 데이터 불러오기(데이터 프레임형식으로 조정) 2. 각 독립변수별로 종속가격에 미치는 영향도를 조사 (시각화로 산점도와 회귀선을 나타낸 sns.regplot활용) 3. 학습과 테스트 데이터 세트로 분리하고 학습/예측/평가 수행 4.중요 변수 추출 5.정확도추출 import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn as sns from sklearn.datasets import load_boston import warnings warnings.filterwarnings('ignore') #사이킷런 1.2 부터는 보스턴 주택가격 데이터가 없어진다는 warning 메시지 출력 제거 %matplotlib in..

파이썬 머신러닝- 3.피마 인디언 당뇨 예측

과정1. 데이터불러오기2. 기초정보확인3. 평가 함수 설정하기4. 트레인/테스트셋 분리하기5. 모델 선택 후 학습 후 예측 수행하기(로지스틱회귀모형선택)6. 평가수행하기( 오차행렬/ 정확도,정밀도,재현율, f1,auc)7. precision recall 곡선 그림*데이터 정제(결측치, 이상치,오류 수정) 모델링의 정확도 올릴려함8.각피처들의 값 4분위 분포확인9. glucose피처의 분포도 확인10. 데이터 전처리-0값이있는 피처들에서 0값의 데이터 건수와 퍼센트 계산/0값을 평균값으로 대체11. StandardScaler 클래스를 이용해 피처 데이터 세트에 일괄적으로 스케일링 적용하고 0값을 평균값으로 대체한 데이터 세트로 학습/예측12 분류결정 임곗값을 변경하면서 성능 측정13. 가장 효과있는 임곗값..

파이썬 머신러닝- 2.타이타닉 생존자 예측

1. 데이터불러오기2. 변수정리3. null 정보 파악4. 주요 컬럼 EDA(null처리/필요피처 추출/인코딩)5. 데이터셋과 테스트셋 분리6.  결정트리, Random Forest, 로지스틱 회귀를 적용하여 모델링 진행-> 정확도 도출7.  교차 검증을 진행함으로써 과적합 판단8. 하이퍼 파라미터 적용을 함으로써 모델의 정확도 향상import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlinetitanic_df = pd.read_csv('C:\\pmj\\train.csv')titanic_df.head(3)Passengerid: 탑승자 데이터 일련번호survived: 생존 여부..

파이썬 머신러닝- 1.붓꽃 품종 예측

붓꽃 데이터 세트로 분류를 예측한 프로세스 정리1. 데이터 세트 분리데이터를 학습 데이터와 테스트 데이터로 분리 2. 모델 학습학습 데이터를 기반으로 ML알고리즘을 적용해 모델을 학습시킨다. 3. 예측 수행 학습된 ML모델을 이용해 테스트 데이터의 분류(붓꽃 종류)를 예측 4.평가이렇게 예측된 결괏값과 테스트 데이터의 실제 결괏값을 비교해 ML 모델 성능을 평가from sklearn.datasets import load_irisfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import train_test_split import pandas as pdiris=load_iris()iris_data=iris.datairi..