1.보스턴 주택 가격 회귀 구현

프로젝트,실습/실습

1.보스턴 주택 가격 회귀 구현

mjmjpp 2024. 4. 21. 13:21

1. 데이터 불러오기(데이터 프레임형식으로 조정)

2. 각 독립변수별로 종속가격에 미치는 영향도를 조사

(시각화로 산점도와 회귀선을 나타낸 sns.regplot활용)

3. 학습과 테스트 데이터 세트로 분리하고 학습/예측/평가 수행

4.중요 변수 추출

5.정확도추출

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

from sklearn.datasets import load_boston
import warnings
warnings.filterwarnings('ignore')  #사이킷런 1.2 부터는 보스턴 주택가격 데이터가 없어진다는 warning 메시지 출력 제거
%matplotlib inline

# boston 데이타셋 로드
boston = load_boston()

# boston 데이타셋 DataFrame 변환 
bostonDF = pd.DataFrame(boston.data , columns = boston.feature_names)

# boston dataset의 target array는 주택 가격임. 이를 PRICE 컬럼으로 DataFrame에 추가함. 
bostonDF['PRICE'] = boston.target
print('Boston 데이타셋 크기 :',bostonDF.shape)
bostonDF.head()

CRIM: 지역별 범죄 발생률
ZN: 25,000평방피트를 초과하는 거주 지역의 비율
INDUS: 비상업 지역 넓이 비율
CHAS: 찰스강에 대한 더미 변수(강의 경계에 위치한 경우는 1, 아니면 0)
NOX: 일산화질소 농도
RM: 거주할 수 있는 방 개수
AGE: 1940년 이전에 건축된 소유 주택의 비율
DIS: 5개 주요 고용센터까지의 가중 거리
RAD: 고속도로 접근 용이도
TAX: 10,000달러당 재산세율
PTRATIO: 지역의 교사와 학생 수 비율
B: 지역의 흑인 거주 비율
LSTAT: 하위 계층의 비율
MEDV: 본인 소유의 주택 가격(중앙값)

각 컬럼별로 주택가격에 미치는 영향도를 조사

# 2개의 행과 4개의 열을 가진 subplots를 이용. axs는 4x2개의 ax를 가짐.
fig, axs = plt.subplots(figsize=(16,8) , ncols=4 , nrows=2)
lm_features = ['RM','ZN','INDUS','NOX','AGE','PTRATIO','LSTAT','RAD']
for i , feature in enumerate(lm_features):
    row = int(i/4)
    col = i%4
    # 시본의 regplot을 이용해 산점도와 선형 회귀 직선을 함께 표현
    sns.regplot(x=feature , y='PRICE',data=bostonDF , ax=axs[row][col])

학습과 테스트 데이터 세트로 분리하고 학습/예측/평가 수행

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error , r2_score

y_target = bostonDF['PRICE']
X_data = bostonDF.drop(['PRICE'],axis=1,inplace=False)

X_train , X_test , y_train , y_test = train_test_split(X_data , y_target ,test_size=0.3, random_state=156)

# Linear Regression OLS로 학습/예측/평가 수행. 
lr = LinearRegression()
lr.fit(X_train ,y_train )
y_preds = lr.predict(X_test)
mse = mean_squared_error(y_test, y_preds)
rmse = np.sqrt(mse)

print('MSE : {0:.3f} , RMSE : {1:.3F}'.format(mse , rmse))
print('Variance score : {0:.3f}'.format(r2_score(y_test, y_preds)))

MSE : 17.297 , RMSE : 4.159
Variance score : 0.757

print('절편 값:',lr.intercept_)
print('회귀 계수값:', np.round(lr.coef_, 1))

절편 값: 40.995595172164315
회귀 계수값: [ -0.1   0.1   0.    3.  -19.8   3.4   0.   -1.7   0.4  -0.   -0.9   0.
  -0.6]

'프로젝트,실습 > 실습' 카테고리의 다른 글

파이썬 비즈니스 데이터 - rfm분석 (2)	2024.06.10
파이썬 비즈니스 데이터 분석-코호트 분석 (0)	2024.06.10
회귀 실습 (0)	2024.04.21
파이썬 머신러닝- 3.피마 인디언 당뇨 예측 (0)	2024.04.14
파이썬 머신러닝- 2.타이타닉 생존자 예측 (0)	2024.04.08

현재글1.보스턴 주택 가격 회귀 구현

story

같이 공부해요

공분산#분산#요인분석#주성분분석#머신러닝#통계, 정보이득, 결정트리, 지니계수, 머신러닝, 파이썬, 하이퍼파라미터, 분산 #공분산, 선형대수학#고유값#고유벡터#주성분분석#요인분석#PCA#FA,

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

story

1.보스턴 주택 가격 회귀 구현

'프로젝트,실습 > 실습' 카테고리의 다른 글

'프로젝트,실습/실습'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

2025. 08
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

1.보스턴 주택 가격 회귀 구현

'프로젝트,실습 > 실습' 카테고리의 다른 글

'프로젝트,실습/실습'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역