IT 프로그래밍/PYTHON

전국 신규 민간 아파트 분양가 분석

mjmjpp 2024. 1. 8. 12:07

전국 신규 민간 아파트 분양가격 동향

  • 2015년 10월부터 2018년 7월까지
  • 주택분양보증을 받아 분양한 전체 민간 신규아파트 분양가격 동향

전국 평균 분양가격(2013년 9월부터 2015년 8월까지)
- 전국 공동주택의 3.3제곱미터당 평균분양가격 데이터를 제공


주택도시보증공사_전국 평균 분양가격(2019년 12월)
- 전국 공동주택의 연도별, 월별, 전용면적별 제곱미터당 평균분양가격 데이터를 제공
- 지역별 평균값은 단순 산술평균값이 아닌 가중평균값임

 %pwd
#파이썬 현재 저장 위치
#결과 값 : 'C:\\Users\\PMJ'
import shutil
shutil.move('C:/Users/PMJ/주택도시보증공사_전국 평균 분양가격(2019년 12월).csv',
       'C:/Users/주택도시보증공사_전국 평균 분양가격(2019년 12월).csv')
       
import pandas as pd
#한글 인코딩이 깨져서 불러오지 못하는 것 UnicodeDecodeError 
#encoding='cp949'로 인코딩을 지정하여 해결,,
df_last=pd.read_csv('C:/Users/PMJ/주택도시보증공사_전국 평균 분양가격(2019년 12월).csv',encoding='cp949')
df_last.shape#행열의 갯수 뽑아냄
(4335, 5)

 

#head 로 미리보기 함
df_last.head()
#괄호 안에서 쉬프트+ 탭을 누르면 함수에 대한 설영을 볼 수 있음
df_last.tail()
#NaN이 존재하는 것 확인

%ls C:\Users\PMJ

#해당 데이터 파일의 이름 확인

전국 평균 분양가격(2013년 9월부터 2015년 8월까지).csv 주택도시보증공사_전국 평균 분양가격(2019년 12월).csv

 

df_first=pd.read_csv('전국 평균 분양가격(2013년 9월부터 2015년 8월까지).csv',encoding='cp949')
df_first.head()

df_last.info()
#RangeIndex=인덱스의 갯수를 보여줌
#comlumn5개
#분양가격(㎡)  4058 non-null   object->결측치때문에 갯수가 다르다 
#object 분양가격 의 타입,,숫자 형태가 아니어서 수치형 데이터로 변환해주자
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4335 entries, 0 to 4334
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   지역명      4335 non-null   object
 1   규모구분     4335 non-null   object
 2   연도       4335 non-null   int64 
 3   월        4335 non-null   int64 
 4   분양가격(㎡)  4058 non-null   object
dtypes: int64(2), object(3)
memory usage: 169.5+ KB

 

결측치 보기
- isnull혹은isna를 통해 데이터가 비어있는지를 확인할 수 있음
- 결측치는True로 표시되는데 True==1이기떄문에 이값을 다 더해주면 결측치의 수가 됨

df_last.isnull()

df_last.isnull().sum()
#결측치의 수를 구할 수 있음
#분양가격에서 277개의 결측치를 구할 수 있음
지역명          0
규모구분         0
연도           0
월            0
분양가격(㎡)    277
dtype: int64
 
 
 
 

 

'IT 프로그래밍 > PYTHON' 카테고리의 다른 글

4-5. GBM(Gradient Boosting Machine)  (0) 2024.03.03
4-4 랜덤포레스트  (0) 2024.03.03
4.3앙상블 학습  (0) 2024.03.03
4-1 분류(classification)  (0) 2024.03.03
머신러닝- 분류  (0) 2024.01.11