전국 신규 민간 아파트 분양가격 동향
- 2015년 10월부터 2018년 7월까지
- 주택분양보증을 받아 분양한 전체 민간 신규아파트 분양가격 동향
전국 평균 분양가격(2013년 9월부터 2015년 8월까지)
- 전국 공동주택의 3.3제곱미터당 평균분양가격 데이터를 제공
주택도시보증공사_전국 평균 분양가격(2019년 12월)
- 전국 공동주택의 연도별, 월별, 전용면적별 제곱미터당 평균분양가격 데이터를 제공
- 지역별 평균값은 단순 산술평균값이 아닌 가중평균값임
%pwd
#파이썬 현재 저장 위치
#결과 값 : 'C:\\Users\\PMJ'
import shutil
shutil.move('C:/Users/PMJ/주택도시보증공사_전국 평균 분양가격(2019년 12월).csv',
'C:/Users/주택도시보증공사_전국 평균 분양가격(2019년 12월).csv')
import pandas as pd
#한글 인코딩이 깨져서 불러오지 못하는 것 UnicodeDecodeError
#encoding='cp949'로 인코딩을 지정하여 해결,,
df_last=pd.read_csv('C:/Users/PMJ/주택도시보증공사_전국 평균 분양가격(2019년 12월).csv',encoding='cp949')
df_last.shape#행열의 갯수 뽑아냄
(4335, 5)
#head 로 미리보기 함
df_last.head()
#괄호 안에서 쉬프트+ 탭을 누르면 함수에 대한 설영을 볼 수 있음
df_last.tail()
#NaN이 존재하는 것 확인
%ls C:\Users\PMJ
#해당 데이터 파일의 이름 확인
전국 평균 분양가격(2013년 9월부터 2015년 8월까지).csv 주택도시보증공사_전국 평균 분양가격(2019년 12월).csv
df_first=pd.read_csv('전국 평균 분양가격(2013년 9월부터 2015년 8월까지).csv',encoding='cp949')
df_first.head()
df_last.info()
#RangeIndex=인덱스의 갯수를 보여줌
#comlumn5개
#분양가격(㎡) 4058 non-null object->결측치때문에 갯수가 다르다
#object 분양가격 의 타입,,숫자 형태가 아니어서 수치형 데이터로 변환해주자
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4335 entries, 0 to 4334
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 지역명 4335 non-null object
1 규모구분 4335 non-null object
2 연도 4335 non-null int64
3 월 4335 non-null int64
4 분양가격(㎡) 4058 non-null object
dtypes: int64(2), object(3)
memory usage: 169.5+ KB
결측치 보기
- isnull혹은isna를 통해 데이터가 비어있는지를 확인할 수 있음
- 결측치는True로 표시되는데 True==1이기떄문에 이값을 다 더해주면 결측치의 수가 됨
df_last.isnull()
df_last.isnull().sum()
#결측치의 수를 구할 수 있음
#분양가격에서 277개의 결측치를 구할 수 있음
지역명 0
규모구분 0
연도 0
월 0
분양가격(㎡) 277
dtype: int64
'IT 프로그래밍 > PYTHON' 카테고리의 다른 글
4-5. GBM(Gradient Boosting Machine) (0) | 2024.03.03 |
---|---|
4-4 랜덤포레스트 (0) | 2024.03.03 |
4.3앙상블 학습 (0) | 2024.03.03 |
4-1 분류(classification) (0) | 2024.03.03 |
머신러닝- 분류 (0) | 2024.01.11 |