소연의_개발일지
article thumbnail

개발 환경 정리

운영체제: Windows OS
프로그래밍 언어: Python

개발 툴: Jupyter Lab

데이터 시각화: matplotlib, seaborn
데이터 처리: pandas, numpy
머신러닝 프레임워크: scikit-learn

 

자료

house_price.csv
0.03MB
metadata.jpg
0.09MB

보스턴 하우스 데이터: 이 데이터셋은 StatLib 라이브러리에서 가져온 것이며 카네기 멜론 대학교에서 관리하고 있다.

이 데이터셋은 보스턴 시의 주택 가격에 관한 것이다. 제공된 데이터셋에는 13개의 특성을 가진 506개의 인스턴스가 있다.
데이터셋의 설명은 아래 표와 같다.

 

 

**참고: 

원래는 보스턴 데이터는 사이킷런 모듈에서 아래처럼 임포트가 가능했으나, 윤리적 문제 때문에 삭제되었다.

from sklearn.datasets import load_boston
boston = load_boston()

자세한 내용은 접은글 참조 ↓

더보기

load_boston은 scikit-learn 버전 1.2부터 제거되었습니다.

보스턴 주택 가격 데이터셋에는 윤리적 문제가 있습니다.

[1]에서 조사한 바에 따르면, 이 데이터셋의 작성자들은 인종의 자기 분리가 주택 가격에 긍정적인 영향을 미친다고 가정하고 비가역적인 변수 "B"를 설계하였습니다

[2]. 또한 이 데이터셋을 생성하게 된 연구의 목적은 대기 품질의 영향을 연구하는 것이었지만, 이러한 가정의 타당성에 대한 적절한 증명을 제시하지 않았습니다.

따라서 scikit-learn의 유지 관리자들은 데이터 과학과 머신러닝에서의 윤리적 문제에 대해 연구하고 교육하는 목적이 아닌 이상 이 데이터셋의 사용을 강력히 권장하지 않습니다.

이 특별한 경우에는 원래의 출처에서 데이터셋을 가져올 수 있습니다:

import pandas as pd
import numpy as np

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

대체할 수 있는 데이터셋으로는 캘리포니아 주택 데이터셋과 Ames 주택 데이터셋이 있다.

다음과 같이 데이터셋을 불러올 수 있습니다:

 

캘리포니아 집값 데이터

from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing()

Ames 주택 데이터셋

from sklearn.datasets import fetch_openml
housing = fetch_openml(name="house_prices", as_frame=True)

 

 

선형 회귀 모델을 만들어, 집값을 예측해 보자.

 

 

 

 

 

 

 

 

 

 

profile

소연의_개발일지

@ssoyxon

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!