Intro

안녕하세요. 저는 2016년도에 Expedia가 Kaggle에 공개한 데이터를 가지고 분석 및 시각화를 진행하였습니다. 사용한 데이터에는 2013~2014년에 Expedia를 이용한 유저들의 정보와 행동과 유저가 예약한 호텔 클러스터 ID가 저장되어 있습니다. Expedia에서 가격대, 별점, 위치 등등을 기반으로 비슷한 호텔끼리 묶어 ID를 부여하였는데, 이를 hotel cluster라고 합니다. Expedia는 어떤 유저가 어떤 hotel cluster에 있는 호텔을 예약을 하는지에 관심이 있었습니다.

Expedia Hotel Recommendations

Column Description (1)

Dataset

원본 데이터의 크기가 너무 커 분석을 하기에 어려움이 있으므로, 10만 row개의 데이터만 분리하여 사용하였습니다.

split -l 100000 train.csv

시각화를 위해 파이썬에서 약간의 가공을 하였고, 원본에 없던 hotel_nights라는 값을 다음과 같이 추가하였습니다.

hotel_nights = pd.to_datetime(df["srch_co"]) - pd.to_datetime(df["srch_ci"])
df["hotel_nights_str"] = hotel_nights

hotel_nights_float = (hotel_nights / np.timedelta64(1, "D")).astype(float)
df["hotel_nights"] = hotel_nights_float

원본 데이터

train.csv

사용한 데이터

expedia.csv

Analysis in HEARTCOUNT

Preferred continent destinations

Untitled

Most of people booking are from continent 3

Untitled

Putting the two above together

Untitled