發表文章

目前顯示的是 9月, 2019的文章

New York City Airbnb (II) Model Building (with one-hot encoding and IQR)

圖片
延續上一篇的主題,今天將會針對紐約市的Airbnb去進行建模的工作: 那我們趕緊開始: 1. 分成訓練集與測試集,7:3的比例 airbnb <- airbnb %>% mutate(id = row_number()) airbnb_train <- airbnb %>% sample_frac(.7) %>% filter(price > 0) airbnb_test <- anti_join(airbnb, airbnb_train, by = 'id') %>% filter(price > 0) nrow(airbnb_train) + nrow(airbnb_test) == nrow(airbnb %>% filter(price > 0)) 2. 由於Neighbourhood本來為字串變數,故這裡使用Dummy 技巧將它轉為Dummy Variable,或者稱為One hot Encoding DummyTable <- model.matrix( ~ neighbourhood + neighbourhood_group + room_type, data = air) new <- cbind(air , DummyTable[,-1]) new <- new[,-c(2,3,6)] id latitude longitude price minimum_nights number_of_reviews reviews_per_month 1 1 40.64749 -73.97237 149 1 9 0.21 2 2 40.75362 -73.98377 225 1 45 0.38 3 3 40.80902 -73.94190 150 3 0 0.00 4 4 40.68514 -73.95976 89 1 ...

New York City Airbnb (I) EDA

圖片
credit to : https://techcrunch.com/2018/01/31/nyc-new-york-airbnb-study-mcgill/   本篇資料來自Kaggle上的New York City Airbnb https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data#New_York_City_.png 同時會分成兩篇文章分別進行分析,第一篇主打EDA的部分,針對紐約各地區airbnb的資料進行視覺化的解剖以及一般的描述性統計。 資料的變數如下:   id listing ID name name of the listing host_id host ID host_name name of the host neighbourhood_group location neighbourhood area latitude latitude coordinates longitude longitude coordinates room_type listing space type price price in dollars(預測變數) minimum_nights amount of nights minimum number_of_reviews number of reviews last_review latest review reviews_per_month number of reviews per month calculated_host_listings_count amoun...