New York City Taxi Fare Prediction
credit to : https://en.wikipedia.org/wiki/Taxicab#/media/File:TAXI.jpg 承接上一篇NYC Airbnb 的data mining後,這次緊接著是NYC的計程車票價預測 資料一樣來自Kaggle https://www.kaggle.com/c/new-york-city-taxi-fare-prediction 主要的變數有: ID 主要為搭車的年份 / 日期 / 時間 再加上 編號 (pickup datetime + integer) Features pickup_datetime - 搭車 年份 / 日期 / 時間 pickup_longitude - 搭車經度 pickup_latitude - 搭車緯度 dropoff_longitude - 下車經度 dropoff_latitude - 下車緯度 passenger_count - 乘客人數 Target fare_amount - 本次主要預測的 目標 ,將預測後的資料繳交,Kaggle會告訴我預測的RMSE 話不多說,我們開始吧!!!!! #library library(tidyverse) library('jsonlite') library(rlang) library(data.table) library(ggplot2) library(lubridate) library(dplyr) library(geosphere) library(caret) library(xgboost) library(DataExplorer) library(mlr) library(gridExtra) library(ggridges) 先把package準備好~~~ 讀檔,這次的訓練集檔案龐大,所以取其中300萬筆來跑.....(筆電跑起來其實真的蠻lag的) NA值很少不超過20個,所以索性直接拿掉了。 #Read files and find na train...