發表文章

目前顯示的是 10月, 2019的文章

New York City Taxi Fare Prediction

圖片
credit to :  https://en.wikipedia.org/wiki/Taxicab#/media/File:TAXI.jpg 承接上一篇NYC Airbnb 的data mining後,這次緊接著是NYC的計程車票價預測 資料一樣來自Kaggle https://www.kaggle.com/c/new-york-city-taxi-fare-prediction 主要的變數有: ID 主要為搭車的年份 / 日期 / 時間 再加上 編號 (pickup datetime + integer) Features pickup_datetime  - 搭車 年份 / 日期 / 時間 pickup_longitude  -  搭車經度 pickup_latitude  - 搭車緯度 dropoff_longitude  - 下車經度 dropoff_latitude  -  下車緯度 passenger_count  - 乘客人數 Target fare_amount  -  本次主要預測的 目標 ,將預測後的資料繳交,Kaggle會告訴我預測的RMSE 話不多說,我們開始吧!!!!! #library library(tidyverse) library('jsonlite') library(rlang) library(data.table) library(ggplot2) library(lubridate) library(dplyr) library(geosphere) library(caret) library(xgboost) library(DataExplorer) library(mlr) library(gridExtra) library(ggridges) 先把package準備好~~~ 讀檔,這次的訓練集檔案龐大,所以取其中300萬筆來跑.....(筆電跑起來其實真的蠻lag的) NA值很少不超過20個,所以索性直接拿掉了。 #Read files and find na train...