Tree models
大家好,頗久沒寫新文章, 一來是工作讓我投入其中; 二來是晚上很多時刻被netflix 綁架了.....XD 本篇將在資料集中使用不同的樹模型,包含: 1. 決策樹 2. 經由決策樹Bagging而成的RandomForest 3. XGBOOST 這次使用的資料則是mlbench裡的diabetes資料集,探討各因素對於糖尿病的症狀影響程度有多少,話不多說,開始吧! library(mlbench) data(PimaIndiansDiabetes) diabetes <- PimaIndiansDiabetes set.seed(22) train.index <- sample(x=1:nrow(diabetes), size=ceiling(0.8*nrow(diabetes))) train = diabetes[train.index, ] test = diabetes[-train.index, ] #設定測試集與訓練集 再來就是先看看整份資料的狀況吧 > summary(diabetes) pregnant glucose pressure triceps Min. : 0.000 Min. : 0.0 Min. : 0.00 Min. : 0.00 1st Qu.: 1.000 1st Qu.: 99.0 1st Qu.: 62.00 1st Qu.: 0.00 Median : 3.000 Median :117.0 Median : 72.00 Median :23.00 Mean : 3.845 Mean :120.9 Mean : 69.11 Mean :20.54 3rd Qu.: 6.000 3rd Qu.:140.2 3rd Qu.: 80.00 3rd Qu.:32.00 Max. :17.000 Max. :199.0 Max. :122.00 Max. :99.00 insulin mass ...