xgboost vs randomforest vs kmean cluster
本篇主要想比較一下針對同一筆資料使用三種模型的不同結果: 1. Random Forest 2. xgboost 3. Kmeans 集群分析 分別會比較xgboost與RF在Variance importance 的選擇,以及三種模型的confusion matrix準確度,當然最後的最後一樣要有溝通的圖表讓人有一目了然的感覺。 資料集: https://www.kaggle.com/uciml/breast-cancer-wisconsin-data 主要是關於乳癌的資料,透過 Fine-needle aspiration(FNA)技術取得圖片資訊再進行測量而獲得本次的資料集,詳細的變數名稱以及定義可以由上數網址得知,而我們這次的目的是透過這些資料正確預測diagnosis的結果,正確預測腫瘤最後是惡性還是良性(Malignant or Benign?) 直接開始吧! wbcd <- read.csv("data.csv") wbcd$X <- NULL wbcd <- wbcd[,-1] wbcd$diagnosis <- factor(ifelse(wbcd$diagnosis=="B","Benign","Malignant")) str(wbcd) summary(wbcd) head(wbcd) 讀取資料並排除不會用到的column X 把diagnosis作轉換 nrows <- NROW(wbcd) set.seed(218) ## fix random value index <- sample(1:nrows, 0.7 * nrows) ## shuffle and divide #train <- wbcd ## 569 test data (100%) train <- wbcd[index,] ## 398 test data (70%) test <- wbcd[-index,] ## 17...