多元迴歸分析- subsets and shrinkage
多元迴歸分析是統計學裡舉足輕重的角色,解釋、個體與趨勢預測都是強而有力的好伙伴,但是,當我們發現變數太多,不知道挑選哪一個,或者變數間相關係數非常的高,該怎麼辦? 本篇文章將會由Subsets Methods裡的Stepwise regression 開始介紹起,再來說明Shrinkage Methods 裡 lasso and ridge兩種不同的迴歸方法。 -------------------------------------------------------- A. 前言 回歸或許是很強而有力的伙伴,但是相對的,使用條件也相對複雜得多,回歸模型往往伴隨著許多的變異,因此很輕易的將變數丟進去model裡,勢必會有很多的問題產生,例如: 1. Predict data放了不適當的變數造成了Overfitting導致實際上的testing data預測效果太差。 2. 解釋變數彼此的相關程度很高,型成共線性的問題,反而讓coefficient被大大影響,通常判斷共線性的標準主要為: I.容忍度( tolerance ,小於 0.1 有共線性問題) II.變異數膨脹因素( Variance inflation factor, VIF ,大於 10 有共線性問題) III.條件指標( Condition index, CI ,大於 30 有共線性問題) 為了解決這個方法,subsets 與 shrinkage兩種方法便孕育而生了 兩種方法代表模型如下: subsets: Stepwise shringkage: lasso and ridge 其中lasso 跟Stepwise目前被頻繁用於變數挑選上。 B. 子集回歸(subsets regression) Forward stepwise: 在空的迴歸模型中,逐一加入變數,直到AIC值為最小 Backward stepwise: 在包含所有變數的模型中,逐一刪除變數,直到AIC值為最小 Bo...