發表文章

目前顯示的是 3月, 2019的文章

多元迴歸分析- subsets and shrinkage

圖片
     多元迴歸分析是統計學裡舉足輕重的角色,解釋、個體與趨勢預測都是強而有力的好伙伴,但是,當我們發現變數太多,不知道挑選哪一個,或者變數間相關係數非常的高,該怎麼辦?       本篇文章將會由Subsets Methods裡的Stepwise regression 開始介紹起,再來說明Shrinkage Methods 裡 lasso and ridge兩種不同的迴歸方法。 -------------------------------------------------------- A. 前言 回歸或許是很強而有力的伙伴,但是相對的,使用條件也相對複雜得多,回歸模型往往伴隨著許多的變異,因此很輕易的將變數丟進去model裡,勢必會有很多的問題產生,例如: 1.  Predict data放了不適當的變數造成了Overfitting導致實際上的testing data預測效果太差。 2. 解釋變數彼此的相關程度很高,型成共線性的問題,反而讓coefficient被大大影響,通常判斷共線性的標準主要為: I.容忍度( tolerance ,小於 0.1 有共線性問題) II.變異數膨脹因素( Variance inflation factor, VIF ,大於 10 有共線性問題) III.條件指標( Condition index, CI ,大於 30 有共線性問題) 為了解決這個方法,subsets 與 shrinkage兩種方法便孕育而生了 兩種方法代表模型如下: subsets: Stepwise            shringkage: lasso and ridge 其中lasso 跟Stepwise目前被頻繁用於變數挑選上。 B. 子集回歸(subsets regression) Forward stepwise: 在空的迴歸模型中,逐一加入變數,直到AIC值為最小  Backward stepwise: 在包含所有變數的模型中,逐一刪除變數,直到AIC值為最小  Bo...

Kaggle 鐵達尼生存預測 top 6%

圖片
主題: Kaggle 鐵達尼生存預測 top 6% and R語言 學習歷程小分享 適合對象: 對機器學習有興趣的初學者 小弟的背景: 國立大學BA碩畢,接觸R語言近一年~ <前言>      本來是只會SPSS搭配個Process外掛的社科生,某天撇到教授桌上安裝的R語言覺得好奇,餵狗後發現人外有人天外有天,於是開始了R語言的自學之路.....      接觸後開始學習用R跑SPSS已經會的分析,爾後慢慢接觸到機器學習的領域,更是覺得自己不過是個小小C咖,接受自己渺小後就開始努力學習一直到現在了.....       學了一陣子相關理論以及coding練習操作,再來就是挑戰手邊可以觸及的Open Source,Kaggle的鐵達尼存活分析便是一個很適合初學者的專案,加上前10趴用R語言討論titanic的文章不多QAQ,所以決定產出這篇。 <Titanic> 這次的分析步驟主要為: A.針對整體資料進行EDA 初探 分析資料前,最基本的問題便是,對於資料的"外表"了解多少? 除了基本的敘述性統計,以視覺化的方式表現可以立刻地掌握出變數間的關係,也是後期特徵工程很重要的參考基準。 B. 對於資料進行整理 和EDA同樣重要的便是對於NA遺漏值的清理、複雜的字串處理以及對於data frame的型式整理。 以上ab兩步驟便是Data mining流程中很重要的Data understanding & Data preparation,其實跟data相關的工作基本上大概花了百分之80以上的時間在這兩步(甚至更多!!!!!!),實在是個大工程。 C. Model 建模的選擇 from :  https://zi.media/@yidianzixun/post/npCNEk          這次的分析是先透過訓練data後,再對剩下的testing data做存活與否binary的預測,乃監督式學習,所以當時的考量有: random forest, logistic regression, SVM,在Kaggle板上也都有人試過了,...