發表文章

目前顯示的是 1月, 2020的文章

Spatial Analysis part 1

Spatial Analysis part 1 空間資料的分析處理,在R語言中會用到的是leaflet的package,leaflet是適用於各種平台的JavaScript地圖繪製工具,並且可適用於電腦與行動裝置的使用,快速方便好呈現,並且可以嵌用於Markdown與Shiny的程式裡,本篇因為呈現效果的關係,選在Rpub作說明~ 網址如下: http://rpubs.com/TimoBoll/566519 這次做到cluster完,Part 2 會往UX的方向執行!

3 Ways of Categorical Variable Encoding

圖片
     本篇文章主要介紹處理Categorical Data 常用的encoding技巧,同時以進階高數量類別特徵(high-cardinality)的資料作示範,這次的資料是由Amazon提供,可於 kaggle 下載。     何謂Categorical Data?何謂Encoding? Categorical Data其實蠻簡單,就是測量尺度中的nominal 與 ordinal credit to:  https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02 Nominal :  只能用來比較相等或者不相等,而不能比較大小,更不能用來進行四則算術運算。 eg : 男女 /  貓狗牛 / 蔡英文、川普 / 編號89757、編號666  Ordinal :  類別有一定的順序或大小。次序尺度的變量之間除比較是否相等外,還可以比較大小。但是,加減乘除的運算仍然不能用在次序尺度中。 eg : 很滿意~很不滿意 /  開心~ 不爽    我們在日常生活中碰到的數據千奇百種,通常也都會有文字或者亂碼,將其登記為數字(例如:士林區為1,北投區為2)的過程就稱為 Encoding,本篇會介紹三種Encoding 的方式,分別為: 1. Label encoding 2. One hot encoding 3. Target encoding (smooth mean with noise) 本次Data: Amazon員工訪問權限       該數據包含從2010年和2011年收集的歷史數據。隨著時間的推移,會手動允許或拒絕員工Access資源。目標是建立一個準確預測Access的模型,好節省一來一往申請Access的時間! Data Feature: 1. Action: 目標,1 = approved /  0 = deny 2. Resource : 資源ID 3.  MGR_ID : 員工主管的I...