本篇文章主要介紹處理Categorical Data 常用的encoding技巧,同時以進階高數量類別特徵(high-cardinality)的資料作示範,這次的資料是由Amazon提供,可於 kaggle 下載。 何謂Categorical Data?何謂Encoding? Categorical Data其實蠻簡單,就是測量尺度中的nominal 與 ordinal credit to: https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02 Nominal : 只能用來比較相等或者不相等,而不能比較大小,更不能用來進行四則算術運算。 eg : 男女 / 貓狗牛 / 蔡英文、川普 / 編號89757、編號666 Ordinal : 類別有一定的順序或大小。次序尺度的變量之間除比較是否相等外,還可以比較大小。但是,加減乘除的運算仍然不能用在次序尺度中。 eg : 很滿意~很不滿意 / 開心~ 不爽 我們在日常生活中碰到的數據千奇百種,通常也都會有文字或者亂碼,將其登記為數字(例如:士林區為1,北投區為2)的過程就稱為 Encoding,本篇會介紹三種Encoding 的方式,分別為: 1. Label encoding 2. One hot encoding 3. Target encoding (smooth mean with noise) 本次Data: Amazon員工訪問權限 該數據包含從2010年和2011年收集的歷史數據。隨著時間的推移,會手動允許或拒絕員工Access資源。目標是建立一個準確預測Access的模型,好節省一來一往申請Access的時間! Data Feature: 1. Action: 目標,1 = approved / 0 = deny 2. Resource : 資源ID 3. MGR_ID : 員工主管的I...