Michael's notes

本篇文章主要介紹處理Categorical Data 常用的encoding技巧，同時以進階高數量類別特徵(high-cardinality)的資料作示範，這次的資料是由Amazon提供，可於 kaggle 下載。何謂Categorical Data?何謂Encoding? Categorical Data其實蠻簡單，就是測量尺度中的nominal 與 ordinal credit to: https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02 Nominal : 只能用來比較相等或者不相等，而不能比較大小，更不能用來進行四則算術運算。 eg : 男女 / 貓狗牛 / 蔡英文、川普 / 編號89757、編號666 Ordinal : 類別有一定的順序或大小。次序尺度的變量之間除比較是否相等外，還可以比較大小。但是，加減乘除的運算仍然不能用在次序尺度中。 eg : 很滿意~很不滿意 / 開心~ 不爽我們在日常生活中碰到的數據千奇百種，通常也都會有文字或者亂碼，將其登記為數字(例如:士林區為1，北投區為2)的過程就稱為 Encoding，本篇會介紹三種Encoding 的方式，分別為： 1. Label encoding 2. One hot encoding 3. Target encoding (smooth mean with noise) 本次Data: Amazon員工訪問權限該數據包含從2010年和2011年收集的歷史數據。隨著時間的推移，會手動允許或拒絕員工Access資源。目標是建立一個準確預測Access的模型，好節省一來一往申請Access的時間！ Data Feature: 1. Action: 目標，1 = approved / 0 = deny 2. Resource : 資源ID 3. MGR_ID : 員工主管的I...

搜尋此網誌

Michael's notes

發表文章

Spatial Analysis part 1

3 Ways of Categorical Variable Encoding