Data wrangling and visualization
I. 緣由 As title, 隨著處理資料的技能越點越多,基本上在每一次的分析裡不可能只用到一個data table,一定還會伴隨著很多合併(merge)、角力(wrangling)的過程;進行EDA的時候也一定會使用到視覺化的技術,好讓資料看起來能更加的能夠溝通。 這篇文章會以R for data science為基礎,介紹裡面關於R是如何處理關聯資料集(relational data) 與 資料視覺化(data visualization ) 的相關技巧。 同時,在我學習python的時候也提醒自己不要忘記R的語法~~~ II. tidy data Tidy data 是由 R Studio 之神 Hadley Wickham(不誇張,真的) 所提出,是一種「資料架構標準」, 有分析經驗的朋友們都知道,資料角力會花上的時間遠比建模來的多,然而,傳統的方式把資料清理乾淨,有時不一定利於分析,例如Excel的樞紐分析,因此Hadley Wickham題出了以結構化的方式整理資料更有利於後續分析,就是所謂的 tidy data。 而一個 Tidy Dataset 會滿足以下三個條件(如下圖所示): 每個變數 (variable) 都會形成一個 column 每個觀察個體 (observation) 都會形成一個 row 每一種類型的觀察個體會形成一個 table,比如說:地區特徵跟個體資料應該存成兩個不同的資料表格。 介紹一下幾種常用的功能: 1. gather head(table4a) # A tibble: 3 x 3 country `1999` `2000` <chr> <int> <int> 1 Afghanistan 745 2666 2 Brazil 37737 80488 ...